大語言模型(LLM)能夠理解、解釋和生成人類語言,給各行各業(yè)帶來了革命性的變化。然而,它們也面臨著自身的挑戰(zhàn),包括產(chǎn)生不準(zhǔn)確或誤導(dǎo)性信息(幻覺)、隱私問題和安全漏洞等。
本文探討了這些挑戰(zhàn),并深入研究了 "檢索增強(qiáng)生成(RAG)"這一創(chuàng)新方法,以克服這些挑戰(zhàn),使大語言模型在關(guān)鍵工業(yè)應(yīng)用中變得更加強(qiáng)大和可靠。
大語言模型可以訪問大量文本數(shù)據(jù),但它們的訓(xùn)練數(shù)據(jù)可能已經(jīng)過時(shí),而且僅來自公共領(lǐng)域。大型語言模型需要訪問企業(yè)的工業(yè)數(shù)據(jù),才能讓生成式人工智能(AI)為工業(yè)服務(wù)。通過在經(jīng)過整理的相關(guān)數(shù)據(jù)上 "訓(xùn)練" 大語言模型(類似于 ChatGPT 的訓(xùn)練方式),我們可以提高其在工業(yè)應(yīng)用中響應(yīng)的可靠性和準(zhǔn)確性。
要將生成式 AI 納入數(shù)字化戰(zhàn)略,制造企業(yè)可以從下面三個(gè)基本架構(gòu)著手:
數(shù)據(jù)情境化
情境化數(shù)據(jù)對于確保大語言模型提供相關(guān)且有意義的響應(yīng)至關(guān)重要。例如,在尋求有關(guān)運(yùn)營工業(yè)資產(chǎn)的信息時(shí),提供與這些資產(chǎn)相關(guān)的數(shù)據(jù)和文檔及其顯式和隱式語義關(guān)系變得至關(guān)重要。這種情境化使大語言模型能夠理解任務(wù)并生成上下文適當(dāng)?shù)拇鸢浮?/p>
工業(yè)知識(shí)圖譜
創(chuàng)建工業(yè)知識(shí)圖譜對于提高大語言模型的數(shù)據(jù)質(zhì)量是必要的。此圖通過規(guī)范化、縮放和增強(qiáng)來處理數(shù)據(jù),以確保準(zhǔn)確和可信的響應(yīng)?!袄斎搿敵觥钡墓爬细裱砸策m用于生成AI,強(qiáng)調(diào)了豐富數(shù)據(jù)以提高大語言模型性能的重要性。
檢索增強(qiáng)生成
檢索增強(qiáng)生成(Retrieval Augmented Generation,RAG)是一種先進(jìn)的設(shè)計(jì)模式,使大語言模型能夠在直接響應(yīng)提示時(shí)利用特定的工業(yè)數(shù)據(jù)。通過結(jié)合上下文學(xué)習(xí),RAG允許大語言模型基于私有上下文的數(shù)據(jù)進(jìn)行推理,從而提供確定性的答案,而不是基于現(xiàn)有公共信息的概率響應(yīng)。
此外,RAG 使我們能夠在企業(yè)中保持工業(yè)數(shù)據(jù)的專有性和安全性。像任何先進(jìn)技術(shù)一樣,大語言模型可能容易受到對抗性攻擊和數(shù)據(jù)泄漏。在工業(yè)環(huán)境中,由于專有設(shè)計(jì)和客戶信息等敏感數(shù)據(jù),這些問題更是需要引起足夠的重視。
確保適當(dāng)?shù)哪涿Wo(hù)大語言模型基礎(chǔ)設(shè)施,確保數(shù)據(jù)傳輸安全和實(shí)施強(qiáng)大的身份驗(yàn)證機(jī)制,是降低網(wǎng)絡(luò)安全風(fēng)險(xiǎn)和保護(hù)敏感信息的重要步驟。RAG 允許維護(hù)訪問控制,與大型企業(yè)建立信任并滿足嚴(yán)格的安全和審計(jì)要求。
通過在生成式 AI 解決方案中利用數(shù)據(jù)情境化、工業(yè)知識(shí)圖譜和 RAG 技術(shù),我們不僅可以解決數(shù)據(jù)泄漏、信任和訪問控制以及幻覺等挑戰(zhàn),還可以影響解決方案的整體效率和成本。
大語言模型具有上下文窗口限制,限制了它們在響應(yīng)提示時(shí)可以考慮的令牌范圍。此外,每個(gè)令牌都會(huì)增加每次查詢的總成本。如果把這些查詢想象成谷歌搜索,就會(huì)發(fā)現(xiàn)成本增加是多么容易。
為了解決這個(gè)問題,將專有工業(yè)數(shù)據(jù)情景化、創(chuàng)建工業(yè)知識(shí)圖譜以及通過 RAG 優(yōu)化查詢變得至關(guān)重要。這些步驟可確保實(shí)驗(yàn)室管理人員獲得可搜索且具有語義意義的輸入源,從而更有效地利用龐大的工業(yè)數(shù)據(jù)。
總之,雖然大語言模型為各個(gè)行業(yè)提供了巨大的潛力,但應(yīng)對諸如不準(zhǔn)確性、安全漏洞和隱私風(fēng)險(xiǎn)等挑戰(zhàn)也至關(guān)重要。通過整理和情境化數(shù)據(jù),構(gòu)建行業(yè)知識(shí)圖譜并利用RAG等尖端技術(shù),大語言模型可以成為簡化運(yùn)營、實(shí)現(xiàn)自動(dòng)化任務(wù)和為不同行業(yè)的企業(yè)提供可操作見解的寶貴資產(chǎn)。