McMillan進一步強調(diào)說:“采用GPT-4,你基本上立刻就擁有了財富管理領(lǐng)域最博學(xué)的人的知識……可以把它想象成我們的首席投資策略師、首席全球經(jīng)濟學(xué)家、全球股票策略師,以及全球其他每一位分析師,并且每天都在待命。我們相信,這對我們公司來說是一種變革能力。”
這是知識管理的終極目標——將企業(yè)的知識和專長體現(xiàn)在與客戶交互的系統(tǒng)、過程和工具中的能力。
那么真的達到這個目標了嗎?生成式人工智能是知識訪問、檢索和應(yīng)用的答案嗎?在宣布戰(zhàn)勝信息混亂之前,考慮一些基本元素和注意事項是很重要的。
首先,生成式人工智能可以克服知識管理挑戰(zhàn)的認知背后有一個假設(shè),即知識以明確的、記錄的形式存在。然而,在大多數(shù)企業(yè)中,知識被鎖定在員工的頭腦中,如果以數(shù)字形式存儲,它就會分散在部門、技術(shù)和存儲庫的生態(tài)系統(tǒng)中的孤島中。OpenAI公司在其網(wǎng)站進一步指出,摩根士丹利每年發(fā)表數(shù)千篇論文,其內(nèi)容涉及資本市場、資產(chǎn)類別、行業(yè)分析和全球經(jīng)濟區(qū)域……這些知識財富為摩根士丹利公司創(chuàng)建了一個獨特的內(nèi)部內(nèi)容庫,可以使用GPT-4進行處理和解析,同時也可以進行內(nèi)部控制。摩根士丹利擁有的知識可以構(gòu)成使用ChatGPT大型語言模型的基礎(chǔ)。如果企業(yè)內(nèi)容和知識資源不可獲取,質(zhì)量很差,或者與客戶和員工的需求不一致,ChatGPT將無法訪問響應(yīng)這些需求的特定知識。
第二,生成式人工智能創(chuàng)造內(nèi)容。它不是一個檢索機制。那么原始知識庫是如何使用的呢?這是一個棘手的領(lǐng)域。ChatGPT正在尋找內(nèi)容和概念關(guān)系中的模式,以便它可以根據(jù)提示預(yù)測應(yīng)該顯示哪些文本。提示符是一種信號,就像搜索詞是一種信號一樣。搜索引擎不僅根據(jù)術(shù)語,而且還根據(jù)與查詢場景相關(guān)的其他信號(例如,行業(yè)或搜索者的角色)預(yù)測應(yīng)該顯示哪些信息。可以在提示中以事實或文檔的形式向ChatGPT提供場景,也可以通過指向作為響應(yīng)基礎(chǔ)的特定信息以編程方式提供場景。
大型語言模型——同義詞庫
大型語言模型是包含在信息體中的術(shù)語、概念和關(guān)系的數(shù)學(xué)表示。大型語言模型的強大之處在于它們能夠理解用戶的意圖——無論請求是如何表達的,用戶都在尋找什么內(nèi)容,以及預(yù)測最有可能響應(yīng)用戶意圖的單詞模式。該模型“理解”用戶的請求,并對應(yīng)該返回的內(nèi)容做出預(yù)測。搜索引擎也會根據(jù)用戶的查詢做出預(yù)測,盡管是通過不同的機制。搜索引擎可以用于生成人工智能場景中的檢索。使用語義搜索或神經(jīng)搜索引擎檢索內(nèi)容,并使用大型語言模型為用戶格式化響應(yīng)。
同義詞庫將非首選術(shù)語映射為首選術(shù)語(例如,“SOW”和“Statement of Work”映射為“Proposal”,即標記文檔的首選術(shù)語)。把大型語言模型的一個方面看作是“同義詞庫”,但不僅僅是單詞,而且是短語和概念。用戶可以用許多不同的方式提出相同的問題。這種意圖分類并不新鮮,它是將短語變化解析為特定動作的聊天機器人的基礎(chǔ)。語言模型是意圖解析和分類功能的基礎(chǔ)。
大型語言模型還能理解提示符后面的單詞模式。這就是啟用ChatGPT會話流暢性的方式。使它們對企業(yè)具有實用性的關(guān)鍵是根據(jù)特定的內(nèi)容或知識體來調(diào)整模型(摩根士丹利在實施ChatGPT時就是這樣做的),并吸收企業(yè)獨有的術(shù)語。
有許多帶有示例代碼的教程說明了如何使用具有特定內(nèi)容的大型語言模型。例如,其視頻引導(dǎo)開發(fā)人員完成使用語言模型(如GPT-4)并將聊天機器人指向特定知識和內(nèi)容的過程。
面向企業(yè)的知識專用機器人
在回顧了這些教程之后,有一些觀察結(jié)果:
定制的、特定于知識的聊天機器人可以使用大型語言模型來理解用戶的要求,然后從指定的知識來源返回結(jié)果。開發(fā)人員指出,需要將內(nèi)容“分塊”成“語義上有意義”的部分。為回答特定問題而設(shè)計的組件化內(nèi)容需要完整且符合場景。重要的是要注意,知識通常不存在于這種狀態(tài)。要進行組件化,必須將大型文檔和文本主體分解成塊。例如,用戶手冊可以按章、節(jié)、段和句子分成若干部分。在技術(shù)文檔領(lǐng)域,這已經(jīng)做到了——DITA (達爾文信息類分類架構(gòu))等標準使用了基于主題的方法,非常適合回答問題。
開發(fā)人員談?wù)?ldquo;語義”以及語義的重要性。這是什么意思?語義學(xué)是關(guān)于意義的。語義豐富的內(nèi)容用元數(shù)據(jù)標記,元數(shù)據(jù)有助于精確檢索所需的信息和信息的場景。例如,如果用戶使用特定型號的路由器,并且該路由器發(fā)出錯誤代碼,那么當請求支持機器人幫助時,可以檢索標有這些標識符的內(nèi)容。這個過程在聊天機器人領(lǐng)域也被稱為“插播”。
自定義內(nèi)容被攝取到所謂的“向量空間”中,這是另一種信息數(shù)學(xué)模型,它將文檔放在多維空間中(這是一種數(shù)學(xué)構(gòu)造),允許對類似的文檔進行聚類和檢索。這被稱為“嵌入”。嵌入可以包含元數(shù)據(jù)和標識符(例如參考源),這些元數(shù)據(jù)和標識符有助于記錄向用戶提供特定答案的原因。這對于法律責任和監(jiān)管目的以及向用戶提供正確、最權(quán)威信息的保證都很重要。
訓(xùn)練人工智能的定義
關(guān)于“訓(xùn)練”有幾個觀點。ChatGPT和大型語言模型在大量內(nèi)容上進行了訓(xùn)練,使它們能夠理解用戶的查詢,并以格式良好且具有會話性的最佳答案進行響應(yīng)。訓(xùn)練該工具的一種方法是在提示符中包含內(nèi)容,“根據(jù)以下信息回答這個問題……”
但在這里有兩個問題:
首先,ChatGPT在其提示符中只能處理一定數(shù)量的內(nèi)容,這種提問方式將非常有限??梢詫?nèi)容攝取到工具中,這將支持額外的訓(xùn)練。然而,將內(nèi)容添加到ChatGPT中也會將該內(nèi)容合并到公共模型中。因此,企業(yè)的知識產(chǎn)權(quán)將受到損害。這種風險導(dǎo)致許多企業(yè)禁止使用ChatGPT和其他因無意中上傳企業(yè)機密而丟失知識產(chǎn)權(quán)的人工智能工具。
另外,還有另一種訓(xùn)練內(nèi)容的方法。大型語言模型可以使用企業(yè)特定知識作為訓(xùn)練語料庫的一部分,但這需要提供一個防火墻后面的版本。幸運的是,大型語言模型正在迅速實現(xiàn)商品化,有些甚至可以在筆記本電腦上本地運行。這種類型的訓(xùn)練在計算上也很昂貴。另一種機制是使用大型語言模型來解釋用戶的目標(他們的意圖),然后使用向量嵌入以編程方式提供來自特定數(shù)據(jù)或內(nèi)容源的場景。
然后,語言模型對響應(yīng)進行處理和格式化,使其具有對話性和完整性。通過這種方式,知識與大型語言模型分開,使企業(yè)的商業(yè)秘密和知識產(chǎn)權(quán)不會受到損害。
所有這些因素都表明需要知識管理和知識架構(gòu),將信息組織成組件,以便用戶可以獲得特定問題的答案。大型語言模型和ChatGPT的革命性本質(zhì)可以提供所需的會話流暢性,以近乎人類的互動水平來支持積極的客戶體驗。關(guān)鍵因素是獲得企業(yè)中結(jié)構(gòu)良好的知識。ChatGPT看起來很神奇,但它是基于信息的統(tǒng)計處理和模式預(yù)測。如果正確地組織和整合信息,將會成為企業(yè)數(shù)字化轉(zhuǎn)型的重要組成部分。
關(guān)于企業(yè)網(wǎng)D1net(m.r5u5c.cn):
國內(nèi)主流的to B IT門戶,同時在運營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_-信眾智(www.cioall.com)。同時運營19個IT行業(yè)公眾號(微信搜索D1net即可關(guān)注)
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責任的權(quán)利。