ChatGPT是AIGC的一個(gè)例子,這種技術(shù)可以通過(guò)學(xué)習(xí)嵌入在大量訓(xùn)練數(shù)據(jù)中的模式,自主創(chuàng)建新的原創(chuàng)內(nèi)容,如文本、圖像或音樂(lè)。AIGC在多個(gè)方面都與當(dāng)前其他的機(jī)器學(xué)習(xí)技術(shù)不同。
首先,AIGC模型(如GPT和Stable Diffusion)的輸出是開(kāi)放式的。這些模型從零開(kāi)始生成文本和圖像數(shù)據(jù),而其他常用的判別性(discriminative)ML模型(如分類(lèi)或回歸模型)創(chuàng)建的輸出屬于一組定義良好的值(例如,Yes/No, 0-1之間的數(shù)字)。情感分析模型將根據(jù)一些輸入文本產(chǎn)生積極或消極的情緒,GPT本身可以產(chǎn)生許多不同類(lèi)型的輸入文本。
此外,與目前使用的大多數(shù)模型相反,當(dāng)前的AIGC模型已經(jīng)在大量數(shù)據(jù)集上進(jìn)行了訓(xùn)練。例如,OpenAI在5000億個(gè)令牌上訓(xùn)練了GPT-3。GPT-4、Stable Diffusion和Codex等最新版本的AIGC模型背后的組織尚未披露用于訓(xùn)練模型的確切訓(xùn)練數(shù)據(jù)。這引發(fā)了人們對(duì)潛在的隱私侵犯或版權(quán)侵犯的擔(dān)憂(yōu)。
這些模型的絕對(duì)力量也使它們與眾不同。如今進(jìn)入市場(chǎng)的AIGC模型比過(guò)去的任何模型都要強(qiáng)大,而且它們開(kāi)始展示出其沒(méi)有經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練來(lái)復(fù)制的“涌現(xiàn)特性”(emergent properties,指的是在一個(gè)復(fù)雜系統(tǒng)中,一些新的、意想不到的特性逐漸顯現(xiàn)出來(lái),這些特性在系統(tǒng)的各個(gè)組成部分中并不存在)。從實(shí)際的角度來(lái)看,這意味著用于一個(gè)功能的模型可以被重新利用并用于其他任務(wù)。
最后,這些模型本質(zhì)上是不透明的。解釋一個(gè)有1750億參數(shù)的模型的結(jié)果,或者理解它是如何做出任何給定決定的,幾乎是不可能的。與此同時(shí),這項(xiàng)技術(shù)仍處于初期階段,目前的AIGC模型存在眾所周知的局限性,比如“幻覺(jué)”(hallucinations,即產(chǎn)生明顯錯(cuò)誤的信息),會(huì)產(chǎn)生新的風(fēng)險(xiǎn)。
AIGC的六大風(fēng)險(xiǎn)
AIGC模型的獨(dú)特屬性帶來(lái)了一系列我們?cè)谄渌?lèi)型的模型中看不到的風(fēng)險(xiǎn)。以下是業(yè)務(wù)領(lǐng)導(dǎo)者在考慮AIGC項(xiàng)目時(shí)必須警惕的六大風(fēng)險(xiǎn)。
輸出質(zhì)量問(wèn)題:首先,由于其不可預(yù)測(cè)的性質(zhì),確保AIGC模型生成的輸出質(zhì)量極具挑戰(zhàn)性。營(yíng)銷(xiāo)GPT模型的一個(gè)結(jié)果可能與您的品牌指導(dǎo)方針一致,但另一個(gè)結(jié)果可能不一致。模型創(chuàng)作的廣告在一種文化背景下可能是合適的,但在另一種文化背景下可能是令人反感的。雖然人類(lèi)可能會(huì)很快辨別出這些區(qū)別,但該模型缺乏對(duì)文化細(xì)微差別的意識(shí),可能會(huì)無(wú)意中產(chǎn)生不適當(dāng)?shù)膬?nèi)容。因此,人工審查對(duì)于評(píng)估輸出質(zhì)量仍然是必不可少的。
虛構(gòu)的“事實(shí)”和幻覺(jué):第二,AIGC模型雖然發(fā)展迅速,但仍然存在明顯的局限性,最重要的可能是上面提到的模型編造“事實(shí)”時(shí)的“幻覺(jué)”。結(jié)果可能是無(wú)害的(誤報(bào)誰(shuí)發(fā)明了軋棉機(jī)),也可能引發(fā)訴訟(捏造刑事指控)。在企業(yè)應(yīng)用程序中,模型產(chǎn)生幻覺(jué)的可能性意味著,在需要準(zhǔn)確信息(如搜索)的情況下使用這些工具之前,需要設(shè)置重要的防護(hù)機(jī)制。
版權(quán)和其他法律風(fēng)險(xiǎn):第三,AIGC存在潛在的重大法律和監(jiān)管風(fēng)險(xiǎn),例如,AIGC工具在未經(jīng)創(chuàng)作者許可的情況下使用了受版權(quán)保護(hù)的材料。此外,AIGC應(yīng)用程序的使用條款往往缺乏對(duì)用戶(hù)交互數(shù)據(jù)用于模型改進(jìn)的明確規(guī)定,這可能會(huì)引發(fā)隱私和安全問(wèn)題,就像涉及企業(yè)源代碼的事件一樣。此外,AIGC模型的訓(xùn)練數(shù)據(jù)缺乏透明度可能會(huì)導(dǎo)致監(jiān)管影響,意大利出于對(duì)隱私、輸出準(zhǔn)確性和年齡驗(yàn)證的擔(dān)憂(yōu)而暫時(shí)禁止ChatGPT就是明證。
有偏見(jiàn)的輸出:第四,基于用于訓(xùn)練模型的數(shù)據(jù)中的偏見(jiàn),AIGC模型與其他模型一樣容易遭受有偏見(jiàn)輸出的風(fēng)險(xiǎn)。例如,Stable Diffusion可能會(huì)根據(jù)提示顯示“公司首席執(zhí)行官”的圖像,并只生成白人男性的圖像。傳統(tǒng)的機(jī)器學(xué)習(xí)模型也會(huì)帶來(lái)同樣的公平和偏見(jiàn)風(fēng)險(xiǎn),但當(dāng)AIGC直接與客戶(hù)互動(dòng)時(shí),新AI模型的生成特性會(huì)增加風(fēng)險(xiǎn)。
易被濫用:第五,AIGC的絕對(duì)力量使其容易被“越獄”。雖然GPT的訓(xùn)練主要集中在單詞預(yù)測(cè)上,但它的推理能力是一個(gè)意想不到的結(jié)果。隨著我們?cè)贏IGC模型方面取得進(jìn)展,用戶(hù)可能會(huì)發(fā)現(xiàn)繞過(guò)模型最初預(yù)期功能的方法,并將其用于完全不同的目標(biāo)。例如,如果您的心理健康聊天機(jī)器人是使用GPT開(kāi)發(fā)的,惡意行為者可能會(huì)破解聊天機(jī)器人,引發(fā)不適當(dāng)?shù)捻憫?yīng)或泄露機(jī)密數(shù)據(jù)。幾乎所有基于GPT構(gòu)建的聊天界面在發(fā)布后不久都容易被“越獄”。
專(zhuān)業(yè)知識(shí)和計(jì)算成本:第六,也是最后一點(diǎn),與AIGC開(kāi)發(fā)應(yīng)用相關(guān)的額外有形業(yè)務(wù)風(fēng)險(xiǎn)是專(zhuān)業(yè)知識(shí)和計(jì)算資源的有限可用性。目前,只有少數(shù)著名的技術(shù)公司能夠集中資源來(lái)使用這種技術(shù)構(gòu)建彈性應(yīng)用程序。雖然云提供商可以提供計(jì)算能力,或者組織可以使用OpenAI或Azure的API,但該領(lǐng)域的專(zhuān)業(yè)知識(shí)仍然集中在少數(shù)實(shí)體手中。
這并不是說(shuō)業(yè)務(wù)領(lǐng)導(dǎo)者不應(yīng)該推進(jìn)AIGC項(xiàng)目。但他們應(yīng)該在自己的AIGC之旅中,睜大眼睛洞察這項(xiàng)技術(shù)的潛在風(fēng)險(xiǎn),并在必要時(shí)采取措施緩解這些風(fēng)險(xiǎn)。
關(guān)于企業(yè)網(wǎng)D1net(m.r5u5c.cn):
國(guó)內(nèi)主流的to B IT門(mén)戶(hù),同時(shí)在運(yùn)營(yíng)國(guó)內(nèi)最大的甲方CIO專(zhuān)家?guī)旌椭橇敵黾吧缃黄脚_(tái)-信眾智(www.cioall.com)。同時(shí)運(yùn)營(yíng)19個(gè)IT行業(yè)公眾號(hào)(微信搜索D1net即可關(guān)注)
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開(kāi)頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。