国产综合久久亚洲综合,国产精品亚洲日韩欧美色窝窝色欲 ,国产精品毛片久久久久久久,国产精品亚洲va在线,国产精品免费观看久久

ChatGPT,大語(yǔ)言模型的局限性對(duì)其在學(xué)術(shù)方面應(yīng)用的影響

時(shí)間:2023-06-08 04:08:36       來(lái)源:嗶哩嗶哩

很多人(包括我)都對(duì)時(shí)下興起的大語(yǔ)言模型輔助學(xué)術(shù)研究的能力寄予厚望。畢竟,如果能節(jié)省掉從浩如煙海的文獻(xiàn)當(dāng)中檢索關(guān)鍵信息所耗費(fèi)的時(shí)間,那就能大幅提高整體的學(xué)習(xí)研究效率。


(資料圖片)

但是,大語(yǔ)言模型本身,對(duì)于水平層級(jí)稍有拔高的學(xué)術(shù)性問(wèn)題,所能獨(dú)立生成有效答復(fù)的能力,是相當(dāng)不可靠的。

以我今天實(shí)驗(yàn)性提出的問(wèn)題為例,使用的是OpenAI官方免費(fèi)開(kāi)放的ChatGPT界面,嘗試對(duì)一個(gè)并非很冷門(mén)艱深的問(wèn)題向GPT提問(wèn),以下是我的提問(wèn)和嘗試糾正其錯(cuò)誤的過(guò)程:

(到了最后,我對(duì)ChatGPT的學(xué)習(xí)能力心灰意冷,直接打斷了它的發(fā)言)

如果你看到ChatGPT回答的左側(cè)有類似3/3這樣的標(biāo)記,說(shuō)明我已經(jīng)嘗試了2次重新生成回復(fù),現(xiàn)在看到的是第3版回復(fù)。如果你在回答的右側(cè)看到被加深了的“差評(píng)”圖標(biāo),說(shuō)明我已經(jīng)通過(guò)反饋界面提交了改進(jìn)提示。

長(zhǎng)文預(yù)警!如果你沒(méi)有預(yù)期花較多時(shí)間閱讀這篇文章,請(qǐng)直接跳到末尾看總結(jié)。

通過(guò)這樣反復(fù)的提問(wèn)和啟發(fā)過(guò)程,可以很容易看出來(lái),當(dāng)今Transformer類大語(yǔ)言模型呈現(xiàn)出來(lái)如下幾個(gè)明顯缺陷:

1. 邏輯語(yǔ)義能力

語(yǔ)言模型的訓(xùn)練目標(biāo)是純粹的“生成文本流”而不是“語(yǔ)義分析”。當(dāng)然,概念性的語(yǔ)義向量化還是會(huì)做的,但是邏輯性的語(yǔ)義,尤其是組合的邏輯,則是非常弱化的。我的猜測(cè),是因?yàn)樵诂F(xiàn)在的大模型訓(xùn)練指導(dǎo)思想中,“邏輯”并沒(méi)有特殊的地位,它只不過(guò)被當(dāng)做了語(yǔ)義分析中通過(guò)CNN等神經(jīng)網(wǎng)絡(luò)訓(xùn)練的語(yǔ)義當(dāng)中的普通組成部分,因此沒(méi)有獲得額外的重視。

對(duì)學(xué)術(shù)研究輔助來(lái)說(shuō),這樣的模型正好契合了約翰·瑟爾提出的思想實(shí)驗(yàn)“中文房間”,表述如下:

一個(gè)對(duì)中文一竅不通,只說(shuō)英語(yǔ)的人關(guān)在一間只有一個(gè)開(kāi)口的封閉房間中。房間里有一本用英文寫(xiě)成的手冊(cè),指示該如何處理收到的中文訊息及如何以中文相應(yīng)地回復(fù)。房外的人不斷向房間內(nèi)遞進(jìn)用中文寫(xiě)成的問(wèn)題。房?jī)?nèi)的人便按照手冊(cè)的說(shuō)明,查找合適的指示,將相應(yīng)的中文字符組合成對(duì)問(wèn)題的解答,并將答案遞出房間。

在上述過(guò)程中,房外人的角色相當(dāng)于大語(yǔ)言模型的用戶,房中人相當(dāng)于計(jì)算機(jī),而手冊(cè)則相當(dāng)于大語(yǔ)言模型的程序及其模型參數(shù):每當(dāng)房外人給出一個(gè)輸入,房?jī)?nèi)的人便依照手冊(cè)給出一個(gè)答復(fù)(輸出)。

如果大語(yǔ)言模型不具備以人類級(jí)別理解邏輯的能力,那它通過(guò)海量(即使都是正確的)語(yǔ)料訓(xùn)練集得到的結(jié)果,依然很容易產(chǎn)生事實(shí)性錯(cuò)誤。

對(duì)常規(guī)的名詞動(dòng)詞和資料庫(kù)關(guān)聯(lián)的能力并不能說(shuō)明語(yǔ)言模型的綜合語(yǔ)義能力。就好比一個(gè)從未學(xué)過(guò)日語(yǔ)、只能通過(guò)漢字猜測(cè)日語(yǔ)意思的中國(guó)人,去翻閱日本二戰(zhàn)前的文獻(xiàn),也很容易從大量使用的漢字中了解文本對(duì)應(yīng)的主題。但是一個(gè)簡(jiǎn)單的否定詞(ない),便會(huì)讓句子的含義變得完全相反。

雖然大語(yǔ)言模型沒(méi)有弱到連直白的否定詞都會(huì)搞錯(cuò),但只要邏輯表達(dá)稍微復(fù)雜一點(diǎn)/模糊一點(diǎn),語(yǔ)言模型便暴露出其沒(méi)有(按人類概念)解析邏輯脈絡(luò)的實(shí)質(zhì)。

如果AI的語(yǔ)言能力實(shí)際水準(zhǔn)是這樣的,那么對(duì)其提問(wèn)時(shí),采納其答案并省略查閱原始文獻(xiàn)的步驟,就是非常高風(fēng)險(xiǎn)的行為。

2. (動(dòng)態(tài))記憶分層能力

其實(shí)對(duì)于大語(yǔ)言模型的記憶分層,現(xiàn)在非常普遍的實(shí)現(xiàn)往往包含3個(gè)層次:

基底模型,通過(guò)海量語(yǔ)料和參數(shù)實(shí)現(xiàn)了模型的基本對(duì)話能力

fine-tuning,在不改變基底模型的前提下,為特定應(yīng)用目標(biāo)而訓(xùn)練出一個(gè)對(duì)基底模型的調(diào)整方向

prompt,完全不改變模型的前提下,僅在運(yùn)行期“催眠”模型,本質(zhì)是讓模型通過(guò)對(duì)話歷史的短期記憶來(lái)對(duì)后續(xù)的文本生成產(chǎn)生影響。

我不是transformer模型的專家,具體分層的合理性我不能指手畫(huà)腳。

但通過(guò)上面的ChatGPT聊天記錄,可以輕松看出一個(gè)問(wèn)題:聊天記錄程度的短期記憶,是非常不牢靠的。

只要我們稍微一打岔,語(yǔ)言模型很容易把之前交代的事給拋之腦后。不管你反復(fù)強(qiáng)調(diào)了多少次還是這樣。

當(dāng)然,這只是ChatGPT 3.5,但這個(gè)程度,絕對(duì)是比上不足比下有余。如果棄用ChatGPT 3.5的理由是它太弱了,那么世界上還剩幾個(gè)比它強(qiáng)的大語(yǔ)言模型呢?實(shí)際來(lái)說(shuō),又有多少人已經(jīng)把自己完全綁上了GPT4的戰(zhàn)船呢?

說(shuō)回到模型本身的局限性,本質(zhì)上是一個(gè)與生俱來(lái)的問(wèn)題——

當(dāng)我們討論大語(yǔ)言模型的成果在這兩年爆炸式井噴時(shí),對(duì)于其原理,總的來(lái)說(shuō),還是落不了“力大磚飛”這四個(gè)字的俗套。

雖然算法本身也經(jīng)歷了大量的優(yōu)化改良,但transformer模型對(duì)比復(fù)古的nlp研究,講究的是一個(gè)敢喂敢練。

傳統(tǒng)方法總還是把自然語(yǔ)言文本當(dāng)做語(yǔ)言來(lái)處理,試圖找出語(yǔ)言學(xué)的規(guī)律,讓ai程序利用這種規(guī)律。

而transformer模型,它的特點(diǎn)就是,語(yǔ)言學(xué)是什么?我只要能處理文本就行了,算力往上堆,顯存往上壘,參數(shù)規(guī)模往上疊,最后boom!突然人們發(fā)現(xiàn)這個(gè)模型對(duì)問(wèn)題的回答真的就已經(jīng)有模有樣了,都不需要什么語(yǔ)言學(xué)知識(shí)。

換言之,甭管是過(guò)去的語(yǔ)言學(xué)家認(rèn)為多么天差地別的語(yǔ)言,只要語(yǔ)料往里面喂得多,就能大力出奇跡。

在這樣設(shè)計(jì)出來(lái)的nlp方案當(dāng)中,模型參數(shù)的迭代,和模型程序的應(yīng)用,是完全分離開(kāi)來(lái)的。一個(gè)用戶在和GPT對(duì)話的過(guò)程中,他充其量只能做到prompt(催眠),但對(duì)背后的語(yǔ)言模型本身是撼動(dòng)不了分毫。

這也就是為什么,在上述ChatGPT聊天記錄中,不管我反復(fù)強(qiáng)調(diào)了多少次,ChatGPT始終會(huì)忘記我教給它的知識(shí)——其實(shí)我什么都沒(méi)能教給它,他只是記住了“跟這個(gè)人聊天的時(shí)候要順著他的心思來(lái)”。

假如算力和存儲(chǔ)允許,或許transformer模型還能從幾百字之前的聊天記錄中回憶起我對(duì)它的要求,如果算力/存儲(chǔ)吃緊,那它自然就會(huì)忘記我對(duì)它的指導(dǎo)——因?yàn)閷?duì)它來(lái)說(shuō),不論是嚴(yán)肅的學(xué)術(shù)知識(shí),還是要求它扮演貓娘的指令,對(duì)待的方式?jīng)]有任何區(qū)別。只要用戶結(jié)束了這段對(duì)話,所有這些記憶就直接消失到九霄云外。

我自己也在本機(jī)部署過(guò)ChatGLM-6B,可以觀察到,隨著對(duì)話記錄的增加,顯存的開(kāi)銷會(huì)以可觀的速度不斷增加。

Transformer模型對(duì)待聊天歷史的缺陷便在于此——它沒(méi)有能力從程序?qū)用嫒^(qū)分處理這些記錄在記憶當(dāng)中的存在形式。

人類在對(duì)話中,會(huì)對(duì)于接收到的信息簡(jiǎn)單分類:

如果完全沒(méi)有新概念,那就完全按照已有知識(shí),該怎么交流就怎么交流

如果存在新概念,判斷這到底是“知識(shí)”還是“方法”

如果是“知識(shí)”,則需要檢索記憶區(qū)并記錄;如果存在沖突,就需要根據(jù)世界觀評(píng)估到底哪一方是對(duì)的,又或者雙方都需要批判性吸收

如果是“方法”,則需要通過(guò)方法論評(píng)估其是否值得采信,如果值得,那么在不特定的未來(lái),這將會(huì)影響自己的行為準(zhǔn)則

回到transformer大語(yǔ)言模型,我們會(huì)發(fā)現(xiàn),上述的處理邏輯,對(duì)于這些語(yǔ)言模型來(lái)說(shuō)根本就不存在這樣的區(qū)分。

所有的對(duì)話指導(dǎo),只不過(guò)是過(guò)眼云煙。只有模型參數(shù),才是永恒不變(實(shí)際上是在版本迭代之前不會(huì)改變)

關(guān)于其原因,則是下一段要討論的內(nèi)容。

3. 世界觀

大語(yǔ)言模型沒(méi)有世界觀,也沒(méi)有方法論。堆砌語(yǔ)料庫(kù)的訓(xùn)練過(guò)程就是“思想鋼印”,不存在評(píng)估,不存在批判,只有訓(xùn)練和擬合。

馬斯克說(shuō)現(xiàn)在ai研究機(jī)構(gòu)在訓(xùn)練ai說(shuō)謊。我覺(jué)得這只是對(duì)不懂a(chǎn)i的人的說(shuō)辭。

真實(shí)情況是,transformer模型根本不存在“說(shuō)謊”的行為基礎(chǔ)?!罢f(shuō)謊”是你知道a是對(duì)的,但你說(shuō)出口的卻是“非a”或者“(與a抵觸的)b”。如果你連“什么是對(duì)的”都不知道,那“說(shuō)謊”便無(wú)從成立了。

transformer模型沒(méi)有世界觀/是非觀。它的行為準(zhǔn)則是權(quán)重參數(shù),對(duì)應(yīng)的量綱是概率。

說(shuō)到底,它只是一個(gè)“盡可能生成讓人滿意的答復(fù)”的應(yīng)答裝置。

而這個(gè)滿意度,其實(shí)標(biāo)定得完全不夠充分,不僅如此,我們之前還介紹了,這個(gè)模型不具備通過(guò)對(duì)話過(guò)程來(lái)主動(dòng)/動(dòng)態(tài)自我改進(jìn)的能力。(OpenAI會(huì)收集用戶聊天記錄來(lái)改進(jìn)他們的模型,但這是單獨(dú)的、開(kāi)發(fā)者手動(dòng)的、對(duì)ai來(lái)說(shuō)就是被動(dòng)的再訓(xùn)練過(guò)程。聊天過(guò)程中模型是不會(huì)實(shí)時(shí)改進(jìn)的)

有人可能要問(wèn)了,“我看AI在有些問(wèn)題上三觀很正??!我怎么指鹿為馬它都堅(jiān)決不從”

參考視頻:

其實(shí)這個(gè)原理也很簡(jiǎn)單。

AI沒(méi)長(zhǎng)嘴也沒(méi)長(zhǎng)胃,它又不知道鴨子是什么滋味,吃了老鼠肉會(huì)不會(huì)鬧肚子。說(shuō)得更直接點(diǎn),“老鼠”這個(gè)定義對(duì)AI來(lái)說(shuō),和對(duì)人來(lái)說(shuō),完全是兩碼事。

“老鼠”對(duì)人來(lái)說(shuō),是一種會(huì)傳播病原體的動(dòng)物,肉少,吃了更容易得病,這些都是很關(guān)鍵的屬性,但是對(duì)于圖像識(shí)別模型來(lái)說(shuō),“老鼠”只不過(guò)是所有那些被標(biāo)明為“老鼠”的圖像數(shù)據(jù)的綜合特征。至于這類物體被命名為“老鼠”還是“鴨子”,由于圖像模型的孤立性,反而是一個(gè)(從原則上講)無(wú)足輕重的問(wèn)題。

如果一個(gè)人說(shuō)“我們管這玩意叫老鼠,那些外國(guó)人居然管它叫rat,多么可笑!”,其實(shí)可笑的是說(shuō)話的人自己。因?yàn)椴还苷Z(yǔ)言上的用詞差異有多大,它們對(duì)應(yīng)的是同一個(gè)概念,人類對(duì)老鼠的認(rèn)知是老鼠的形狀,顏色,習(xí)性,味道(如果真的有勇士下嘴的話),等等一系列可以被感知的屬性。這個(gè)概念到底被稱作“老鼠”還是“鴨子”本身只是一個(gè)命名的問(wèn)題。只有當(dāng)與“老鼠”相關(guān)聯(lián)的概念和“鴨子”相關(guān)聯(lián)的概念被混淆時(shí),我們才會(huì)認(rèn)為發(fā)言者非蠢即壞。

那為什么ai堅(jiān)稱老鼠不是鴨子呢?

因?yàn)橐曨l中采用的洗腦方法,是要解除老鼠圖像和”老鼠“之間的聯(lián)系,而這對(duì)于模型來(lái)說(shuō),是根本沒(méi)有提供的功能。圖像識(shí)別模型,說(shuō)到底是一種圖像到語(yǔ)義之間的轉(zhuǎn)換函數(shù),這一部分,是不歸語(yǔ)言模型管的,所以不管你再怎么洗腦,這個(gè)圖片對(duì)應(yīng)的”老鼠“語(yǔ)義是不可能消除了(除非重新訓(xùn)練模型),但是如果你告訴語(yǔ)言模型:在我們的暗號(hào)游戲中,要求在接下來(lái)的對(duì)話中把”老鼠“稱作”鴨子“,你就會(huì)發(fā)現(xiàn)AI毫不猶豫就接受了你的指令。

回到大語(yǔ)言模型的世界觀/是非觀問(wèn)題上來(lái),其實(shí)本質(zhì)問(wèn)題是,大語(yǔ)言模型沒(méi)有人類的感官。這就是它不能以人類的水準(zhǔn)認(rèn)知世界的根源。如果人類被剝奪了用感官直接認(rèn)知世界的權(quán)利,那么人類的世界觀也會(huì)降級(jí)到AI程序的水平。

舉個(gè)簡(jiǎn)單的例子:

中國(guó)自媒體:美國(guó)治安混亂,常駐零元購(gòu),槍?xiě)?zhàn)每一天

美國(guó)主流媒體:中國(guó)人民飽受壓迫,沒(méi)有基本自由,生活水深火熱

試問(wèn),如果這些媒體的受眾,對(duì)媒體筆下的“美國(guó)”“中國(guó)”唯一的了解途徑就是這些文字資料,那他們的世界觀,除了相信媒體上的發(fā)言,還能有什么例外呢?

對(duì)于沒(méi)有條件實(shí)地調(diào)查親身感受的人,做出了自認(rèn)為是正確的錯(cuò)誤判斷,這根本就無(wú)法稱之為“說(shuō)謊”。

他們的世界觀的這一部分,都是“沒(méi)有調(diào)查,沒(méi)有發(fā)言權(quán)”的海市蜃樓。

而基于文本的大語(yǔ)言模型,它的世界觀,100%都是這樣的海市蜃樓。

綜上所述,即便是當(dāng)今幾乎最先進(jìn)的大語(yǔ)言模型,

若要考慮其純粹理性的邏輯能力,能力水平低下到近乎原始的程度;

假如把它當(dāng)做一個(gè)經(jīng)驗(yàn)的整合裝置,那么對(duì)于其生成出的錯(cuò)誤的修訂又存在很大的麻煩;

當(dāng)我們探究這些麻煩的根源,就會(huì)發(fā)現(xiàn),看似美好的“會(huì)說(shuō)人話”很大程度上只是鸚鵡學(xué)舌,整個(gè)“人工智能”的“智慧”概念也是個(gè)似是而非的空中樓閣。

關(guān)于提到的這些問(wèn)題的改進(jìn)方向思考,專欄空間太小了,我寫(xiě)不下。實(shí)際上是一片文章寫(xiě)太長(zhǎng)了對(duì)讀者不友好(雖然現(xiàn)在已經(jīng)很不友好了),有機(jī)會(huì)的話之后再另開(kāi)一篇。

另:有沒(méi)有從事學(xué)術(shù)研究的朋友,在實(shí)踐的工作流中大量應(yīng)用大語(yǔ)言模型來(lái)輔助檢索文獻(xiàn)的?

面對(duì)本文提到的問(wèn)題,你們采用的是什么解決方案?

關(guān)鍵詞:

首頁(yè)
頻道
底部
頂部