91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

AIGC不僅會(huì)污染互聯(lián)網(wǎng) 還會(huì)嚴(yán)重威脅大模型開發(fā)的未來

商界觀察
2023-06-21

過去幾天有關(guān)“AI污染中文互聯(lián)網(wǎng)環(huán)境”的討論又重新熱鬧起來,這個(gè)話題也帶出了另一個(gè)AI“終極命題”:如果世界上絕大部分內(nèi)容都依靠AI生成,屆時(shí)我們還能使用這些內(nèi)容訓(xùn)練出更“聰明”的AI大模型么?

 

先說結(jié)論:情況將變得非常困難且棘手。在目前為數(shù)不多但頗受認(rèn)可的研究中,這種情況被稱為“遞歸的詛咒”:如果大模型的訓(xùn)練高度依賴AIGC內(nèi)容,將很容易出現(xiàn)“崩潰”的情形。

 

此話怎講?

 

雖然現(xiàn)在互聯(lián)網(wǎng)上能找到的文字大部分都是真人寫的,但不可否認(rèn)的是,目前AIGC內(nèi)容正在以非常快的速度出現(xiàn)在廣告營(yíng)銷、流量資訊平臺(tái)以及各式各樣的數(shù)字載體中。從增量的角度來看,隨著大模型的應(yīng)用在未來半年、一年里開花結(jié)果,AIGC內(nèi)容如潮水一般涌入互聯(lián)網(wǎng)平臺(tái)只是時(shí)間問題。

 

科技的進(jìn)步從來不是單方面的祝福,往往也會(huì)伴隨著詛咒。

 

正如溫室氣體,以及人類向海洋里排放的各種奇奇怪怪物質(zhì),互聯(lián)網(wǎng)的“海洋”也在面臨類似的威脅。

 

牛津大學(xué)、劍橋大學(xué)、倫敦帝國學(xué)院、多倫多大學(xué)等機(jī)構(gòu)的研究人員近期在預(yù)印本平臺(tái)上發(fā)表的一篇論文,恰好就是論述這個(gè)話題的。

 

研究人員發(fā)現(xiàn),在使用AIGC內(nèi)容訓(xùn)練模型時(shí),會(huì)造成模型出現(xiàn)“不可逆的缺陷”,并且這種情況在變分自編碼器、高斯混合模型和大語言模型中都會(huì)出現(xiàn)。

 

同樣是內(nèi)容,為何AIGC的內(nèi)容會(huì)導(dǎo)致“模型崩潰”呢?

 

研究人員解釋稱:

 

模型崩潰是一種影響學(xué)習(xí)生成模型的退化過程,其中生成的數(shù)據(jù)最終會(huì)污染下一代模型的訓(xùn)練集;使用被污染數(shù)據(jù)進(jìn)行訓(xùn)練,會(huì)導(dǎo)致模型誤解現(xiàn)實(shí)。這里還有兩種特殊情況:早期模型崩潰和晚期模型崩潰。在早期模型崩潰中,模型開始喪失關(guān)于分布尾部的信息;在晚期模型崩潰中,模型將原始分布的不同模式相互糾纏,并收斂到與原始模型相差甚遠(yuǎn)的分布,通常方差非常小。

 

 

這個(gè)過程與災(zāi)難性遺忘的過程不同,因?yàn)槲覀兛紤]的是隨時(shí)間推移的多個(gè)模型,這些模型不會(huì)忘記以前學(xué)習(xí)的數(shù)據(jù),而是開始誤解他們認(rèn)為的真實(shí)。

 

 

考慮到大多數(shù)人可能看不太懂這兩段話,這篇論文的作者之一,牛津大學(xué)的Ilia Shumailov接受媒體采訪時(shí)舉了一個(gè)AIGC圖片的例子:假設(shè)在訓(xùn)練模型時(shí),使用了100張狗狗的照片,里面有90只狗狗有黃色眼睛,還有10只有綠色眼睛。由于數(shù)據(jù)集中黃眼睛狗狗的數(shù)量占據(jù)絕大多數(shù),那么這樣訓(xùn)練出的模型中,藍(lán)眼睛狗狗實(shí)際的顏色會(huì)變得更加綠(黃加藍(lán)=綠)一些。如果有人從互聯(lián)網(wǎng)上抓取這樣生成的圖片,重復(fù)進(jìn)行生成—抓取—訓(xùn)練的過程,將會(huì)導(dǎo)致模型識(shí)別藍(lán)眼睛狗狗的能力最終消失。這種對(duì)信息的喪失或扭曲,就是模型崩潰。

 

引申開來,這也引發(fā)了另一層競(jìng)爭(zhēng):先行的GPT模型們,可能會(huì)堵住后來者開發(fā)更強(qiáng)大模型的路。或者說,想要“彎道超車”的后來者,需要花在可信賴數(shù)據(jù)上的時(shí)間和金錢,將遠(yuǎn)遠(yuǎn)超越領(lǐng)跑的這一批科技巨頭。

 

研究人員總結(jié)稱,訓(xùn)練大語言模型的特質(zhì)預(yù)示著“先行者優(yōu)勢(shì)”的存在。這篇論文證明了使用AIGC語料訓(xùn)練會(huì)導(dǎo)致分布改變,以及模型崩潰。為了確保模型在長(zhǎng)期內(nèi)學(xué)習(xí)持續(xù)進(jìn)行,需要確保非AIGC語料的可及性。但目前為止,如何跟蹤和識(shí)別大模型生成內(nèi)容的機(jī)制尚不明確,如果繼續(xù)大規(guī)模地從互聯(lián)網(wǎng)上爬取數(shù)據(jù),訓(xùn)練新版本的大模型將變得原來越困難。

 

本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com