91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

<li id="jfofu"><tbody id="jfofu"><bdo id="jfofu"></bdo></tbody></li>

<label id="jfofu"></label>

<button id="jfofu"><output id="jfofu"></output></button>

<center id="jfofu"></center>

<li id="jfofu"><tbody id="jfofu"></tbody></li>

AIGC不僅會(huì)污染互聯(lián)網(wǎng) 還會(huì)嚴(yán)重威脅大模型開發(fā)的未來

商界觀察

2023-06-21

過去幾天有關(guān)“AI污染中文互聯(lián)網(wǎng)環(huán)境”的討論又重新熱鬧起來，這個(gè)話題也帶出了另一個(gè)AI“終極命題”：如果世界上絕大部分內(nèi)容都依靠AI生成，屆時(shí)我們還能使用這些內(nèi)容訓(xùn)練出更“聰明”的AI大模型么？

先說結(jié)論：情況將變得非常困難且棘手。在目前為數(shù)不多但頗受認(rèn)可的研究中，這種情況被稱為“遞歸的詛咒”：如果大模型的訓(xùn)練高度依賴AIGC內(nèi)容，將很容易出現(xiàn)“崩潰”的情形。

此話怎講？

雖然現(xiàn)在互聯(lián)網(wǎng)上能找到的文字大部分都是真人寫的，但不可否認(rèn)的是，目前AIGC內(nèi)容正在以非常快的速度出現(xiàn)在廣告營(yíng)銷、流量資訊平臺(tái)以及各式各樣的數(shù)字載體中。從增量的角度來看，隨著大模型的應(yīng)用在未來半年、一年里開花結(jié)果，AIGC內(nèi)容如潮水一般涌入互聯(lián)網(wǎng)平臺(tái)只是時(shí)間問題。

科技的進(jìn)步從來不是單方面的祝福，往往也會(huì)伴隨著詛咒。

正如溫室氣體，以及人類向海洋里排放的各種奇奇怪怪物質(zhì)，互聯(lián)網(wǎng)的“海洋”也在面臨類似的威脅。

牛津大學(xué)、劍橋大學(xué)、倫敦帝國學(xué)院、多倫多大學(xué)等機(jī)構(gòu)的研究人員近期在預(yù)印本平臺(tái)上發(fā)表的一篇論文，恰好就是論述這個(gè)話題的。

研究人員發(fā)現(xiàn)，在使用AIGC內(nèi)容訓(xùn)練模型時(shí)，會(huì)造成模型出現(xiàn)“不可逆的缺陷”，并且這種情況在變分自編碼器、高斯混合模型和大語言模型中都會(huì)出現(xiàn)。

同樣是內(nèi)容，為何AIGC的內(nèi)容會(huì)導(dǎo)致“模型崩潰”呢？

研究人員解釋稱：

模型崩潰是一種影響學(xué)習(xí)生成模型的退化過程，其中生成的數(shù)據(jù)最終會(huì)污染下一代模型的訓(xùn)練集；使用被污染數(shù)據(jù)進(jìn)行訓(xùn)練，會(huì)導(dǎo)致模型誤解現(xiàn)實(shí)。這里還有兩種特殊情況：早期模型崩潰和晚期模型崩潰。在早期模型崩潰中，模型開始喪失關(guān)于分布尾部的信息；在晚期模型崩潰中，模型將原始分布的不同模式相互糾纏，并收斂到與原始模型相差甚遠(yuǎn)的分布，通常方差非常小。

這個(gè)過程與災(zāi)難性遺忘的過程不同，因?yàn)槲覀兛紤]的是隨時(shí)間推移的多個(gè)模型，這些模型不會(huì)忘記以前學(xué)習(xí)的數(shù)據(jù)，而是開始誤解他們認(rèn)為的真實(shí)。

考慮到大多數(shù)人可能看不太懂這兩段話，這篇論文的作者之一，牛津大學(xué)的Ilia Shumailov接受媒體采訪時(shí)舉了一個(gè)AIGC圖片的例子：假設(shè)在訓(xùn)練模型時(shí)，使用了100張狗狗的照片，里面有90只狗狗有黃色眼睛，還有10只有綠色眼睛。由于數(shù)據(jù)集中黃眼睛狗狗的數(shù)量占據(jù)絕大多數(shù)，那么這樣訓(xùn)練出的模型中，藍(lán)眼睛狗狗實(shí)際的顏色會(huì)變得更加綠（黃加藍(lán)=綠）一些。如果有人從互聯(lián)網(wǎng)上抓取這樣生成的圖片，重復(fù)進(jìn)行生成—抓取—訓(xùn)練的過程，將會(huì)導(dǎo)致模型識(shí)別藍(lán)眼睛狗狗的能力最終消失。這種對(duì)信息的喪失或扭曲，就是模型崩潰。

引申開來，這也引發(fā)了另一層競(jìng)爭(zhēng)：先行的GPT模型們，可能會(huì)堵住后來者開發(fā)更強(qiáng)大模型的路。或者說，想要“彎道超車”的后來者，需要花在可信賴數(shù)據(jù)上的時(shí)間和金錢，將遠(yuǎn)遠(yuǎn)超越領(lǐng)跑的這一批科技巨頭。

研究人員總結(jié)稱，訓(xùn)練大語言模型的特質(zhì)預(yù)示著“先行者優(yōu)勢(shì)”的存在。這篇論文證明了使用AIGC語料訓(xùn)練會(huì)導(dǎo)致分布改變，以及模型崩潰。為了確保模型在長(zhǎng)期內(nèi)學(xué)習(xí)持續(xù)進(jìn)行，需要確保非AIGC語料的可及性。但目前為止，如何跟蹤和識(shí)別大模型生成內(nèi)容的機(jī)制尚不明確，如果繼續(xù)大規(guī)模地從互聯(lián)網(wǎng)上爬取數(shù)據(jù)，訓(xùn)練新版本的大模型將變得原來越困難。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

歐洲審計(jì)院警告：歐洲面臨輸?shù)綦妱?dòng)汽車電池競(jìng)賽的危險(xiǎn)

詳細(xì)拆解：LPR變化如何影響貸款利率

AIGC產(chǎn)品七連發(fā)后美圖公司股價(jià)一度漲超14%！

儲(chǔ)熱材料新突破！新材料用“海藻”制成能量密度提高了3倍

美國“藥荒”背后的血淚現(xiàn)實(shí)：印度藥廠的質(zhì)量靠不住……

項(xiàng)目推薦

康小虎 · 健康小屋

康老板 · 氧療堂

<span id="v4jmd"></span>