江曉原:“數(shù)據(jù)挖掘”的雙面性:是天使還是魔鬼?
比特幣收益與制造業(yè)、金屬采礦業(yè)股票收益呈負(fù)相關(guān)……
特朗普在推特中使用"with"一詞四天后,中國茶葉分銷商Urban Tea股價下跌……
特朗普推特中"president"的使用與兩天后標(biāo)準(zhǔn)普爾500指數(shù)存在0.43的相關(guān)性……
這些新發(fā)現(xiàn)的"規(guī)律"是否讓你感到震撼與意外?顯然,此類發(fā)現(xiàn)離不開"大數(shù)據(jù)"與"AI算法",尤其是近年備受關(guān)注的"數(shù)據(jù)挖掘"方法。

《不被信任的科學(xué)——大數(shù)據(jù)、人工智能與信息欺騙》,[美]加里·史密斯 著,孫強 譯,上??萍冀逃霭嫔?025年出版
經(jīng)濟學(xué)家視角下的"數(shù)據(jù)挖掘"
"數(shù)據(jù)挖掘"常被稱作"機器學(xué)習(xí)"或"知識發(fā)現(xiàn)",這些中文譯名充滿高科技與創(chuàng)新感,無批判意味。通俗而言,它是借助AI算法在海量大數(shù)據(jù)中探尋各類數(shù)據(jù)關(guān)系的過程。
美國經(jīng)濟學(xué)家、統(tǒng)計學(xué)家加里·史密斯(耶魯大學(xué)經(jīng)濟學(xué)博士,波莫納學(xué)院教授)在《不被信任的科學(xué)》中指出,"虛假信息""數(shù)據(jù)歪曲""數(shù)據(jù)挖掘"正嚴(yán)重?fù)p害科學(xué)信譽,其中"數(shù)據(jù)挖掘"是他抨擊的重點。他將挖掘出的數(shù)據(jù)關(guān)系比作"愚人金"——看似黃金實則無價值的銅,認(rèn)為這些關(guān)系多無意義甚至具有欺騙性。但關(guān)鍵問題在于:如何界定"荒謬"與"合理"的界限?
史密斯對"數(shù)據(jù)挖掘"的定義觸及核心:"在不受理論影響的數(shù)據(jù)中尋找潛在模式,研究人員深入挖掘卻無法預(yù)知結(jié)果。"他對比傳統(tǒng)數(shù)據(jù)處理:"傳統(tǒng)查詢需假設(shè)引導(dǎo),而大數(shù)據(jù)挖掘能揭示未知關(guān)系。"他引用《連線》文章"大數(shù)據(jù)與理論家的消亡"稱:"算法找模式,假設(shè)從數(shù)據(jù)來,分析師無需再提假設(shè)。"
簡言之,史密斯認(rèn)為傳統(tǒng)數(shù)據(jù)處理有理論指導(dǎo)與預(yù)期,而"數(shù)據(jù)挖掘"是無方向的"亂挖",其發(fā)現(xiàn)多為無意義的"胡說八道"。
從傳統(tǒng)數(shù)據(jù)處理到"數(shù)據(jù)挖掘"的演變
作為天體物理專業(yè)出身、曾在上海天文臺工作15年的學(xué)者,我認(rèn)為"數(shù)據(jù)挖掘"并非如史密斯所言非黑即白,它與傳統(tǒng)數(shù)據(jù)處理無絕對界限,常是正??蒲惺侄?。以天文學(xué)"星歷表"為例,其記錄太陽系天體坐標(biāo),可視為"大數(shù)據(jù)"。通過算法"挖掘",既能獲取牧野之戰(zhàn)時木星位置等有意義結(jié)果,也可能發(fā)現(xiàn)無關(guān)聯(lián)關(guān)系——關(guān)鍵在于是否有理論支撐與合理預(yù)期。
數(shù)據(jù)處理技術(shù)早于互聯(lián)網(wǎng)與AI存在。史密斯批判的實則是"數(shù)據(jù)挖掘"的濫用。20世紀(jì)80年代,星歷表以紙質(zhì)形式存在,人工挖掘難以濫用;90年代數(shù)字光盤普及后,算法挖掘成為可能,但科研人員仍堅守嚴(yán)謹(jǐn)性??梢娂夹g(shù)本身中性,濫用源于使用者。
科學(xué)信任危機的荒誕圖景
《不被信任的科學(xué)》書名易讓人聯(lián)想到科學(xué)知識社會學(xué)著作,實則不然。史密斯雖未從哲學(xué)角度探討,但對大數(shù)據(jù)與AI弊端的批判具有啟發(fā)意義。
書中第一部分討論"虛假信息":以區(qū)塊鏈與比特幣為例,許多人因區(qū)塊鏈的"科學(xué)性"盲目相信比特幣價值,而史密斯認(rèn)為比特幣內(nèi)在價值為零,堪比郁金香泡沫與南海騙局(此為作者觀點,不代表本文立場)。
第二部分揭露"數(shù)據(jù)歪曲":通過錯誤解讀數(shù)據(jù)制造"科學(xué)假象"。史密斯仍以比特幣為例,指出數(shù)據(jù)被歪曲以支撐其價值論,批判邏輯具有學(xué)理合理性。
最后兩部分,史密斯批判人工智能進展與部分社會學(xué)研究。他認(rèn)為AI業(yè)界夸大成果,還列舉如"女性求助時發(fā)型影響成功率"等他眼中的"荒誕研究"(該例未必真荒誕)。
史密斯以樸素視角指出:科技新成果(互聯(lián)網(wǎng)、大數(shù)據(jù)、AI)正損害科學(xué)聲譽,公眾對科學(xué)的信任度下降。"科學(xué)家創(chuàng)造了大數(shù)據(jù)與分析工具,卻為自己制造了更多尷尬與信譽危機。"這一現(xiàn)象值得深思:技術(shù)本應(yīng)推動科學(xué)進步,為何反而引發(fā)信任危機?答案或許在于:當(dāng)工具被濫用,當(dāng)無理論支撐的"數(shù)據(jù)挖掘"取代嚴(yán)謹(jǐn)科研,科學(xué)便可能淪為"數(shù)字游戲"。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




