馬斯克AI新王牌:Grok 4.1登頂LMArena排行榜
IT之家11月18日消息,埃隆?馬斯克(Elon Musk)旗下人工智能公司xAI于昨日(11月17日)發(fā)布公告,宣布推出最新大語言模型Grok 4.1,并已面向grok.com、X平臺(tái)及移動(dòng)應(yīng)用(iOS和安卓)的所有用戶全面推送。

此次更新旨在全面提升Grok在真實(shí)世界場(chǎng)景下的可用性。官方表示,Grok 4.1不僅繼承了前代模型的敏銳智能與高可靠性,還在創(chuàng)造性、情感理解和協(xié)作互動(dòng)方面有重大改進(jìn),能更精準(zhǔn)感知用戶細(xì)微意圖,提供更具吸引力和人格連貫性的對(duì)話體驗(yàn)。

Grok 4.1的性能達(dá)到業(yè)界頂尖水平。在大型語言模型競技場(chǎng)(LMArena)的文本能力排行榜上,其具備深度思考能力的版本(代號(hào):quasarflux)以1483的Elo分?jǐn)?shù)位居榜首,領(lǐng)先第二名31分。IT之家附上相關(guān)截圖如下:

更值得關(guān)注的是,其無需深度思考的“即時(shí)響應(yīng)”版本以1465的Elo分?jǐn)?shù)位列第二,性能超越其他所有模型的“全推理”模式。這一成績相比前代Grok 4(排名第33位)有巨大飛躍,證明了其在底層能力上的絕對(duì)優(yōu)勢(shì)。

除在通用能力基準(zhǔn)測(cè)試中表現(xiàn)出色外,Grok 4.1在“軟實(shí)力”方面也有顯著進(jìn)步。在衡量模型情商的EQ - Bench3基準(zhǔn)測(cè)試和評(píng)估創(chuàng)意能力的Creative Writing v3測(cè)試中,新模型表現(xiàn)優(yōu)異。

在評(píng)估情感理解、洞察力和人際交往能力的EQ - Bench3基準(zhǔn)測(cè)試中,Grok 4.1的推理與非推理模式包攬榜單前兩名。

在創(chuàng)意寫作領(lǐng)域,根據(jù)Creative Writing v3基準(zhǔn)測(cè)試結(jié)果,Grok 4.1的兩種模式分別位列第二和第三,僅次于早期的GPT - 5.1模型。

這表明Grok 4.1不僅能處理復(fù)雜邏輯推理,還能更好理解并回應(yīng)帶人類情感的提示,進(jìn)行富有想象力的內(nèi)容創(chuàng)作,在人機(jī)交互中更具“人情味”。
另一關(guān)鍵改進(jìn)是大幅降低了模型的“幻覺”率。對(duì)于配備搜索工具的快速響應(yīng)模型,因推理深度和工具調(diào)用預(yù)算有限,易出現(xiàn)事實(shí)性錯(cuò)誤。

x.ai在Grok 4.1的訓(xùn)練后期,針對(duì)優(yōu)化信息查詢類提示,著重減少事實(shí)性幻覺。根據(jù)對(duì)真實(shí)世界查詢樣本的評(píng)估,新模型的幻覺率顯著降低,能為用戶提供更可靠、準(zhǔn)確的信息。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com

