無需訓(xùn)練微調(diào),輔助系統(tǒng)助力GPT-5.2準(zhǔn)確率創(chuàng)75%紀(jì)錄
什么?決定AI上限的已不再是底座模型,而是外圍的「推理編排」(Orchestration)。
在LLM完全不變的前提下,僅靠一套Agentic System,就能讓AI的智力表現(xiàn)原地提升一截。
看了「AI推理和自我改進(jìn)系統(tǒng)」初創(chuàng)公司Poetiq的最新評(píng)測后,有人得出了這樣的結(jié)論。

部分截圖
近日,Poetiq表示其使用ARC-AGI-2測試集,在自家系統(tǒng)(名為meta-system)上運(yùn)行了GPT-5.2 X-High。該測試集常被用于衡量當(dāng)前頂尖模型在復(fù)雜抽象推理任務(wù)上的表現(xiàn)。
結(jié)果顯示,在相同的Poetiq測試平臺(tái)上,GPT?5.2 X?High在完整的PUBLIC-EVAL數(shù)據(jù)集上的成績達(dá)到75%,這比此前的最佳水平高出約15%,同時(shí)每個(gè)問題的成本低于8美元。
這里的PUBLIC-EVAL是ARC測試的一部分,前者包含基礎(chǔ)推理任務(wù)和標(biāo)準(zhǔn)的NLP、數(shù)學(xué)推理測試,適合廣泛的模型評(píng)測,數(shù)據(jù)集更公開、標(biāo)準(zhǔn);后者則有更多復(fù)雜且具挑戰(zhàn)性的推理問題,考察模型的抽象推理、常識(shí)推理、創(chuàng)新能力等,是針對(duì)高水平模型的推理極限測試。

下圖展示了各個(gè)頂尖模型在PUBLIC-EVAL數(shù)據(jù)集上的成績分布:

Poetiq特別強(qiáng)調(diào),其未對(duì)GPT-5.2進(jìn)行任何再訓(xùn)練或模型特定優(yōu)化。
在短時(shí)間內(nèi),相較于Poetiq之前在PUBLIC-EVAL數(shù)據(jù)集上測試的其他模型,GPT-5.2在準(zhǔn)確率和價(jià)格方面實(shí)現(xiàn)了顯著改進(jìn)。
Poetiq進(jìn)一步設(shè)想:如果在PUBLIC-EVAL測試中表現(xiàn)良好的規(guī)律能延續(xù)到ARC Prize官方的SEMI-PRIVATE測試中,那么「GPT-5.2 X-High + Poetiq」會(huì)比以往任何系統(tǒng)配置都更強(qiáng)、更好。
ARC Prize總裁Greg Kamradt表示:「很高興看到Poetiq發(fā)布GPT-5.2 X-High的結(jié)果。如果這個(gè)成績能保持,他們的系統(tǒng)看起來能很好地處理模型交換。不過,在OpenAI API的基礎(chǔ)設(shè)施問題解決前,結(jié)果還未完全驗(yàn)證。」
這里的模型交換指的是:系統(tǒng)通過切換不同模型應(yīng)對(duì)不同任務(wù)需求,而無需對(duì)系統(tǒng)或模型進(jìn)行大規(guī)模調(diào)整或重新訓(xùn)練。

OpenAI總裁Greg Brockman也轉(zhuǎn)推稱:GPT-5.2在ARC-AGI-2上超越人類基準(zhǔn)成績。

針對(duì)全新測試結(jié)果,評(píng)論區(qū)提出了更多問題,比如「每個(gè)任務(wù)平均需要多長時(shí)間」。
Poetiq回復(fù):「我們目前沒有專門收集這些統(tǒng)計(jì)數(shù)據(jù),最簡單的問題大概8到10分鐘后就能完成,最難的問題必須在12小時(shí)前終止,以符合時(shí)間限制。所以,未來肯定還有改進(jìn)空間?!?/p>

還有人指出:「大部分改進(jìn)似乎來自測試框架和協(xié)調(diào)機(jī)制,而非任何模型特定調(diào)優(yōu)。在無訓(xùn)練變更的情況下,ARC-AGI-2上提高約15%,這表明僅在搜索、路由和終止邏輯方面就還有很大提升空間?!?/p>
但問題是:為何在這個(gè)設(shè)置中,X-High每個(gè)任務(wù)的成本比High還要低?是因?yàn)樗缯业秸_解決方案從而更快收斂,還是測試框架更積極地修剪了無效推理過程?
對(duì)于這個(gè)問題,Poetiq肯定了「X-High只是比High更快收斂到正確答案」這一觀點(diǎn)。

6人團(tuán)隊(duì)打造Meta-system系統(tǒng)
Poetiq是一支由6位研究員和工程師組成的團(tuán)隊(duì),多位核心成員來自Google DeepMind。
Ian Fischer(聯(lián)合創(chuàng)始人&聯(lián)席CEO):曾是Google DeepMind的資深研究員;
Shumeet Baluja(聯(lián)合創(chuàng)始人&聯(lián)席CEO):同樣出身于Google/DeepMind的資深專家。

Poetiq能取得上述成績,關(guān)鍵在于其構(gòu)建的meta-system(元系統(tǒng))。
Meta-system不依賴特定大模型,可與任何前沿模型配合使用(如Gemini 3、GPT-5.1、Grok等),而非訓(xùn)練或微調(diào)模型本身,這意味著它能隨新模型發(fā)布快速適配并提升性能。
Poetiq meta-system構(gòu)建了一種迭代式推理過程,與傳統(tǒng)一次性生成答案的方法不同,它有兩個(gè)主要機(jī)制:
迭代式問題求解循環(huán):系統(tǒng)并非只向模型提出一次問題,而是利用大語言模型(LLM)生成一個(gè)潛在解決方案,隨后接收反饋、分析反饋,并再次調(diào)用LLM對(duì)方案進(jìn)行改進(jìn)。這種多步驟、自我改進(jìn)的過程,讓系統(tǒng)能逐步構(gòu)建并不斷完善最終答案。
自我審計(jì)(Self-Auditing):系統(tǒng)能自主審計(jì)自身運(yùn)行進(jìn)度,自行判斷何時(shí)已獲得足夠信息、當(dāng)前解決方案是否令人滿意,從而決定終止整個(gè)過程。這種自我監(jiān)控機(jī)制對(duì)避免不必要的計(jì)算浪費(fèi)、有效降低整體成本至關(guān)重要。
Poetiq還特別強(qiáng)調(diào),他們所有meta-system的適配工作在新模型發(fā)布前就已完成,且系統(tǒng)從未直接接觸過ARC-AGI任務(wù)集,但依然在多個(gè)不同模型上取得跨版本、跨模型族的性能提升,說明meta-system對(duì)推理策略具有良好的泛化能力。
正是這種靈活、強(qiáng)大且具備遞歸能力的架構(gòu),讓Poetiq這樣的小規(guī)模團(tuán)隊(duì)能在極短時(shí)間內(nèi)取得一系列頂尖成果。
對(duì)于這個(gè)meta-system,有人認(rèn)為:「太棒了。在模型之上構(gòu)建智能,而非在模型內(nèi)部構(gòu)建,意味著能在幾小時(shí)內(nèi)適配新模型,非常高明。適配開源模型且成功遷移到新的封閉模型,這表明捕捉到的是推理過程本身的基本規(guī)律,而非模型特定的特性?!?/p>

參考鏈接:https://poetiq.ai/posts/arcagi_verified/
本文來自微信公眾號(hào)“機(jī)器之心”,編輯:杜偉、陳陳,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



