長(zhǎng)期以來(lái),AGI都籠罩在“類人智能”的模糊表述中。
【資料圖】
都說(shuō)它像人一樣聰明,那到底有多聰明呢?
圖靈獎(jiǎng)得主Yoshua Bengio聯(lián)合Center for AI Safety、加州大學(xué)伯克利分校等機(jī)構(gòu)的新作《A Definition of AGI》給AGI下了個(gè)可衡量的定義。
該定義包含兩個(gè)關(guān)鍵維度:
研究團(tuán)隊(duì)設(shè)計(jì)了一套量化方法來(lái)評(píng)估當(dāng)前AI離AGI的距離。
為了把這個(gè)標(biāo)準(zhǔn)落地,研究者參考了心理學(xué)里驗(yàn)證過(guò)的卡特爾-霍恩-卡羅爾(CHC)理論這個(gè)研究人類認(rèn)知能力的經(jīng)典模型。
該模型將人類通用智力拆解為10個(gè)相互獨(dú)立但又關(guān)聯(lián)的核心認(rèn)知領(lǐng)域,涵蓋了從基礎(chǔ)感知到高階推理的完整認(rèn)知鏈條,基于這10個(gè)領(lǐng)域,研究團(tuán)隊(duì)對(duì)人類傳統(tǒng)認(rèn)知測(cè)試題進(jìn)行了AI適配改造
剔除依賴人類生理感知(如觸覺(jué)測(cè)試)或特定場(chǎng)景(如駕駛場(chǎng)景測(cè)試)的題目,保留核心認(rèn)知邏輯,形成了一套包含500余道題目的AGI評(píng)估題庫(kù)。具體包括:
評(píng)估采用百分制,每個(gè)認(rèn)知領(lǐng)域滿分10分,系統(tǒng)總分達(dá)到100分即判定為達(dá)到AGI水平,分?jǐn)?shù)越高代表離AGI的距離越近。
研究團(tuán)隊(duì)運(yùn)用上述評(píng)估體系,對(duì)當(dāng)前主流LLM進(jìn)行了全面測(cè)試,結(jié)果既展現(xiàn)了AI的快速進(jìn)步,也暴露了其與AGI的巨大差距。
從總分來(lái)看,2023年發(fā)布的GPT-4總分僅為27分,而2025年版GPT-5總分提升至58分.
兩年間,分?jǐn)?shù)增幅超過(guò)115%,反映出大模型在認(rèn)知能力上的快速迭代。
但從AGI的及格線100分來(lái)看,即使是GPT-5,也尚未突破半程線,甚至在長(zhǎng)時(shí)記憶存儲(chǔ)領(lǐng)域中拿了0分。
具體來(lái)說(shuō),當(dāng)前AI與論文中定義的AGI更關(guān)鍵的差異體現(xiàn)在認(rèn)知領(lǐng)域的不均衡性上。
據(jù)實(shí)驗(yàn)結(jié)果來(lái)看,當(dāng)前AI的優(yōu)勢(shì)高度集中于知識(shí)儲(chǔ)備與符號(hào)處理類領(lǐng)域
在知識(shí)(K)、讀寫(RW)、數(shù)學(xué)(M)三個(gè)領(lǐng)域表現(xiàn)突出,GPT-5在這三項(xiàng)的得分都超過(guò)了8。
△知識(shí)(K)領(lǐng)域評(píng)估
△讀寫(RW)領(lǐng)域評(píng)估
△數(shù)學(xué)(M)領(lǐng)域評(píng)估
這些優(yōu)勢(shì)的共性在于均圍繞文本符號(hào)的理解與應(yīng)用展開,是大模型在萬(wàn)億級(jí)數(shù)據(jù)訓(xùn)練中形成的模式匹配能力的集中體現(xiàn)。
AI在依賴海量數(shù)據(jù)訓(xùn)練的任務(wù)中,在這些方面展現(xiàn)出了接近人類成年人的水平。
與集中的優(yōu)勢(shì)形成鮮明對(duì)比,實(shí)驗(yàn)暴露出AI在感知、記憶、推理等基礎(chǔ)認(rèn)知領(lǐng)域存在致命短板,并且這些短板無(wú)法通過(guò)單純的擴(kuò)大規(guī)模彌補(bǔ)。
在 “視覺(jué)(V)” 、 “聽(tīng)覺(jué)(A)”領(lǐng)域,大模型的表現(xiàn)堪稱慘淡。
△視覺(jué)(V)領(lǐng)域評(píng)估
△聽(tīng)覺(jué)(A)領(lǐng)域評(píng)估
GPT-4完全不具備圖像識(shí)別與聲音處理能力,即使GPT-5也僅能完成簡(jiǎn)單的貓犬分類、基礎(chǔ)語(yǔ)音轉(zhuǎn)文字,遠(yuǎn)無(wú)法實(shí)現(xiàn)人類級(jí)別的復(fù)雜場(chǎng)景解讀與情感識(shí)別。
“長(zhǎng)時(shí)記憶存儲(chǔ)(MS)”與“提?。∕R)”是另一致命缺陷,說(shuō)明AI有健忘癥。
△長(zhǎng)時(shí)記憶存儲(chǔ)(MS)領(lǐng)域評(píng)估
△長(zhǎng)時(shí)記憶提取(MR)領(lǐng)域評(píng)估
無(wú)法實(shí)現(xiàn)信息的長(zhǎng)期穩(wěn)定存儲(chǔ),也就做不到對(duì)學(xué)習(xí)的內(nèi)容靈活運(yùn)用。
部分大模型看似具備多任務(wù)處理能力,實(shí)則是通過(guò)技術(shù)手段掩蓋短板
例如,部分模型通過(guò)擴(kuò)大上下文窗口(如支持128k tokens的文本輸入),假裝具備長(zhǎng)期記憶能力,但本質(zhì)上仍是短期工作記憶的擴(kuò)展,無(wú)法實(shí)現(xiàn)信息的長(zhǎng)期存儲(chǔ)與跨場(chǎng)景調(diào)用。
還有模型依賴聯(lián)網(wǎng)搜索功能補(bǔ)充知識(shí),看似無(wú)所不知,實(shí)則暴露了自身知識(shí)更新滯后、易產(chǎn)生幻覺(jué)的缺陷。
而這項(xiàng)研究的評(píng)估體系明確排除了外部工具的輔助,僅衡量AI系統(tǒng)的原生認(rèn)知能力,使得這些偽全能表現(xiàn)無(wú)所遁形。
當(dāng)然了,論文也明確指出,這套評(píng)估只看AI自身的認(rèn)知硬實(shí)力,不管它能調(diào)用多少外部工具,也不看它能賺多少錢、替代多少工作,純粹聚焦于智力本身
就算某個(gè)AI總分再高,只要像長(zhǎng)期記憶這樣的核心領(lǐng)域是零分,本質(zhì)上還是有嚴(yán)重缺陷的“殘次版”智能,離真正的AGI也還差得遠(yuǎn)。
這下,AGI有了可以衡量的定義,從概念到現(xiàn)實(shí),還有多久呢?
論文地址:https://www.agidefinition.ai/paper.pdf參考鏈接:https://x.com/DanHendrycks/status/1978828377269117007
— 完 —
熱門
聯(lián)系我們:435 226 40 @qq.com
版權(quán)所有 重播新聞網(wǎng) zzx33.com 京ICP備2022022245號(hào)-17