欧美制服丝袜变态另类,国产一区二区三区免费入口,97免费人妻在线视频

長(zhǎng)期以來(lái)，AGI都籠罩在“類人智能”的模糊表述中。

【資料圖】

都說(shuō)它像人一樣聰明，那到底有多聰明呢？

圖靈獎(jiǎng)得主Yoshua Bengio聯(lián)合Center for AI Safety、加州大學(xué)伯克利分校等機(jī)構(gòu)的新作《A Definition of AGI》給AGI下了個(gè)可衡量的定義。

該定義包含兩個(gè)關(guān)鍵維度：

確定了參照系：直接錨定“受過(guò)良好教育的成年人”，避免了“AGI是超人類智能”這類模糊表述，讓評(píng)估有了具體標(biāo)準(zhǔn)。
強(qiáng)調(diào)全面性：不看AI在單一任務(wù)上的表現(xiàn)，而是要求它在多個(gè)核心認(rèn)知領(lǐng)域（如推理、記憶、感知等）都達(dá)標(biāo)，不能有嚴(yán)重的偏科。

研究團(tuán)隊(duì)設(shè)計(jì)了一套量化方法來(lái)評(píng)估當(dāng)前AI離AGI的距離。

分?jǐn)?shù)越高，離AGI越近

為了把這個(gè)標(biāo)準(zhǔn)落地，研究者參考了心理學(xué)里驗(yàn)證過(guò)的卡特爾-霍恩-卡羅爾（CHC）理論這個(gè)研究人類認(rèn)知能力的經(jīng)典模型。

該模型將人類通用智力拆解為10個(gè)相互獨(dú)立但又關(guān)聯(lián)的核心認(rèn)知領(lǐng)域，涵蓋了從基礎(chǔ)感知到高階推理的完整認(rèn)知鏈條，基于這10個(gè)領(lǐng)域，研究團(tuán)隊(duì)對(duì)人類傳統(tǒng)認(rèn)知測(cè)試題進(jìn)行了AI適配改造

剔除依賴人類生理感知（如觸覺(jué)測(cè)試）或特定場(chǎng)景（如駕駛場(chǎng)景測(cè)試）的題目，保留核心認(rèn)知邏輯，形成了一套包含500余道題目的AGI評(píng)估題庫(kù)。具體包括：

知識(shí)（K）：主要測(cè)試常識(shí)、自然科學(xué)、社會(huì)科學(xué)、歷史、文化等方面的知識(shí)儲(chǔ)備。
讀寫（RW）：考察閱讀和寫作能力，包括對(duì)文本的理解、語(yǔ)言表達(dá)、文字創(chuàng)作等。
數(shù)學(xué)（M）：涉及數(shù)學(xué)計(jì)算、定量推理、數(shù)字概念的掌握等數(shù)學(xué)能力。
臨場(chǎng)推理（R）：即處理新穎問(wèn)題、進(jìn)行邏輯分析與抽象思維的能力，也就是流體推理能力。
工作記憶（WM）：指短期信息的保持與實(shí)時(shí)加工能力。
長(zhǎng)時(shí)記憶存儲(chǔ)（MS）：衡量AI系統(tǒng)將信息進(jìn)行長(zhǎng)期穩(wěn)定存儲(chǔ)的能力。
長(zhǎng)時(shí)記憶提?。∕R）：考查AI能否從長(zhǎng)期記憶中高效地提取所需信息。
視覺(jué)（V）：包括圖像識(shí)別、空間定位、視覺(jué)信息解讀等視覺(jué)加工能力。
聽(tīng)覺(jué)（A）：涉及聲音識(shí)別、語(yǔ)音理解、聽(tīng)覺(jué)信息處理等聽(tīng)覺(jué)加工能力。
速度（S）：主要評(píng)估AI快速處理簡(jiǎn)單認(rèn)知任務(wù)的效率。

評(píng)估采用百分制，每個(gè)認(rèn)知領(lǐng)域滿分10分，系統(tǒng)總分達(dá)到100分即判定為達(dá)到AGI水平，分?jǐn)?shù)越高代表離AGI的距離越近。

AI雖然進(jìn)步快，但離AGI還很遠(yuǎn)

研究團(tuán)隊(duì)運(yùn)用上述評(píng)估體系，對(duì)當(dāng)前主流LLM進(jìn)行了全面測(cè)試，結(jié)果既展現(xiàn)了AI的快速進(jìn)步，也暴露了其與AGI的巨大差距。

從總分來(lái)看，2023年發(fā)布的GPT-4總分僅為27分，而2025年版GPT-5總分提升至58分.

兩年間，分?jǐn)?shù)增幅超過(guò)115%，反映出大模型在認(rèn)知能力上的快速迭代。

但從AGI的及格線100分來(lái)看，即使是GPT-5，也尚未突破半程線，甚至在長(zhǎng)時(shí)記憶存儲(chǔ)領(lǐng)域中拿了0分。

具體來(lái)說(shuō)，當(dāng)前AI與論文中定義的AGI更關(guān)鍵的差異體現(xiàn)在認(rèn)知領(lǐng)域的不均衡性上。

優(yōu)勢(shì)領(lǐng)域集中

據(jù)實(shí)驗(yàn)結(jié)果來(lái)看，當(dāng)前AI的優(yōu)勢(shì)高度集中于知識(shí)儲(chǔ)備與符號(hào)處理類領(lǐng)域

在知識(shí)（K）、讀寫（RW）、數(shù)學(xué)（M）三個(gè)領(lǐng)域表現(xiàn)突出，GPT-5在這三項(xiàng)的得分都超過(guò)了8。

△知識(shí)（K）領(lǐng)域評(píng)估

△讀寫（RW）領(lǐng)域評(píng)估

△數(shù)學(xué)（M）領(lǐng)域評(píng)估

這些優(yōu)勢(shì)的共性在于均圍繞文本符號(hào)的理解與應(yīng)用展開，是大模型在萬(wàn)億級(jí)數(shù)據(jù)訓(xùn)練中形成的模式匹配能力的集中體現(xiàn)。

AI在依賴海量數(shù)據(jù)訓(xùn)練的任務(wù)中，在這些方面展現(xiàn)出了接近人類成年人的水平。

核心短板顯著

與集中的優(yōu)勢(shì)形成鮮明對(duì)比，實(shí)驗(yàn)暴露出AI在感知、記憶、推理等基礎(chǔ)認(rèn)知領(lǐng)域存在致命短板，并且這些短板無(wú)法通過(guò)單純的擴(kuò)大規(guī)模彌補(bǔ)。

在 “視覺(jué)（V）” 、 “聽(tīng)覺(jué)（A）”領(lǐng)域，大模型的表現(xiàn)堪稱慘淡。

△視覺(jué)（V）領(lǐng)域評(píng)估

△聽(tīng)覺(jué)（A）領(lǐng)域評(píng)估

GPT-4完全不具備圖像識(shí)別與聲音處理能力，即使GPT-5也僅能完成簡(jiǎn)單的貓犬分類、基礎(chǔ)語(yǔ)音轉(zhuǎn)文字，遠(yuǎn)無(wú)法實(shí)現(xiàn)人類級(jí)別的復(fù)雜場(chǎng)景解讀與情感識(shí)別。

“長(zhǎng)時(shí)記憶存儲(chǔ)（MS）”與“提?。∕R）”是另一致命缺陷，說(shuō)明AI有健忘癥。

△長(zhǎng)時(shí)記憶存儲(chǔ)（MS）領(lǐng)域評(píng)估

△長(zhǎng)時(shí)記憶提取（MR）領(lǐng)域評(píng)估

無(wú)法實(shí)現(xiàn)信息的長(zhǎng)期穩(wěn)定存儲(chǔ)，也就做不到對(duì)學(xué)習(xí)的內(nèi)容靈活運(yùn)用。

“偽全能” 的本質(zhì)

部分大模型看似具備多任務(wù)處理能力，實(shí)則是通過(guò)技術(shù)手段掩蓋短板

例如，部分模型通過(guò)擴(kuò)大上下文窗口（如支持128k tokens的文本輸入），假裝具備長(zhǎng)期記憶能力，但本質(zhì)上仍是短期工作記憶的擴(kuò)展，無(wú)法實(shí)現(xiàn)信息的長(zhǎng)期存儲(chǔ)與跨場(chǎng)景調(diào)用。

還有模型依賴聯(lián)網(wǎng)搜索功能補(bǔ)充知識(shí)，看似無(wú)所不知，實(shí)則暴露了自身知識(shí)更新滯后、易產(chǎn)生幻覺(jué)的缺陷。

而這項(xiàng)研究的評(píng)估體系明確排除了外部工具的輔助，僅衡量AI系統(tǒng)的原生認(rèn)知能力，使得這些偽全能表現(xiàn)無(wú)所遁形。

當(dāng)然了，論文也明確指出，這套評(píng)估只看AI自身的認(rèn)知硬實(shí)力，不管它能調(diào)用多少外部工具，也不看它能賺多少錢、替代多少工作，純粹聚焦于智力本身

就算某個(gè)AI總分再高，只要像長(zhǎng)期記憶這樣的核心領(lǐng)域是零分，本質(zhì)上還是有嚴(yán)重缺陷的“殘次版”智能，離真正的AGI也還差得遠(yuǎn)。

這下，AGI有了可以衡量的定義，從概念到現(xiàn)實(shí)，還有多久呢？

論文地址：https://www.agidefinition.ai/paper.pdf參考鏈接：https://x.com/DanHendrycks/status/1978828377269117007

— 完 —

關(guān)鍵詞：數(shù)學(xué) 推理 agi

[責(zé)任編輯：h001]