中文字幕熟女丝袜人妻在线,女同性恋一区二区,亚洲中文字幕永久在线播放

機(jī)器之心編輯部

在春節(jié)來(lái)臨之前，海外大模型先來(lái)了一波硬碰硬的發(fā)布。

(相關(guān)資料圖)

北京時(shí)間 2 月 6 日凌晨，Anthropic 與 OpenAI 相繼推出了新版本基礎(chǔ)大模型，分別是 Claude Opus 4.6 與 GPT-5.3-Codex。

昨天兩家還在因?yàn)?AI 里面的廣告而論戰(zhàn)，今天在大模型發(fā)布上又撞車了。話不多說(shuō)，直接看他們的模型能力如何。

Claude Opus 4.6

Claude Opus 4.6 是 Anthropic 對(duì)其旗艦人工智能模型的一次重大升級(jí)。在這代模型上，規(guī)劃更加謹(jǐn)慎，能夠維持更長(zhǎng)時(shí)間的自主工作流程，并在關(guān)鍵的企業(yè)基準(zhǔn)測(cè)試中超越了包括 GPT-5.2 在內(nèi)的競(jìng)爭(zhēng)對(duì)手。

新模型首次擁有 100 萬(wàn) token 的上下文窗口，使 AI 能夠處理和推理比以往版本多得多的信息。Anthropic 還在 Claude Code 中引入了類似于 Kimi K2.5 的「智能體團(tuán)隊(duì)」功能—— 一項(xiàng)研究預(yù)覽功能，它允許多個(gè) AI 智能體同時(shí)處理編碼項(xiàng)目的不同方面，并進(jìn)行自主協(xié)調(diào)。

Anthropic 強(qiáng)調(diào)，Opus 4.6 可將其增強(qiáng)的功能應(yīng)用于一系列日常工作任務(wù)，包括運(yùn)行財(cái)務(wù)分析、進(jìn)行研究以及使用和創(chuàng)建文檔、電子表格和演示文稿?，F(xiàn)在在 Cowork 環(huán)境中，Claude 可以自主地執(zhí)行多任務(wù)，Opus 4.6 可以代表人類運(yùn)用所有這些技能。

Opus 4.6 在多項(xiàng)評(píng)估中均表現(xiàn)出色。例如，它在智能體編碼評(píng)估工具 Terminal-Bench 2.0 中取得了最高分，并在「人類最后的考試」（一項(xiàng)復(fù)雜的多學(xué)科推理測(cè)試）中領(lǐng)先于所有其他前沿模型。在 GDPval-AA（一項(xiàng)評(píng)估模型在金融、法律和其他領(lǐng)域中具有經(jīng)濟(jì)價(jià)值的知識(shí)工作任務(wù)上的表現(xiàn)的測(cè)試）中， Opus 4.6 的表現(xiàn)比業(yè)界次優(yōu)模型（OpenAI 的 GPT-5.2）高出約 144 個(gè) Elo 分?jǐn)?shù)，比其前身（Claude Opus 4.5）高出 190 分。此外，Opus 4.6 在 BrowseComp 測(cè)試中也優(yōu)于其他所有模型，該測(cè)試用于衡量模型在線查找難尋信息的能力。

Claude Opus 4.6 現(xiàn)已在 claude.ai、API 以及所有主流云平臺(tái)上線，定價(jià)保持不變，每百萬(wàn) token 5 美元 / 25 美元。

目前大模型的一個(gè)常見(jiàn)問(wèn)題是「上下文腐爛」，即當(dāng)對(duì)話 token 數(shù)量超過(guò)一定閾值時(shí)，模型性能會(huì)下降。Opus 4.6 的性能顯著優(yōu)于其前代產(chǎn)品：在 MRCR v2 的 8 針 1M 變體測(cè)試中（該測(cè)試如同大海撈針），Opus 4.6 的得分為 76%，而 Sonnet 4.5 的得分僅為 18.5%。這標(biāo)志著模型在保持最佳性能的同時(shí)，能夠利用的上下文信息量發(fā)生了質(zhì)的飛躍。

為了證明 Opus 4.6 的強(qiáng)大智能體能力，Anthropic 的一名研究員使用 16 個(gè)智能體從零開(kāi)始構(gòu)建了一個(gè)基于 Rust 的 C 語(yǔ)言編譯器，設(shè)定任務(wù)后就基本放手不管了。最后 AI 輸出的代碼長(zhǎng)達(dá) 10 萬(wàn)行，可以編譯 Linux 內(nèi)核，耗資 2 萬(wàn)美元，超過(guò) 2000 次 Claude Code 會(huì)話，歷時(shí)兩周。

該編譯器可以在 x86、ARM 和 RISC-V 上構(gòu)建可啟動(dòng)的 Linux 6.9，它通過(guò)了 GCC 99% 的壓力測(cè)試，可以編譯 FFmpeg、Redis、PostgreSQL、QEMU，還通過(guò)了開(kāi)發(fā)者的終極考驗(yàn)：編譯并運(yùn)行了 Doom 游戲。

該編譯器的代碼：https://github.com/anthropics/claudes-c-compiler

雖然沒(méi)有人類參與編寫代碼，但研究人員不斷重新設(shè)計(jì)測(cè)試，在智能體程序互相干擾時(shí)構(gòu)建 CI 管道，并在所有 16 個(gè)智能體程序都卡在同一個(gè) bug 時(shí)創(chuàng)建變通方法。

看起來(lái)，在未來(lái)加入 AI 的工作流程中，人的角色已經(jīng)從編寫代碼轉(zhuǎn)變?yōu)闃?gòu)建讓 AI 能夠編寫代碼的環(huán)境。

GPT-5.3-Codex

在 OpenAI 這邊，新一代模型 GPT-5.3-Codex 的發(fā)布緊隨其后。奧特曼稱其擁有目前最佳的編碼性能，進(jìn)一步釋放了 Codex 的潛能。

GPT-5.3-Codex 在多項(xiàng)基準(zhǔn)上刷新紀(jì)錄：在 SWE-Bench Pro 上達(dá)到 56.8%，在 Terminal-Bench 2.0 上達(dá)到 77.3%，同時(shí)相比此前版本運(yùn)行更快、消耗的 token 更少。

OpenAI 表示，該模型融合了 GPT-5.2-Codex 的前沿編碼性能和 GPT-5.2 的推理及專業(yè)知識(shí)能力，速度提升了 25%。這使其能夠勝任需要研究、工具使用和復(fù)雜執(zhí)行的長(zhǎng)時(shí)間任務(wù)。

它就像一位真正的同事一樣，你可以在 GPT-5.3-Codex 工作時(shí)對(duì)其進(jìn)行指導(dǎo)和交互，而不會(huì)丟失上下文信息。借助 GPT-5.3-Codex，Codex 從一個(gè)能夠編寫和審查代碼的代理，變成了一個(gè)幾乎可以執(zhí)行開(kāi)發(fā)人員和專業(yè)人士在計(jì)算機(jī)上的任何操作的代理。

除了更加強(qiáng)大的編碼能力外，GPT-5.2-Codex 在 OpenAI 長(zhǎng)期關(guān)注的美學(xué)方面又一次有了長(zhǎng)足的進(jìn)步。

在這次發(fā)布中，OpenAI 讓 GPT-5.3-Codex 構(gòu)建了兩款游戲：一款是 Codex 應(yīng)用發(fā)布時(shí)推出的賽車游戲的第二版，另一款是潛水游戲。

OpenAI 表示，GPT-5.3-Codex 利用其網(wǎng)頁(yè)游戲開(kāi)發(fā)技能以及預(yù)先設(shè)定的通用后續(xù)提示（例如「修復(fù)錯(cuò)誤」或「改進(jìn)游戲」），自主地迭代開(kāi)發(fā)了數(shù)百萬(wàn)個(gè) token。

這次發(fā)布的 GPT-5.3-Codex ，OpenAI 對(duì)其的期望遠(yuǎn)不止步于一個(gè)智能編碼模型，而是一個(gè)能夠「Beyond coding」，實(shí)現(xiàn)工作助理的智能體。

GPT-5.3-Codex 能夠支持軟件生命周期中的所有工作 —— 調(diào)試、部署、監(jiān)控、編寫產(chǎn)品需求文檔、編輯文案、用戶研究、測(cè)試、指標(biāo)分析等等。

GPT-5.3-Codex 輸出凈值分析表格示例

OpenAI 認(rèn)為，隨著模型能力的不斷增強(qiáng)，差距不再僅僅在于智能體能夠做什么，而是在于人類如何輕松地與多個(gè)并行工作的智能體進(jìn)行交互、指導(dǎo)和監(jiān)督。鑒于此，Codex 應(yīng)用可以讓管理和指導(dǎo)智能體變得更加便捷，而 GPT-5.3-Codex 的加入更使其交互性更強(qiáng)。

借助新模型，Codex 會(huì)頻繁更新，讓你隨時(shí)了解關(guān)鍵決策和進(jìn)展。人們無(wú)需等待最終輸出，即可實(shí)時(shí)互動(dòng) —— 提出問(wèn)題、討論方法，并共同探索解決方案。GPT-5.3-Codex 會(huì)語(yǔ)音播報(bào)其運(yùn)行過(guò)程，響應(yīng)反饋，并讓你從始至終掌握整個(gè)流程。

最后，OpenAI 表示，GPT-5.3-Codex 的訓(xùn)練和部署使用了 Codex，OpenAI 的許多研究人員和工程師都表示，他們現(xiàn)在的工作與兩個(gè)月前相比發(fā)生了根本性的變化。

例如，研究團(tuán)隊(duì)使用 Codex 來(lái)監(jiān)控和調(diào)試本次版本的訓(xùn)練運(yùn)行。它不僅加速了基礎(chǔ)設(shè)施問(wèn)題的調(diào)試，還幫助追蹤整個(gè)訓(xùn)練過(guò)程中的模式，對(duì)交互質(zhì)量進(jìn)行深入分析，提出修復(fù)方案，并構(gòu)建了豐富的應(yīng)用程序，使研究人員能夠精確地了解模型行為與先前模型之間的差異。

工程團(tuán)隊(duì)使用 Codex 對(duì) GPT-5.3-Codex 框架進(jìn)行了優(yōu)化和適配。當(dāng)出現(xiàn)影響用戶的異常極端情況時(shí)，團(tuán)隊(duì)成員利用 Codex 識(shí)別上下文渲染錯(cuò)誤，并找出緩存命中率低的根本原因。在整個(gè)發(fā)布過(guò)程中，GPT-5.3-Codex 通過(guò)動(dòng)態(tài)擴(kuò)展 GPU 集群來(lái)應(yīng)對(duì)流量高峰并保持延遲穩(wěn)定，持續(xù)為團(tuán)隊(duì)提供支持。

在 Alpha 測(cè)試期間，一位研究人員想要了解 GPT-5.3-Codex 每回合能完成多少額外工作，以及由此帶來(lái)的生產(chǎn)力提升。GPT-5.3-Codex 生成了幾個(gè)簡(jiǎn)單的正則表達(dá)式分類器，用于估算用戶澄清請(qǐng)求的頻率、正面和負(fù)面反饋以及任務(wù)進(jìn)度，然后將這些分類器可擴(kuò)展地應(yīng)用于所有會(huì)話日志，并生成一份包含結(jié)論的報(bào)告。

GPT-5.3-Codex 已包含在 ChatGPT 的付費(fèi)套餐中，但 API 還需要等待一段時(shí)間。

OpenAI 報(bào)告說(shuō)，由于基礎(chǔ)設(shè)施和推理堆棧的改進(jìn)，Codex 用戶現(xiàn)在運(yùn)行 GPT-5.3-Codex 的速度也提高了 25%，從而實(shí)現(xiàn)了更快的交互和更快的結(jié)果。

結(jié)語(yǔ)

海外的大模型已經(jīng)輪番上陣，在春節(jié)前的最后這幾天，國(guó)內(nèi)大模型也必然會(huì)卷起來(lái)，包括 DeepSeek v4 也許即將到來(lái)。

你期待住了嗎？

參考內(nèi)容：

https://www.anthropic.com/news/claude-opus-4-6

https://www.anthropic.com/engineering/building-c-compiler

https://openai.com/index/introducing-gpt-5-3-codex/

關(guān)鍵詞：代碼編譯器智能體上下文新論文 opu

[責(zé)任編輯：h001]