
阿里巴巴(BABA)旗下的阿里雲部門正式發布最新旗艦級推論AI模型「Qwen3-Max-Thinking」。官方數據顯示,該模型在多項基準測試中的表現,已經超越了目前市場上的主要競爭對手,展現出強大的技術實力。
透過強化學習與參數擴展提升模型綜合能力
阿里巴巴(BABA)指出,Qwen3-Max-Thinking 透過擴大模型參數規模,並利用龐大的運算資源進行強化學習,成功在多個關鍵維度上實現顯著的性能提升。這些維度包括事實知識的掌握、複雜邏輯推理、指令遵循能力、與人類偏好的對齊程度,以及代理(Agent)能力等,顯示該模型在處理複雜任務時的穩定性與精準度。
實測表現媲美OpenAI與Google等頂尖競品
根據官方公布的數據,Qwen3-Max-Thinking 在19項權威基準測試中,展現了與市場領先模型相當的效能。這些被列為比較的頂尖模型包括 OpenAI 的 GPT-5.2-Thinking、Anthropic 的 Claude-Opus-4.5 以及 Alphabet(GOOGL) 的 Gemini 3 Pro。這項結果表明,阿里巴巴(BABA)在大語言模型領域的技術水平已躋身全球第一梯隊。
導入自適應工具與測試時推論擴展技術
這款新模型引入了兩項關鍵技術創新。首先是具備「自適應工具使用能力」,模型能夠根據需求檢索資訊並調用程式碼直譯器;其次是採用了先進的「測試時擴展技術(test-time scaling)」,這項技術能有效提升模型在推理過程中的運算表現,使其在面對高難度問題時能給出更精確的答案。
在高難度理工科測試中擊敗DeepSeek等對手
阿里巴巴(BABA)特別強調,搭載測試時擴展技術的 Qwen3-Max-Thinking,在 GPQA Diamond、IMO-AnswerBench(國際數學奧林匹亞競賽題庫)、LiveCodeBench 以及 Humanity's Last Exam 等高難度基準測試中,表現超越了 DeepSeek-V3.2、Claude-Opus-4.5、GPT-5.2 以及 Gemini-3 Pro。這些測試主要評估模型在科學、數學及程式編寫等領域的極限推理能力。
發表
我的網誌