
OpenAI發表FrontierScience新科學推理評比,AI模型在生物、化學與物理三大領域展現突破。競爭激烈,微軟、Google、Anthropic技術表現與挑戰機會並陳。
全球人工智慧技術再掀熱潮,OpenAI於近期正式推出一項全新科學推理評比「FrontierScience」,成為AI在物理、化學與生物三大核心領域跨足專家級科學推理的重要里程碑。這套基準評比由頂尖科學家撰寫和把關,題目涵蓋奧林匹亞競賽難度,以及真實科研問題,旨在檢驗AI模型在理論推理與實務研究上的能力。OpenAI宣布,其新一代GPT-5.2模型已在這項評比中取得亮眼成績,奧林匹亞測驗拿下77%,科研表現則獲得25%。同場PK還包括Anthropic的Claude Opus 4.5(71.4%/17.5%)、Google Gemini Pro 3(76.1%/12.4%)與xAI Grok 4(66.2%/15.9%)。
根據OpenAI部落格指出,FrontierScience評比斷言AI在科學領域尚有不足,仍需技術深化。相較於人類專家水準,現今AI在理論推理已顯擁有一定競爭力,惟真實世界科研仍存明顯落後。Google(GOOG, GOOGL)與Anthropic也積極回應追趕,力求以新訓練資料和架構突破障礙。Microsoft(MSFT)更透過投資OpenAI鞏固自身在AI科學應用的領先地位,期待未來AI能成為科研人員可靠的合作夥伴。
該評比不僅促使技術競爭加速迭代,更發掘出現有大模型在專業領域運用的漏洞。例如,雖然在奧林匹亞題型上GPT-5.2領先同業,但在真實科研上四家模型分數皆遠低於50%,顯見AI從資料整合到獨立創新尚不足,值得業界高度關注。業者普遍認為,未來的突破將來自更具針對性的科學模型訓練,以及泛用推理技術的優化。
部分學者亦持保留態度,認為AI於科學研究只宜輔助而非主導,因科學發現涉及嚴謹的驗證流程和複雜領域知識,非可全然由演算法取代。不過,OpenAI仍強調其評比有助於發現並修正模型短板,進而促進AI在科學界的責任性和透明度。
展望未來,AI公司將繼續投入豐厚資源,競逐科學領域的突破。專家預期,隨著FrontierScience與其他新基準評比推行,AI可靠性將提升,最終有望成為科研團隊不可或缺的夥伴,甚至引領新一波跨學科科學創新革命。
點擊下方連結,開啟「美股K線APP」,獲得更多美股即時資訊喔!
https://www.cmoney.tw/r/56/9hlg37
本網站所提供資訊僅供參考,並無任何推介買賣之意,投資人應自行承擔交易風險。
發表
我的網誌


