所有頂級AI模型準(zhǔn)確率都突破不了70%？Google揭示行業(yè)真相

來源：投資界2025-12-12 16:01:28

當(dāng)你向ChatGPT詢問一個事實性問題，或讓Claude分析一張財務(wù)圖表時，你可能會認(rèn)為這些頂級AI模型會給出準(zhǔn)確答案。但Google剛剛發(fā)布的一項基準(zhǔn)測試結(jié)果令人震驚：包括GPT-5、Gemini 3 Pro、Claude 4.5 Opus在內(nèi)的所有主流AI模型，在事實準(zhǔn)確性測試中的得分都無法突破70%。

換句話說，即使是最強大的AI，也有超過30%的概率給你錯誤信息。

【資料圖】

2025年12月，Google的FACTS團隊聯(lián)合數(shù)據(jù)科學(xué)平臺Kaggle正式發(fā)布了FACTS基準(zhǔn)測試套件（FACTS Benchmark Suite），這是業(yè)界首個系統(tǒng)性評估大語言模型"事實準(zhǔn)確性"的綜合框架。測試結(jié)果不僅讓Gemini 3 Pro獲得了第一名的位置，更重要的是，它揭示了一個行業(yè)性難題：沒有任何一個模型能夠突破70%的準(zhǔn)確率關(guān)口。

對于技術(shù)領(lǐng) 導(dǎo)者和企業(yè)決策者來說，這是一個明確的信號：AI的"信任但驗證"時代遠未結(jié)束。

為什么事實準(zhǔn)確性如此重要？

市面上不乏各種AI基準(zhǔn)測試——從代碼編寫能力到指令遵循，從網(wǎng)頁瀏覽到工具使用。但這些測試都有一個共同的盲點：它們衡量的是AI完成特定任務(wù)的能力，而不是生成信息的準(zhǔn)確性——特別是在處理圖像、圖表等多模態(tài)內(nèi)容時，能否輸出客觀正確、與真實世界數(shù)據(jù)相符的信息。

對于法律、金融、醫(yī)療等準(zhǔn)確性至關(guān)重要的行業(yè)來說，缺乏標(biāo)準(zhǔn)化的"事實準(zhǔn)確性"評估方法一直是個關(guān)鍵盲區(qū)。律師需要確保案例引用準(zhǔn)確，財務(wù)分析師需要確保數(shù)據(jù)解讀無誤，醫(yī)生需要確保診斷建議可靠——但在FACTS測試發(fā)布之前，我們?nèi)鄙僖粋€統(tǒng)一的標(biāo)準(zhǔn)來衡量AI在這些場景下的表現(xiàn)。

FACTS測試填補了這一空白。相關(guān)研究論文將"事實準(zhǔn)確性"細(xì)分為兩個操作場景：

情境事實性（Contextual Factuality）：基于提供的數(shù)據(jù)進行準(zhǔn)確回答的能力

世界知識事實性（World Knowledge Factuality）：從記憶或網(wǎng)絡(luò)檢索信息的準(zhǔn)確性

FACTS測試：四大維度全面評估

FACTS測試不是簡單的問答游戲，而是模擬了開發(fā)者在生產(chǎn)環(huán)境中會遇到的四種真實失敗場景：

1. 參數(shù)基準(zhǔn)測試（Parametric Benchmark）：內(nèi)部知識考核

測試內(nèi)容：模型能否僅使用訓(xùn)練數(shù)據(jù)準(zhǔn)確回答百科式問題？

這就像考學(xué)生的基礎(chǔ)知識儲備——“法國的首都是哪里？”"誰寫了《1984》？"測試模型的內(nèi)部記憶是否可靠。

2. 搜索基準(zhǔn)測試（Search Benchmark）：工具使用能力

測試內(nèi)容：模型能否有效使用網(wǎng)絡(luò)搜索工具檢索并綜合實時信息？

這是開卷考試——給模型配備搜索工具，看它會不會查資料、用資料，能否找到正確答案并準(zhǔn)確引用。

3. 多模態(tài)基準(zhǔn)測試（Multimodal Benchmark）：視覺理解能力

測試內(nèi)容：模型能否準(zhǔn)確解讀圖表、圖示和圖像，而不產(chǎn)生幻覺？

這是"看圖說話"測試——給AI一張財務(wù)圖表、數(shù)據(jù)可視化或信息圖，看它能否準(zhǔn)確提取信息，而不是編造數(shù)據(jù)。

4. 落地基準(zhǔn)測試 v2（Grounding Benchmark v2）：上下文忠實度

測試內(nèi)容：模型能否嚴(yán)格依據(jù)提供的源文本回答，不添油加醋？

這是閱讀理解測試——給模型一段文字，看它會不會老老實實按原文回答，還是會自行發(fā)揮、編造信息。

測試規(guī)模：Google公開了3,513個測試樣本，同時Kaggle保留了一個私有數(shù)據(jù)集以防止"應(yīng)試訓(xùn)練污染"——這是基準(zhǔn)測試中的常見問題，模型可能會針對已知測試題進行優(yōu)化。

排行榜：毫厘之爭背后的真相

初步測試結(jié)果顯示，Gemini 3 Pro以68.8%的綜合FACTS得分位居榜首，其次是Gemini 2.5 Pro（62.1%）和OpenAI的GPT-5（61.8%）。但深入數(shù)據(jù)，我們會發(fā)現(xiàn)工程團隊真正的戰(zhàn)場在哪里。

15 個領(lǐng) 先模型及其整體 FACTS 得分數(shù)據(jù)來源：FACTS團隊發(fā)布報告

三大關(guān)鍵發(fā)現(xiàn)：對開發(fā)者意味著什么？

發(fā)現(xiàn)一：沒有模型突破70%大關(guān)

即使是排名第一的Gemini 3 Pro，綜合得分也僅為68.8%。這意味著在實際應(yīng)用中，大約每3次AI輸出就有1次可能包含錯誤信息。

對企業(yè)的影響：在關(guān)鍵業(yè)務(wù)場景中，必須建立人工審核機制。不要假設(shè)AI的回答是100%可靠的。

發(fā)現(xiàn)二：搜索能力遠超內(nèi)部記憶

對于構(gòu)建RAG（檢索增強生成）系統(tǒng)的開發(fā)者來說，搜索基準(zhǔn)測試是最關(guān)鍵的指標(biāo)。

數(shù)據(jù)顯示，模型"找信息"的能力和"記住信息"的能力之間存在巨大差距。例如：

Gemini 3 Pro：搜索能力83.8% vs 內(nèi)部知識76.4%（差距7.4個百分點）

GPT-5：搜索能力77.7% vs 內(nèi)部知識68.8%（差距8.9個百分點）

結(jié)論：這驗證了當(dāng)前企業(yè)架構(gòu)的標(biāo)準(zhǔn)做法——不要依賴模型的內(nèi)部記憶獲取關(guān)鍵事實。

如果你正在構(gòu)建內(nèi)部知識機器人，F(xiàn)ACTS的結(jié)果明確表明：將模型連接到搜索工具或向量數(shù)據(jù)庫不是可選項，而是將準(zhǔn)確率推向可接受生產(chǎn)水平的唯一途徑。

發(fā)現(xiàn)三：多模態(tài)是重災(zāi)區(qū)

對產(chǎn)品經(jīng)理來說，最令人警醒的數(shù)據(jù)點是多模態(tài)任務(wù)的表現(xiàn)。所有模型的得分都普遍偏低，即使是該類別的領(lǐng) 先者Gemini 2.5 Pro，也只達到46.9%的準(zhǔn)確率。

測試任務(wù)包括閱讀圖表、解讀圖示、識別自然物體。準(zhǔn)確率不到50%意味著多模態(tài)AI尚未準(zhǔn)備好進行無人監(jiān)督的數(shù)據(jù)提取。

底線：如果你的產(chǎn)品路線圖包括讓AI自動從發(fā)票中提取數(shù)據(jù)、或在沒有人工審核的情況下解讀財務(wù)圖表，你很可能會在流程中引入顯著的錯誤率。

為什么這對你的技術(shù)棧很重要？

FACTS基準(zhǔn)測試很可能成為企業(yè)采購的標(biāo)準(zhǔn)參考點。在評估模型用于企業(yè)應(yīng)用時，技術(shù)領(lǐng) 導(dǎo)者應(yīng)該超越綜合得分，深入到與具體用例匹配的子基準(zhǔn)：

根據(jù)應(yīng)用場景選擇模型

構(gòu)建客戶支持機器人？→ 關(guān)注"上下文準(zhǔn)確性"得分

確保機器人嚴(yán)格遵循你的政策文檔，不自行發(fā)揮。

有趣發(fā)現(xiàn)：在這個維度上，Gemini 2.5 Pro（74.2%）實際上超過了Gemini 3 Pro（69.0%）。

構(gòu)建研究助手？→ 優(yōu)先考慮"搜索能力"得分

研究助手需要能夠找到信息、綜合信息，搜索能力是核心。Gemini 3 Pro（83.8%）和GPT-5（77.7%）在這方面表現(xiàn)最佳。

構(gòu)建圖像分析工具？→ 極度謹(jǐn)慎行事

所有模型的多模態(tài)得分都不到50%，意味著錯誤率超過一半。必須配備人工審核機制。

行業(yè)影響：信任但驗證的時代

正如FACTS團隊在發(fā)布中指出的：“所有評估模型的整體準(zhǔn)確率都低于70%，為未來進步留下了相當(dāng)大的空間。”

對行業(yè)來說，信息很明確：模型正在變得更聰明，但它們還遠未達到"絕對可靠"的程度。在設(shè)計系統(tǒng)時，請假設(shè)大約三分之一的情況下，原始模型輸出可能是錯誤的。

這不是對AI能力的否定，而是對現(xiàn)實的清醒認(rèn)識。70%的準(zhǔn)確率意味著AI已經(jīng)可以大幅提升效率、輔助決策，但仍需要人類的監(jiān)督和判斷。

關(guān)鍵詞： Google FACTS團隊 Gemini 3 Pro AI

責(zé)任編輯：sdnew003

返回首頁返回資訊頻道首頁

熱文排行

財經(jīng)

綜合

黃金360

【焦點熱聞】如何理解銀行理財產(chǎn)品的收益結(jié)構(gòu)？
頭條：生意社：12月12日昌吉市場蘭炭價格持穩(wěn)運行
今亮點！偉測科技：12月11日持倉該股ETF資金凈流出91.10萬元，3日累計凈流出461.67萬元
新消息丨QDII產(chǎn)品申購“拼手速” 跨境配置熱度高
成立科技新公司布局充電樁業(yè)務(wù)？字節(jié)跳動澄清：園區(qū)部署需要

av无码av无码专区,久久久久久久亚洲av无码,久久99精品久久久久久噜噜,去干成人网

所有頂級AI模型準(zhǔn)確率都突破不了70%？Google揭示行業(yè)真相

相關(guān)新聞

熱文排行

財經(jīng)

綜合

黃金360

關(guān)注

熱門主題

綜合熱門

熱門主題

科技熱門

熱門主題

av无码av无码专区,久久久久久久亚洲av无码,久久99精品久久久久久噜噜,去干成人网

所有頂級AI模型準(zhǔn)確率都突破不了70%？Google揭示行業(yè)真相

相關(guān)新聞

熱文排行 財經(jīng) 綜合 黃金360

關(guān)注 熱門主題

綜合熱門 熱門主題

科技熱門 熱門主題

熱文排行

財經(jīng)

綜合

黃金360

關(guān)注

熱門主題

綜合熱門

熱門主題

科技熱門

熱門主題