當(dāng)你向ChatGPT詢問一個事實性問題,或讓Claude分析一張財務(wù)圖表時,你可能會認(rèn)為這些頂 級AI模型會給出準(zhǔn)確答案。但Google剛剛發(fā)布的一項基準(zhǔn)測試結(jié)果令人震驚:包括GPT-5、Gemini 3 Pro、Claude 4.5 Opus在內(nèi)的所有主流AI模型,在事實準(zhǔn)確性測試中的得分都無法突破70%。
換句話說,即使是最強大的AI,也有超過30%的概率給你錯誤信息。
【資料圖】
2025年12月,Google的FACTS團隊聯(lián)合數(shù)據(jù)科學(xué)平臺Kaggle正式發(fā)布了FACTS基準(zhǔn)測試套件(FACTS Benchmark Suite),這是業(yè)界首 個系統(tǒng)性評估大語言模型"事實準(zhǔn)確性"的綜合框架。測試結(jié)果不僅讓Gemini 3 Pro獲得了第 一名的位置,更重要的是,它揭示了一個行業(yè)性難題:沒有任何一個模型能夠突破70%的準(zhǔn)確率關(guān)口。
對于技術(shù)領(lǐng) 導(dǎo)者和企業(yè)決策者來說,這是一個明確的信號:AI的"信任但驗證"時代遠未結(jié)束。
為什么事實準(zhǔn)確性如此重要?
市面上不乏各種AI基準(zhǔn)測試——從代碼編寫能力到指令遵循,從網(wǎng)頁瀏覽到工具使用。但這些測試都有一個共同的盲點:它們衡量的是AI完成特定任務(wù)的能力,而不是生成信息的準(zhǔn)確性——特別是在處理圖像、圖表等多模態(tài)內(nèi)容時,能否輸出客觀正確、與真實世界數(shù)據(jù)相符的信息。
對于法律、金融、醫(yī)療等準(zhǔn)確性至關(guān)重要的行業(yè)來說,缺乏標(biāo)準(zhǔn)化的"事實準(zhǔn)確性"評估方法一直是個關(guān)鍵盲區(qū)。律師需要確保案例引用準(zhǔn)確,財務(wù)分析師需要確保數(shù)據(jù)解讀無誤,醫(yī)生需要確保診斷建議可靠——但在FACTS測試發(fā)布之前,我們?nèi)鄙僖粋€統(tǒng)一的標(biāo)準(zhǔn)來衡量AI在這些場景下的表現(xiàn)。
FACTS測試填補了這一空白。相關(guān)研究論文將"事實準(zhǔn)確性"細(xì)分為兩個操作場景:
情境事實性(Contextual Factuality):基于提供的數(shù)據(jù)進行準(zhǔn)確回答的能力
世界知識事實性(World Knowledge Factuality):從記憶或網(wǎng)絡(luò)檢索信息的準(zhǔn)確性
FACTS測試:四大維度全面評估
FACTS測試不是簡單的問答游戲,而是模擬了開發(fā)者在生產(chǎn)環(huán)境中會遇到的四種真實失敗場景:
1. 參數(shù)基準(zhǔn)測試(Parametric Benchmark):內(nèi)部知識考核
測試內(nèi)容:模型能否僅使用訓(xùn)練數(shù)據(jù)準(zhǔn)確回答百科式問題?
這就像考學(xué)生的基礎(chǔ)知識儲備——“法國的首都是哪里?”"誰寫了《1984》?"測試模型的內(nèi)部記憶是否可靠。
2. 搜索基準(zhǔn)測試(Search Benchmark):工具使用能力
測試內(nèi)容:模型能否有效使用網(wǎng)絡(luò)搜索工具檢索并綜合實時信息?
這是開卷考試——給模型配備搜索工具,看它會不會查資料、用資料,能否找到正確答案并準(zhǔn)確引用。
3. 多模態(tài)基準(zhǔn)測試(Multimodal Benchmark):視覺理解能力
測試內(nèi)容:模型能否準(zhǔn)確解讀圖表、圖示和圖像,而不產(chǎn)生幻覺?
這是"看圖說話"測試——給AI一張財務(wù)圖表、數(shù)據(jù)可視化或信息圖,看它能否準(zhǔn)確提取信息,而不是編造數(shù)據(jù)。
4. 落地基準(zhǔn)測試 v2(Grounding Benchmark v2):上下文忠實度
測試內(nèi)容:模型能否嚴(yán)格依據(jù)提供的源文本回答,不添油加醋?
這是閱讀理解測試——給模型一段文字,看它會不會老老實實按原文回答,還是會自行發(fā)揮、編造信息。
測試規(guī)模:Google公開了3,513個測試樣本,同時Kaggle保留了一個私有數(shù)據(jù)集以防止"應(yīng)試訓(xùn)練污染"——這是基準(zhǔn)測試中的常見問題,模型可能會針對已知測試題進行優(yōu)化。
排行榜:毫厘之爭背后的真相
初步測試結(jié)果顯示,Gemini 3 Pro以68.8%的綜合FACTS得分位居榜首,其次是Gemini 2.5 Pro(62.1%)和OpenAI的GPT-5(61.8%)。但深入數(shù)據(jù),我們會發(fā)現(xiàn)工程團隊真正的戰(zhàn)場在哪里。
15 個領(lǐng) 先模型及其整體 FACTS 得分 數(shù)據(jù)來源:FACTS團隊發(fā)布報告
三大關(guān)鍵發(fā)現(xiàn):對開發(fā)者意味著什么?
發(fā)現(xiàn)一:沒有模型突破70%大關(guān)
即使是排名第 一的Gemini 3 Pro,綜合得分也僅為68.8%。這意味著在實際應(yīng)用中,大約每3次AI輸出就有1次可能包含錯誤信息。
對企業(yè)的影響:在關(guān)鍵業(yè)務(wù)場景中,必須建立人工審核機制。不要假設(shè)AI的回答是100%可靠的。
發(fā)現(xiàn)二:搜索能力遠超內(nèi)部記憶
對于構(gòu)建RAG(檢索增強生成)系統(tǒng)的開發(fā)者來說,搜索基準(zhǔn)測試是最關(guān)鍵的指標(biāo)。
數(shù)據(jù)顯示,模型"找信息"的能力和"記住信息"的能力之間存在巨大差距。例如:
Gemini 3 Pro:搜索能力83.8% vs 內(nèi)部知識76.4%(差距7.4個百分點)
GPT-5:搜索能力77.7% vs 內(nèi)部知識68.8%(差距8.9個百分點)
結(jié)論:這驗證了當(dāng)前企業(yè)架構(gòu)的標(biāo)準(zhǔn)做法——不要依賴模型的內(nèi)部記憶獲取關(guān)鍵事實。
如果你正在構(gòu)建內(nèi)部知識機器人,F(xiàn)ACTS的結(jié)果明確表明:將模型連接到搜索工具或向量數(shù)據(jù)庫不是可選項,而是將準(zhǔn)確率推向可接受生產(chǎn)水平的唯 一途徑。
發(fā)現(xiàn)三:多模態(tài)是重災(zāi)區(qū)
對產(chǎn)品經(jīng)理來說,最令人警醒的數(shù)據(jù)點是多模態(tài)任務(wù)的表現(xiàn)。所有模型的得分都普遍偏低,即使是該類別的領(lǐng) 先者Gemini 2.5 Pro,也只達到46.9%的準(zhǔn)確率。
測試任務(wù)包括閱讀圖表、解讀圖示、識別自然物體。準(zhǔn)確率不到50%意味著多模態(tài)AI尚未準(zhǔn)備好進行無人監(jiān)督的數(shù)據(jù)提取。
底線:如果你的產(chǎn)品路線圖包括讓AI自動從發(fā)票中提取數(shù)據(jù)、或在沒有人工審核的情況下解讀財務(wù)圖表,你很可能會在流程中引入顯著的錯誤率。
為什么這對你的技術(shù)棧很重要?
FACTS基準(zhǔn)測試很可能成為企業(yè)采購的標(biāo)準(zhǔn)參考點。在評估模型用于企業(yè)應(yīng)用時,技術(shù)領(lǐng) 導(dǎo)者應(yīng)該超越綜合得分,深入到與具體用例匹配的子基準(zhǔn):
根據(jù)應(yīng)用場景選擇模型
構(gòu)建客戶支持機器人?→ 關(guān)注"上下文準(zhǔn)確性"得分
確保機器人嚴(yán)格遵循你的政策文檔,不自行發(fā)揮。
有趣發(fā)現(xiàn):在這個維度上,Gemini 2.5 Pro(74.2%)實際上超過了Gemini 3 Pro(69.0%)。
構(gòu)建研究助手?→ 優(yōu)先考慮"搜索能力"得分
研究助手需要能夠找到信息、綜合信息,搜索能力是核心。Gemini 3 Pro(83.8%)和GPT-5(77.7%)在這方面表現(xiàn)最 佳。
構(gòu)建圖像分析工具?→ 極度謹(jǐn)慎行事
所有模型的多模態(tài)得分都不到50%,意味著錯誤率超過一半。必須配備人工審核機制。
行業(yè)影響:信任但驗證的時代
正如FACTS團隊在發(fā)布中指出的:“所有評估模型的整體準(zhǔn)確率都低于70%,為未來進步留下了相當(dāng)大的空間。”
對行業(yè)來說,信息很明確:模型正在變得更聰明,但它們還遠未達到"絕 對可靠"的程度。在設(shè)計系統(tǒng)時,請假設(shè)大約三分之一的情況下,原始模型輸出可能是錯誤的。
這不是對AI能力的否定,而是對現(xiàn)實的清醒認(rèn)識。70%的準(zhǔn)確率意味著AI已經(jīng)可以大幅提升效率、輔助決策,但仍需要人類的監(jiān)督和判斷。
關(guān)鍵詞: Google FACTS團隊 Gemini 3 Pro AI
版權(quán)與免責(zé)聲明:
1 本網(wǎng)注明“來源:×××”(非商業(yè)周刊網(wǎng))的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé),本網(wǎng)不承擔(dān)此類稿件侵權(quán)行為的連帶責(zé)任。
2 在本網(wǎng)的新聞頁面或BBS上進行跟帖或發(fā)表言論者,文責(zé)自負(fù)。
3 相關(guān)信息并未經(jīng)過本網(wǎng)站證實,不對您構(gòu)成任何投資建議,據(jù)此操作,風(fēng)險自擔(dān)。
4 如涉及作品內(nèi)容、版權(quán)等其它問題,請在30日內(nèi)同本網(wǎng)聯(lián)系。