揭秘大語言模型“真相”:谷歌發(fā)布AI基準測試
隨著人工智能技術的快速發(fā)展,大型語言模型(LLMs)在自然語言處理領域的應用越來越廣泛。然而,這些模型在處理真實世界數據時,也面臨著一些挑戰(zhàn),如事實準確性、避免“幻覺”等問題。為了解決這些問題,谷歌DeepMind團隊于近日發(fā)布了一項新的AI基準測試——FACTS Grounding基準測試。該測試旨在評估LLMs根據給定材料準確作答的能力,并提升LLMs的事實準確性,增強用戶信任度,并拓展其應用范圍。
一、數據集介紹
在數據集方面,FACTS Grounding基準測試采用了ACTSGrounding數據集。該數據集包含1719個示例,涵蓋金融、科技、零售、醫(yī)療和法律等多個領域。每個示例包含一篇文檔、一條要求LLM基于文檔的系統指令和隨附的提示詞。示例文檔長度不一,最長可達32000個token(約20000字)。這些示例旨在涵蓋各種真實世界任務,如摘要生成、問答生成和改寫等。
數據集分為860個“公共”示例和859個“私有”示例。目前已發(fā)布公共數據集供評估使用,私有數據集則用于排行榜評分,以防止基準污染和排行榜作弊。
二、評估方案
在評估方案上,FACTSGrounding基準測試采用了Gemini 1.5 Pro、GPT-4o和Claude 3.5 Sonnet 3款模型作為評委,評估答案的充分性、事實準確性和文檔支持性。評估分為兩個階段:首先評估響應是否符合資格,即是否充分回答了用戶請求;然后評估響應的事實準確性,即是否完全基于所提供的文檔,有沒有出現“幻覺”。最終根據該模型在所有示例上的平均得分進行排名。
值得一提的是,在FACTSGrounding基準測試中,谷歌的Gemini模型在事實準確的文本生成方面取得了最高分。這一成績不僅體現了Gemini模型在處理真實世界數據方面的優(yōu)勢,也反映了FACTSGrounding基準測試對于評估LLM事實準確性方面的有效性。
三、主題延伸
FACTSGrounding基準測試的推出,不僅為LLM的開發(fā)者和研究者提供了一個新的評估工具,也為公眾揭示了LLM在處理真實世界數據時的局限性和挑戰(zhàn)。隨著LLM技術的不斷發(fā)展,我們有必要對它們進行更嚴格的評估和監(jiān)督。
一方面,我們需要關注LLM在處理真實世界數據時的準確性問題。由于LLM的訓練數據主要來源于互聯網,其中包含大量的虛假信息和主觀觀點。因此,LLM在生成回答時可能會出現“幻覺”和錯誤信息,影響其事實準確性。FACTSGrounding基準測試正是針對這一問題而推出的評估工具。
另一方面,我們需要警惕LLM可能對現實世界造成的負面影響。由于LLM的技術尚未完全成熟,其生成的回答和決策可能會對社會產生誤導和危害。因此,我們需要加強監(jiān)管,確保LLM的應用符合道德和法律標準。
總之,谷歌DeepMind團隊推出的FACTSGrounding基準測試為評估LLM提供了新的視角和方法。通過這一測試,我們可以更好地了解LLM在處理真實世界數據時的表現和能力,從而為未來的技術發(fā)展提供指導。同時,我們也需要關注和應對LLM可能帶來的挑戰(zhàn)和風險。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )