Google AI 推出了一款新穎的名為AGREE 的機器學習框架,旨在減少大型語言模型(LLM)中的不準確性。當法學碩士做出不正確或無意義的回答時,尤其是在需要廣泛的世界知識的背景下,就會出現這些不準確的情況,通常被稱為「幻覺」。 解決幻覺挑戰

幻覺現像在新聞報導和教育等領域尤其成問題,在這些領域,事實準確性至關重要,減輕這些錯誤的傳統方法包括事後引用和基於提示的基礎引用,包括事後添加引用。所需的事實準確性的高標準。法學碩士自我接地他們的回答並提供準確的引用。在訓練階段,AGREE 使用未標記查詢的合成資料對 LLM 進行微調。這個過程使模型能夠透過在他們的回答中添加引用來自我證實他們的主張。在測試時,AGREE 採用迭代推理策略,允許法學碩士根據自行生成的引文尋求更多信息,從而不斷完善他們的答案。/uploads/2023/07/Artificial-Intelligence-AI-pixabay.jpg”>

AGREE 的訓練過程涉及幾個步驟。最初,從未標記的查詢中收集合成數據,並使用檢索器模型檢索來自維基百科等可靠來源的相關段落。然後將這些段落提交給基礎法學碩士,後者會產生沒有引用的初始回應。 NLI 模型用於確定每個主張的支持,並相應地向支持段落添加引用。沒有支持段落的句子不會被引用。 ,AGREE 顯著提高了基礎和引用精度基線方法。該框架已證明接地品質相對提高了 30% 以上。 AGREE 的穩健性是顯而易見的,因為即使在處理域外資料時它也表現良好,這表明它在不同問題類型中具有多功能性,包括那些需要模型訓練資料之外的知識的問題。納入測驗時間適應(TTA) 可以讓法學碩士積極尋找更多相關段落來建構更好的答案,從而進一步增強基礎知識和答案正確性。了顯著進步例如多跳推理、生成計劃以及利用工具和 API。然而,幻覺問題仍然是一個持續存在的挑戰。 AGREE 將基於學習的適應與測試時適應相結合的方法提供了一個有前途的解決方案。透過使法學碩士能夠自行回答並提供精確的引文,AGREE 提高了用戶信任並擴展了法學碩士在需要高事實準確性的各個領域的潛在應用。 strong>

AGREE 的有效性透過使用域內和域外資料集的綜合實驗得到驗證。調優資料是使用來自資料集的查詢創建的,例如Natural QuestionsStrategyQA 和 Fever,提供多樣化的文本並需要不同的推理過程。 AGREE 使用域內訓練集調整基礎 LLM,並在域外資料集上測試模型以評估其泛化能力。結果表明,AGREE 的改進可以有效地推廣到不同的問題類型和外部知識來源。

Categories: IT Info