Noul benchmark FACTS de la Google măsoară veridicitatea modelelor AI

Google DeepMind a lansat FACTS Grounding, un nou punct de referință conceput pentru a testa modele mari de limbaj (LLM) cu privire la capacitatea lor de a genera răspunsuri precise, bazate pe documente.

Etalonul de referință, găzduit pe Kaggle, își propune să abordeze una dintre cele mai presante provocări din inteligență artificială: asigurarea faptului că rezultatele AI sunt bazate pe datele care le sunt furnizate, mai degrabă decât să se bazeze pe cunoștințe externe sau să introducă halucinații-informații plauzibile, dar incorecte.

Actualul FACTS Grounding leaderboard clasifică modelele mari de limbi pe baza scorurilor lor de fapt, cu Google gemini-2.0-flash-exp conducând la 83,6%, urmat îndeaproape de gemini-1.5-flash-002 la 82,9%, iar gemeni-1,5-pro-002 la 80,0%.

Anthropic’s claude-3.5-sonnet-20241022 ocupă locul patru cu 79,4%, în timp ce gpt-4o de la OpenAI atinge 78,8%, plasându-l pe locul cinci. Mai jos pe listă, claude-3.5-haiku-20241022 de la Anthropic are 74,2%, urmat de gpt-4o-mini cu 71,0%.

Modelele mai mici ale OpenAI, o1-mini și o1-preview, completează clasamentul la 62,0% și >61,7%respectiv.

Kaggle

FACTS Grounding se deosebește prin necesitatea de răspunsuri lungi care sintetizează informații detaliate documente, făcându-l unul dintre cele mai riguroase repere pentru actualitatea AI până în prezent.

FACTE Grounding reprezintă o dezvoltare critică pentru industria AI, în special în aplicațiile în care încrederea și acuratețea sunt esențiale. Evaluând LLM-urile în domenii precum medicină, drept, finanțe, comerț cu amănuntul și tehnologie, benchmark-ul pune bazele pentru o fiabilitate îmbunătățită a AI în scenarii din lumea reală.

Conform echipei de cercetare a DeepMind, „punctul de referință măsoară capacitatea LLM-urilor de a genera răspunsuri bazate exclusiv în contextul furnizat… chiar și atunci când contextul intră în conflict cu cunoștințele prealabile.”

Setul de date pentru complexitatea lumii reale

FACTE Grounding constă din 1.719 de exemple, organizate de adnotatori umani pentru a se asigura relevanță și diversitate Aceste exemple sunt extrase din documente detaliate care se întinde pe până la 32.000 de jetoane, echivalentul a aproximativ 20.000 de cuvinte

Fiecare sarcină provoacă LLM să efectueze rezumat, generarea de întrebări și răspunsuri sau rescrierea conținutului. referiți doar datele furnizate. Benchmarkul evită sarcinile care necesită creativitate, raționament matematic sau interpretare expertă, concentrându-se în schimb. privind testarea capacității unui model de a sintetiza și articula informații complexe.

Pentru a menține transparența și a preveni supraadaptarea, DeepMind a împărțit setul de date în două segmente: 860 de exemple publice disponibile pentru uz extern și 859 de exemple private rezervate evaluărilor clasamentului.

Această structură dublă protejează integritatea benchmark-ului, încurajând în același timp colaborarea dintre dezvoltatorii AI din întreaga lume. „Evaluăm riguros evaluatorii noștri automati pe baza datelor de testare reținute pentru a valida performanța lor în sarcina noastră”, notează echipa de cercetare, subliniind designul atent care stă la baza FACTS Grounding.

Judecarea acurateței cu Peer Modele AI

Spre deosebire de benchmark-urile convenționale, FACTS Grounding utilizează un proces de evaluare inter pares care implică trei LLM avansate: Gemini 1.5 Pro, GPT-4o și Claude 3.5 Sonnet Aceste modele servesc drept arbitri, punctând răspunsurile pe baza a două criterii critice: eligibilitatea și acuratețea faptelor interogarea utilizatorului într-un mod semnificativ. prejudecăți.

Cercetătorii DeepMind subliniază importanța acestei evaluări pe mai multe straturi, afirmând: „Metricile care se concentrează pe evaluarea faptului textului generat… pot fi ocolite prin ignorarea intenției din spatele solicitării utilizatorului. Prin oferirea de răspunsuri mai scurte care eludează transmiterea de informații cuprinzătoare… este posibil să se obțină un scor de fapte ridicat, fără a oferi un răspuns util.”

Utilizarea mai multor șabloane de punctare, inclusiv abordări la nivel de interval și bazate pe JSON , asigură în continuare alinierea cu raționamentul uman și adaptabilitatea la diverse sarcini.

Abordarea provocării halucinațiilor AI

AI halucinațiile sunt printre cele mai importante obstacole în calea adoptării pe scară largă a LLM în domenii critice. Aceste erori, în care modelele generează rezultate care par plauzibile, dar sunt incorecte, prezintă riscuri grave în domenii precum sănătatea, analiza juridică și raportarea financiară >

FACTE Grounding abordează în mod direct această problemă, impunând respectarea strictă a datelor de intrare furnizate. Această abordare nu evaluează doar capacitatea unui model de a evita introducerea falsități, dar se asigură și că rezultatele rămân aliniate cu intenția utilizatorului.

Spre deosebire de criteriile de referință precum SimpleQA OpenAI, care măsoară realitatea în recuperarea datelor de antrenament, FACTS Grounding testează cât de bine modelele sintetizează informații noi.

Lucrul de cercetare subliniază această distincție: „Asigurarea acurateței faptelor în timp ce se generează răspunsuri LLM este o provocare. Principalele provocări ale faptului LLM sunt modelarea (adică, arhitectura, instruirea și inferența) și măsurarea (adică, metodologia de evaluare, date și metrici).”

Provocări tehnice și design de referință

Complexitatea intrărilor de formă lungă introduce provocări tehnice unice, în special în proiectarea metodelor automate de evaluare care pot evalua cu precizie astfel de răspunsuri.

FACTE Întemeierea se bazează pe procese intensive din punct de vedere computațional pentru a valida răspunsurile, utilizând criterii riguroase pentru a asigura fiabilitatea Includerea mai multor modele de judecători atenuează potențialele părtiniri și întărește cadrul general de evaluare.

Cercetarea. echipa subliniază importanța descalificării răspunsurilor vagi sau irelevante, observând: „Descalificarea răspunsurilor neeligibile duce la o reducere… aceste răspunsuri sunt tratate ca fiind inexacte”.

Această aplicare strictă a relevanței asigură că modelele nu sunt recompensate pentru eludarea spiritului sarcinii.

Încurajarea colaborării prin transparență

Decizia DeepMind de a găzdui FACTS Grounding pe Kaggle reflectă angajamentul său de a promova colaborarea în industria AI. Făcând accesibil segmentul public al setului de date, proiectul invită cercetătorii și dezvoltatorii de inteligență artificială să își evalueze modelele în raport cu un standard robust și să contribuie la avansarea reperelor de fapt.

Această abordare se aliniază cu obiectivele mai ample ale transparenței și progresului comun în IA, asigurând că îmbunătățirile în ceea ce privește acuratețea și fundamentarea nu se limitează la o singură organizație.

Deosebirea de celelalte. Benchmarks

FACTE Grounding se distinge de alte benchmark-uri prin concentrarea pe împământare în intrările recent introduse, mai degrabă decât cunoștințe preformate.

În timp ce benchmark-uri precum SimpleQA de la OpenAI evaluează cât de bine un model preia și utilizează informațiile din corpusul său de antrenament, FACTS Grounding evaluează modelele în funcție de capacitatea lor de a sintetiza și articula răspunsuri bazate exclusiv pe datele furnizate.

Această distincție este crucială în abordarea provocărilor generate de preconcepțiile modelului sau de prejudecățile inerente. Prin izolarea sarcinii de procesare a intrărilor externe, FACTS Grounding asigură că metricile de performanță reflectă capacitatea unui model de a funcționa în scenarii dinamice, din lumea reală, mai degrabă decât pur și simplu regurgitarea informațiilor pre-învățate.

Așa cum explică DeepMind în lucrarea sa de cercetare, benchmark-ul este conceput pentru a evalua LLM-urile cu privire la capacitatea lor de a gestiona interogări complexe, de lungă durată, cu fundamentare faptică, simulând sarcini relevante pentru aplicațiile din lumea reală.

Metode alternative pentru împământarea LLM-urilor

Mai multe metode oferă caracteristici de împământare similare cu FACTS Grounding, fiecare cu punctele forte și punctele slabe. Aceste metode urmăresc să îmbunătățească rezultatele LLM fie prin îmbunătățirea accesului lor la informații corecte, fie prin rafinarea proceselor de instruire și aliniere.

Generație îmbunătățită prin recuperare (RAG)

Retrieval-Augmented Generation (RAG) îmbunătățește acuratețea LLM rezultate prin preluarea dinamică a informațiilor relevante din baze de cunoștințe externe sau baze de date și încorporarea acestora în răspunsurile modelului. În loc să reinstruiască întregul LLM, RAG funcționează prin interceptarea solicitărilor utilizatorilor și îmbogățindu-le cu informații actualizate.

Implementările avansate RAG folosesc adesea recuperarea bazată pe entități, unde datele asociate cu anumite entități sunt unificate pentru oferă un context extrem de relevant pentru răspunsurile LLM.

RAG utilizează de obicei tehnici de căutare semantică pentru a regăsi informații. Documentele sau fragmentele lor sunt indexate pe baza înglobărilor lor semantice, permițând sistemului să potrivească interogarea utilizatorului cu cele mai relevante intrări din punct de vedere contextual. Această abordare asigură că LLM-urile generează răspunsuri informate de cele mai recente și mai pertinente date.

Eficacitatea RAG depinde în mare măsură de calitatea și organizarea bazei de cunoștințe, precum și de precizia algoritmilor de regăsire. În timp ce FACTS Grounding evaluează capacitatea unui LLM de a rămâne ancorat la un document de context furnizat, RAG completează acest lucru permițând LLM-urilor să-și extindă cunoștințele în mod dinamic, folosindu-se din surse externe pentru a spori actualitatea și relevanța.

Distilarea cunoștințelor.

Distilarea cunoștințelor implică transferul capacităților unui model mare și complex (denumit profesor) la un model mai mic, specific unei sarcini ( studentul). Această metodă îmbunătățește eficiența, păstrând în același timp o mare parte din acuratețea modelului original. Două abordări principale sunt utilizate în distilarea cunoștințelor:

Distilarea cunoștințelor bazată pe răspuns: se concentrează pe replicarea rezultatelor modelului profesorului, asigurându-se că modelul elevului produce rezultate similare pentru date date de intrare.

Distilarea cunoștințelor bazată pe caracteristici: extrage reprezentări și caracteristici interne din modelul profesorului, permițând modelului elevului să se repete mai profund Perspective.

Prin perfecționarea modelelor mai mici, distilarea cunoștințelor permite implementarea LLM-urilor în medii cu resurse limitate, fără pierderi semnificative de performanță. Spre deosebire de FACTS Grounding, care evaluează fidelitatea de împământare, distilarea cunoștințelor este mai preocupată de scalarea capabilităților LLM și optimizarea acestora pentru sarcini specifice.

Reglare fină cu seturi de date bazate pe pământ

Reglarea fină implică adaptarea LLM-uri pre-instruite pentru domenii sau sarcini specifice, instruindu-le pe seturi de date organizate unde fundamentarea faptică este esențială. De exemplu, seturile de date care cuprind literatura științifică sau înregistrările istorice pot fi utilizate pentru a îmbunătăți capacitatea modelului de a produce rezultate precise și specifice domeniului. Această tehnică îmbunătățește performanța LLM pentru aplicații specializate, cum ar fi analiza documentelor medicale sau juridice.

Cu toate acestea, reglarea fină necesită mult resurse și riscă uitarea catastrofală, în cazul în care modelul pierde cunoștințele acumulate în timpul formării sale inițiale. FACTS Grounding se concentrează pe testarea faptului în contexte izolate, în timp ce reglarea fină urmărește să îmbunătățească performanța de bază a LLM-urilor în domenii specifice.

Învățare prin consolidare cu feedback uman (RLHF)

h4>

Învățare prin consolidare cu Human Feedback (RLHF) încorporează preferințele umane în procesul de formare a LLM. Prin antrenarea iterativă a modelului pentru a-și alinia răspunsurile cu feedback-ul uman, RLHF rafinează calitatea, realitatea și utilitatea rezultatelor. Evaluatorii umani notează rezultatele LLM, iar aceste scoruri sunt folosite ca semnale pentru optimizarea modelului.

RLHF a avut un succes deosebit în sporirea satisfacției utilizatorilor și în asigurarea că răspunsurile generate sunt aliniate cu așteptările umane. În timp ce FACTS Grounding evaluează fundamentarea faptică în raport cu documente specifice, RLHF subliniază alinierea rezultatelor LLM cu valorile și preferințele umane.

Instrucțiuni de urmare și învățare în context

Urmărirea instrucțiunilor și învățarea în context implică demonstrarea pregătirii pentru LLM prin exemple elaborate cu atenție în promptul utilizatorului. Aceste metode se bazează pe capacitatea modelului de a generaliza dintr-o demonstrație de câteva fotografii. Deși această abordare poate aduce îmbunătățiri rapide, este posibil să nu atingă același nivel de calitate de împământare ca și metodele de reglare fină sau bazate pe recuperare.

Instrumente și API-uri externe

LLM-urile pot fi integrate cu instrumente externe și API-uri pentru a oferi acces în timp real la datele externe, îmbunătățind semnificativ capacitățile lor de împământare. Exemplele includ:

Capacitate de navigare: Permite LLM să acceseze și să preia informații în timp real de pe web pentru a răspunde la întrebări specifice sau pentru a-și actualiza cunoștințele.

Apeluri API: Permite LLM-urilor să interacționeze cu baze de date sau servicii structurate, îmbogățind răspunsurile cu informații precise și actualizate.

Aceste instrumente extind utilitatea LLM-urilor. prin conectarea acestora la surse de cunoștințe din lumea reală, îmbunătățindu-le capacitatea de a genera rezultate precise și fundamentate. În timp ce FACTS Grounding evaluează fidelitatea legăturii interioare, instrumentele externe oferă un mijloc alternativ de extindere și verificare a faptului.

Legătura de împământare cu sursă deschisă Opțiuni

Sunt disponibile mai multe implementări open-source pentru metodele alternative de împământare discutate mai sus:

MethodOpen-Source OpțiuniDescriereRetrieval-Augmented Generation (RAG)LangChainOferă o bază cuprinzătoare pentru construirea de aplicații cu LLM-uri, combinând un design modular și flexibil cu o interfață de nivel înalt.LlamaIndexSe concentrează pe indexarea și recuperarea eficientă din seturi de date masive, folosind sisteme avansate tehnici precum căutarea de similaritate vectorială și indexarea ierarhică.RAGFlowOferă un flux de lucru RAG simplificat pentru afaceri de orice scară, combinând LLM-uri pentru a oferi întrebări veridice-capabilități de răspuns cu citări din diferite date formatate complexe.txtaiAn Motor de căutare bazat pe inteligență artificială care permite căutarea semantică, răspunsul la întrebări și rezumarea din diferite surse de date.SWIRLUn software de infrastructură AI open source care îmbunătățește Conducte AI, permițând căutări rapide și sigure în sursele de date fără a muta sau copia datele.CognitaUn cadru open source pentru construirea de sisteme RAG modulare, pregătite pentru producție, cu o interfață de utilizare pentru utilizatorii netehnici.Cognita://github.com/llmware-ai/llmware”>LLM-WareUn cadru pentru construirea de aplicații bazate pe LLM, cu accent pe modularitate și scalabilitate. Distilarea cunoștințelorDistillersO platformă cuprinzătoare de implementare pentru diferite metode de distilare a cunoștințelor, inclusiv Distilarea cu consistență invariabilă (ICD) și Distilarea cu reprezentare relațională (RRD).TextBrewerUn set de instrumente de distilare a cunoștințelor open-source pentru procesarea limbajului natural, cu suport pentru diferite metode de distilare și configurații.KD-LibO bibliotecă open-source bazată pe PyTorch, cu implementări modulare de ultimă generație ale algoritmilor de distilare a cunoștințelor.knowledge-distillation-pytorchO implementare PyTorch pentru explorarea profundă și experimente de distilare a cunoștințelor superficiale cu flexibilitate. Reglare fină cu seturi de date bazate pe terenMM-Grounding-DINO O conductă cu sursă deschisă, cuprinzătoare și ușor de utilizat pentru modelele de detectare a obiectelor de împământare, construită cu setul de instrumente MMDetection.LLaMA-FactoryO bibliotecă cuprinzătoare pentru reglarea fină a modelelor de limbaj LLaMA, care acceptă diverse abordări și tehnici de formare.Self-Play Fine-Tuning (SPIN)Un cadru open-source pentru reglarea fină a LLM-urilor pentru generarea de text bazată, cu accent pe îmbunătățirea coerenței și acurateței faptice.

Implicații pentru aplicațiile cu mize mari

Importanța răspunsurilor AI precise și fundamentate devine deosebit de evidentă în aplicațiile cu mize mari, precum diagnostice medicale, analize juridice și analize financiare. În aceste contexte, chiar și inexactitățile minore pot duce la consecințe semnificative, făcând din fiabilitatea rezultatelor generate de AI o cerință nenegociabilă.

FACTE Accentul acordat de Grounding asupra faptului și a aderării la materialul sursă asigură că modelele sunt testate în condiții care reflectă îndeaproape cerințele lumii reale.

De exemplu, în contexte medicale, un LLM însărcinat cu sintetizarea dosarelor pacientului trebuie sa evite introducerea de erori care ar putea dezinforma deciziile de tratament. În mod similar, în cadrul juridic, generarea de rezumate sau analize de jurisprudență necesită o fundamentare precisă în documentele furnizate.

FACTE Grounding nu numai că evaluează modelele cu privire la capacitatea lor de a îndeplini aceste cerințe stricte, dar stabilește și un punct de referință pe care dezvoltatorii trebuie să-l urmărească în crearea de sisteme potrivite pentru astfel de aplicații.

Extindere. setul de date FACTS și direcțiile viitoare

DeepMind a poziționat FACTS Grounding drept „un punct de referință viu”, unul care va evolua odată cu progresele în Actualizările viitoare vor extinde setul de date pentru a include noi domenii și tipuri de sarcini, asigurând relevanța continuă pe măsură ce capacitățile LLM cresc

În plus, introducerea unor șabloane de evaluare mai diverse ar putea spori și mai mult robustețea. procesul de punctare, abordarea cazurilor marginale și reducerea prejudecăților reziduale.

După cum recunoaște echipa de cercetare a DeepMind, niciun punct de referință nu poate fi pe deplin încapsulează complexitățile aplicațiilor din lumea reală, cu toate acestea, prin iterarea FACTS Grounding și angajarea comunității mai largi de AI, proiectul își propune să ridice ștacheta pentru fapte și fundamentarea în sistemele AI.

Așa cum afirmă echipa DeepMind, „Factualitatea și fundamentarea se numără printre factorii cheie care vor modela succesul și utilitatea viitoare ale LLM-urilor și ale sistemelor AI mai largi și ne propunem să creștem și să repetăm FACTS Grounding pe măsură ce domeniul progresează, ridicând continuu ștacheta.”

Noul benchmark FACTS de la Google măsoară veridicitatea modelelor AI

Published by All Things Windows on December 18, 2024

Setul de date pentru complexitatea lumii reale

Judecarea acurateței cu Peer Modele AI

Abordarea provocării halucinațiilor AI

Provocări tehnice și design de referință

Încurajarea colaborării prin transparență

Deosebirea de celelalte. Benchmarks

Metode alternative pentru împământarea LLM-urilor

Generație îmbunătățită prin recuperare (RAG)

Distilarea cunoștințelor.

Reglare fină cu seturi de date bazate pe pământ

Instrucțiuni de urmare și învățare în context

Instrumente și API-uri externe

Legătura de împământare cu sursă deschisă Opțiuni

Implicații pentru aplicațiile cu mize mari

Extindere. setul de date FACTS și direcțiile viitoare

IT Info

FIX: 0xC0000005 în instalarea Windows. (Rezolvat)

IT Info

Cum se creează un dosar de partajare ascuns pe Windows 11 și 10

IT Info

Cohere dezvăluie platforma North AI; Provocări Microsoft și Google în Enterprise AI

Noul benchmark FACTS de la Google măsoară veridicitatea modelelor AI

Published by All Things Windows on December 18, 2024

Setul de date pentru complexitatea lumii reale

Judecarea acurateței cu Peer Modele AI

Abordarea provocării halucinațiilor AI

Provocări tehnice și design de referință

Încurajarea colaborării prin transparență

Deosebirea de celelalte. Benchmarks

Metode alternative pentru împământarea LLM-urilor

Generație îmbunătățită prin recuperare (RAG)

Distilarea cunoștințelor.

Reglare fină cu seturi de date bazate pe pământ

Instrucțiuni de urmare și învățare în context

Instrumente și API-uri externe

Legătura de împământare cu sursă deschisă Opțiuni

Implicații pentru aplicațiile cu mize mari

Extindere. setul de date FACTS și direcțiile viitoare

Related Posts

IT Info

FIX: 0xC0000005 în instalarea Windows. (Rezolvat)

IT Info

Cum se creează un dosar de partajare ascuns pe Windows 11 și 10

IT Info

Cohere dezvăluie platforma North AI; Provocări Microsoft și Google în Enterprise AI