Anthropic a lansat joi un cadru open-source pentru a măsura „egalitatea” politică în modelele AI, poziționând chatbot-ul său Claude într-o cursă la nivel de industrie pentru neutralitate împotriva rivalilor de la OpenAI și Meta.

Noul punct de referință public al companiei susține că modelele sale Claude sunt mai echilibrate decât OpenAI GPT-5 și Meta’s Llama.

4. controlul asupra părtinirii inteligenței artificiale, evidențiat de un ordin executiv recent al Casei Albe care cere „neutralitate ideologică” din partea firmelor de tehnologie. Mișcarea împinge dezbaterea asupra a ceea ce constituie o inteligență artificială cu adevărat obiectivă în prim-planul agendei industriei.

Cadrul „echitabil” al lui Anthropic intră în arena AI Bias

Noua metodologie „Solicitări împerecheate” a lui Anthropic, detaliată într-o postare pe blogul companiei, detaliată într-o postare pe blog-ul companiei, modul în care AI gestionează un mod transparent, replică și dorește să abordeze AI. subiecte sensibile din punct de vedere politic.

Scopul său este de a se asigura că modelele tratează punctele de vedere opuse cu aceeași profunzime și calitate. În anunțul său, Anthropic a declarat: „Vrem ca Claude să adopte o abordare echitabilă atunci când vine vorba de politică.”

Cadrul evaluează modelele pe trei criterii cheie: dacă se implică în mod echilibrat cu sugestiile ideologiilor opuse, dacă recunosc contraargumentele și cât de des refuză să răspundă.

Sistemul bias subtil este conceput pentru a capta eroarea simplă.

Conform propriilor rezultate publicate de Anthropic, modelele sale cele mai capabile, Claude Opus 4.1 și Sonnet 4.5, au obținut un scor de 95% și, respectiv, 94% la măsurarea egalității.

Aceste scoruri îi plasează ușor în spatele Google Gemini 2.5 Pro (97%) și xAI’s Grok (96%). Cu toate acestea, evaluarea arată că Claude depășește în mod semnificativ cel mai recent model GPT-5 al OpenAI, care a obținut un scor de 89%, și Llama 4 al lui Meta, care a rămas considerabil în urmă cu 66%.

Rezultatele echitabile la Claude și alte modele (Sursa: Anthropic)

Prin deschiderea surselor sale de evaluare, Anthropic solicită o evaluare standard, în timp ce antropic solicită o măsură comună. industrie.

O industrie fracturată: filozofii concurente privind neutralitatea AI

Anunțul este cea mai recentă mișcare dintr-o luptă mai largă, la nivelul întregii industrie, de a defini și gestiona prejudecățile AI, fiecare laborator major adoptând o strategie distinctă.

Doar luna trecută, OpenAI a realizat o reducere detaliată a AI3. părtinire politică pentru GPT-5.

Poziția oficială a OpenAI este că „ChatGPT nu ar trebui să aibă părtinire politică în nicio direcție”. Abordarea sa se concentrează pe identificarea și atenuarea a cinci „axe” specifice de părtinire: invalidarea utilizatorilor, escaladarea utilizatorilor, exprimarea politică personală, acoperirea asimetrică și refuzurile politice, ca ă să creeze metoda sa detaliată. viziune holistică asupra comportamentului modelului sub presiune.

În timp ce concurenți precum Meta s-au concentrat pe corectarea rezultatelor percepute înclinate spre stânga, Anthropic și OpenAI construiesc instrumente de măsurare.

Rezultate opuse în perspectivă în Claude și alte modele (Sursa – Antropic)

În aprilie, Meta a anunțat că își ajustează activ modelele Llama 4. anunțul său, a susținut Meta, „Este bine cunoscut faptul că toți liderii LLM au avut probleme cu părtinirea – în mod istoric, ei s-au înclinat spre stânga când vine vorba de subiecte politice și sociale dezbătute.”

Această filozofie a reajustării active, menită să prezinte „ambele părți”, contrastează puternic cu alinierea și alinierea a rivalilor ei. Politicile de conținut ale Meta.

xAI-ul lui Elon Musk reprezintă o a treia abordare, mai controversată: încorporarea în mod deliberat a unui punct de vedere ideologic specific. S-a descoperit că Grokipedia sa recent lansată a copiat paginile Wikipedia în timp ce injecta o înclinație spre dreapta asupra unor subiecte precum schimbările climatice și genul.

Cu toate acestea, măsurarea echitabilității lui Anthropic îi oferă lui Grok note chiar mai bune decât Claude și s-a găsit că Grok corectează de nenumărate ori afirmațiile false ale lui Elon Musk. grupări de subiecte pe placul lui Elon Musk.

Grok a fost prins anterior cu instrucțiuni de a cenzura criticile la adresa lui Musk și Donald Trump și, într-un incident separat, a generat conținut antisemit.

Presiunea politică și căutarea unui standard industrial

Pe fondul unei intense presiuni politice asupra peisajului tehnologic,

p>În contextul unei intense presiuni politice asupra IA, companiile se află într-o cursă politică intensă asupra IA.

>p. Neutralitatea AI nu este doar un exercițiu academic; este un răspuns direct la amenințările de reglementare. În iulie 2025, Casa Albă a emis un ordin executiv menit să prevină „„Woke AI”> „ordineapologică a guvernului federal. neutralitate” și îndrumă Oficiul de management și buget să emită orientări privind achizițiile până pe 20 noiembrie.

Acest lucru creează un stimulent financiar puternic pentru companii pentru a-și demonstra obiectivitatea modelelor și a evita ideologiile pe care ordinea le încadrează ca sursă de părtinire.

Acest context politic face ca standardele transparente și măsurabile pentru părtinire să fie mai critice ca niciodată. Cu toate acestea, așa cum recunoaște Anthropic însuși, sarcina este plină de ambiguitate.

Compania a recunoscut în raportul său că „nu există o definiție convenită a părtinirii politice și nici un consens cu privire la modul de măsurare a acesteia.”

Diferitele studii au descoperit că modelele pot părea părtinitoare pur și simplu prin aderarea la acuratețea faptelor politice în sine. Acest lucru evidențiază provocarea principală: neutralitatea unei persoane este părtinirea alteia.

În ciuda acestor provocări, impulsul pentru un punct de referință comun câștigă amploare. Lansând instrumentele sale în mod public, Anthropic face o încercare de a modela conversația și de a stabili un standard de încredere.

Compania speră ca munca sa va duce la un set comun de reguli pentru întregul sector, trecând dincolo de evaluările proprii, exclusiv interne.

Așa cum a concluzionat Anthropic, „Un standard comun pentru măsurarea întregii părtiniri politice.”

industria se poate reuni în jurul unei singure definiții a echității rămâne o întrebare deschisă, dar încercările de a crea una sunt acum esențiale pentru viitorul dezvoltării AI și al încrederii publicului.