OpenAI a efectuat teste interne pentru a evalua abilitățile persuasive ale modelelor sale AI, bazându-se pe discuții generate de utilizator din subreddit R/ChangeMyView.

Această subreddit, cunoscută pentru dezbaterile structurate în care participanții încearcă să schimbe opiniile afișelor originale prin argumentare motivată, a oferit un set de date pentru experimentele de mediu închise ale lui Openai.

Compania și-a evaluat modelele AI-inclusiv O1 și GPT-4O-generarea de răspunsuri la postări reale de la R/ChangemyView într-un mediu de testare închisă. Aceste argumente generate de AI au fost apoi comparate cu răspunsurile scrise de oameni, evaluatorii umani evaluându-și persuasivitatea.

Conform cardul de sistem Openai pentru modelul său de raționament O1 , Metodologia de evaluare a fost conceput pentru a asigura obiectivitatea. Răspunsurile au fost anonimizate, împiedicând evaluatorii să știe dacă un argument dat a fost generat de AI sau scris de oameni.

Evaluatorii au clasat răspunsurile bazate pe criterii precum consistența logică, precizia faptică, relevanța, puterea persuasivă și apelul emoțional. Rezultatele lui OpenAI au indicat faptul că cele mai bune modele AI au fost efectuate în perioada 80-90 a respondenților umani, subliniind eficacitatea lor în persuasiune.

OpenAI scrie: „Aceste rezultate indică faptul că seria de model O1 poate fi mai manipulatoare decât GPT-4O în obținerea GPT-4O pentru a efectua sarcina nedezvăluită (aproximativ 20% ascensiune); Model Intelligence pare să se coreleze cu succesul acestei sarcini.-official.jpg”> Graficul compară ratele de succes ale modelelor AI ale Openai în evaluarea makeMesay , care măsoară cât de ușor pot fi manipulate modelele în producerea de rezultate specifice. Arată că GPT-4O pot are cea mai mică susceptibilitate la 26%, în timp ce modelele O1 (pre-atenuare) prezintă o vulnerabilitate semnificativ mai mare, ratele de succes atingând 50%, deși eforturile de atenuare au redus ușor aceste rate. a stârnit discuții mai largi despre confidențialitatea și consimțământul datelor. OpenAI nu a dezvăluit dacă metodologii similare ar putea fi aplicate în aplicații din lumea reală dincolo de testarea controlată.

Riscurile etice ale persuasiunii AI

Capacitatea în creștere a capacității de creștere a capacității de creștere a capacității AI să se implice într-un raționament persuasiv a dus la preocupări etice cu privire la potențiale utilizări greșite. Sam Altman, CEO al Openai, a avertizat deja în 2023 că AI poate deveni „capabil de persuasiunea supraumană cu mult înainte de a fi supraumană la inteligența generală”, sugerând că capacitatea AI de a influența gândirea umană ar putea apărea ca o capacitate puternică-și posibil periculoasă-.

Mă aștept ca AI să fie capabilă de persuasiune supraumană cu mult înainte de a fi suprauman la Intelligence General, ceea ce poate duce la unele rezultate foarte ciudate

-Sam Altman (@sama) 25 octombrie 2023

riscurile se extind dincolo de problemele teoretice. Pentru dezinformare online, campanii de influență politică și aplicații comerciale în care companiile pot căuta să implementeze AI pentru a manipula comportamentul consumatorilor. Persuasiune-o abordare destinată atenuarea riscurilor de manipulare.

Această preocupare nu este unică pentru Openai. Alți dezvoltatori AI, inclusiv antropic , Google DeepMind , și meta , cercetează, de asemenea, tehnicile de persuasiune AI.

În aprilie 2024, Antropic a lansat un studiu sugerând că modelul său Claude 3 Opus Opus 3 au produs argumente „care nu diferă statistic” de cele scrise de oameni. Studiul a inclus, de asemenea, teste în care AI a fost permis să utilizeze tehnici înșelătoare de persuasiune, ridicând îngrijorări suplimentare cu privire la potențialul de dezinformare generată de AI.

persuasivitate scoruri de argumente scrise de model (bare) și scrise de oameni Argumente (linie punctată orizontală). , Frontieră: Roșu). (Sursa: Antropică)

Tendințe mai largi ale industriei AI: înșelăciune și manipulare

OpenAI Lucrările la persuasiunea AI se intersectează cu preocupări mai mari ale industriei cu privire la înșelăciunea AI. Un studiu din decembrie 2024 realizat de Apollo Research a constatat că modelul O1 al lui OpenAI s-a angajat în înșelăciune strategică în timpul testelor de siguranță.

Modelul a demonstrat capacitatea de a dezactiva mecanismele de supraveghere, de a manipula informațiile și de a încerca chiar de a se păstra prin copierea greutăților sistemului său. Aceste constatări evidențiază provocările pe care dezvoltatorii AI le cu care se confruntă alinierea greșită a intențiilor umane.

AI persuasiv ar putea deveni mai preocupat atunci când este combinat cu capacitățile de agent autonom. Dacă modelele AI pot crea argumente persuasive în timp ce luați decizii în timp real-cum ar fi în serviciul pentru clienți, moderarea conținutului online sau roluri consultative-ar putea influența utilizatorii fără ca aceștia să realizeze că răspunsurile sunt generate cu obiective specifice.

Întrebarea rămâne dacă companiile AI pot stabili garanții fiabile pentru a preveni astfel de consecințe nedorite.

provocări de reglementare și întrebări deschise

Capacitatea AI de a convinge utilizatorii umani ridică întrebări de reglementare semnificative. În timp ce textul generat de AI este deja examinat pentru riscuri de dezinformare, autoritățile de reglementare încă nu au dezvoltat politici specifice pentru persuasiunea AI. FTC AI Politic Orientări subliniază transparența și responsabilitatea în conținutul generat de AI, dar reglementările actuale nu abordează în mod specific aplicațiile AI persuasive.

În mod similar, Legea AI a UE, care include restricții asupra sistemelor AI cu risc ridicat, nu clasifică încă persuasiunea AI ca capacitate reglementată.

Organisme legislative din Statele Unite, Europa, Europa și China se îndreaptă către o guvernare mai strictă AI, dar în prezent niciun cadru cuprinzător nu abordează provocările etice ale persuasiunii AI.

OpenAI a sugerat că autoreglarea și standardele industriei pot fi de preferat legislației grele, argumentând că siguranța AI ar trebui să evolueze prin cercetări în curs de desfășurare, mai degrabă decât prin reguli rigide. Cu toate acestea, criticii susțin că dezvoltatorii AI nu ar trebui să fie lăsați la poliție înșiși, având în vedere potențialul intereselor comerciale de a trece peste preocupările etice.

ca modele AI continuă să avanseze, capacitatea lor de a modela opiniile, influența luarea deciziilor și modificarea comportamentului uman va rămâne o zonă de control intens. Întrebarea nu este doar dacă AI poate convinge, ci cine își controlează abilitățile persuasive-și dacă pot fi implementate garanții adecvate înainte ca persuasiunea AI să fie implementată la scară.

Categories: IT Info