Ricerca presentata alla CHI 2025 Conferenza rivela uno schema curioso in quanto Laypeople reagisce a una consulenza legale: non è disposto a essere disposti a essere disposti a agire in modo più disposto ad agire sulla guida da grandi modelli di lingua (LLM) come CHATGPT che da parte degli avvocati umani, ma non sono identificati in modo che la sorgente. La preferenza emerge anche se le persone dimostrano la capacità di distinguere tra AI e testo scritto dall’uomo meglio che il caso prevederebbe, suggerendo una relazione complessa con competenza automatizzata, come dettagliato nell’articolo intitolato”L’obiezione ha superato! I laici possono distinguere grandi modelli linguistici dagli avvocati, ma favoriscono ancora i consigli di un LLM.”
il href=”https://dl.acm.org/doi/10.1145/3706598.3713470″Target=”_ blank”> I risultati derivano da una serie di tre esperimenti che coinvolgono 288 partecipanti. I ricercatori hanno presentato scenari legali che coprono questioni comuni come il traffico, la pianificazione e la legge sulla proprietà, basate su query online del mondo reale provenienti da piattaforme come Reddit’s r/leagalAdvice . Hanno quindi mostrato ai partecipanti i corrispondenti consigli generati da Openai Chatgpt-4o o da specializzati avvocati del Regno Unito, misurando la volontà di agire o la fiducia nell’identificazione della fonte.
, hanno costantemente espresso una volontà significativamente più elevata di agire sul consiglio dell’LLM rispetto al consiglio degli avvocati umani. Tuttavia, quando la fonte è stata esplicitamente etichettata come”LLM”o”avvocato”(gruppo”noto”dell’esperimento 1), questa differenza è svanita; Le valutazioni di volontà di atto sono diventate statisticamente simili per entrambe le fonti. </p>
<p> I ricercatori suggeriscono che questa discrepanza potrebbe derivare da fattori sociali quando viene rivelata la fonte; Le persone potrebbero sentirsi obbligate a valutare i consigli da un professionista umano superiore, conforme alle aspettative percepite solo se rese esplicitamente consapevoli. </p>
<p> Un altro fattore potrebbe essere le caratteristiche testuali stesse. Lo studio ha osservato che mentre il consiglio dell’LLM era generalmente più breve, la sua lingua si è registrata come più complessa in base ai punteggi di leggibilità LIX (una misura in cui punteggi più alti indicano maggiori difficoltà). L’articolo discute che LLMS potrebbe presentare informazioni con un’aria di fiducia, in contrasto con il linguaggio più cauto e pieno di siepe tipico degli avvocati umani interessati alla responsabilità e alla sfumatura. </p><div style=)
Distinguendo l’IA, ma favorendolo alla cieca
aggiungendo alla complessità, il terzo esperimento ha mostrato che i partecipanti non sono completamente liberi. Incaricato di valutare la probabilità di ogni consiglio di generazione umana (quando non etichettata), i partecipanti hanno ottenuto comportamenti significativamente migliori del caso.
usando l’analisi delle caratteristiche operative del ricevitore (ROC)-un metodo della teoria del rilevamento del segnale per misurare la discriminabilità indipendentemente dalla distorsione della risposta-lo studio ha misurato un’area sotto la curva (AUC) di 0.59. Un AUC di 0,50 rappresenta le prestazioni casuali, mentre 1.0 è una precisione perfetta, quindi 0,59 indica una vera, sebbene imperfetta, capacità di discernere le differenze testuali.
Questo presenta un puzzle: anche con una capacità di rilevare l’autenzione di AI, la inclinazione predefinita quando si opera”ciechi”sembra favorire l’output della LLM. Rischi
Questa preferenza per una consulenza AI potenzialmente non rilevabile è particolarmente rilevante date i problemi di affidabilità noti che affliggono gli attuali LLM. Man mano che questi modelli si espandono in applicazioni di consulenza più sensibili, come la recente funzione di ricerca profonda di Openai in CHATGPT, il rischio che gli utenti agiscano su informazioni imprecise. Openi’s Own Dati mostrati il modello O4-Mini Prodotto Dati mostrati il modello O4-Mini Prodotto
Ricerca esplorando perché questi potenti modelli allucinano punta a diversi potenziali fattori relativi alla loro formazione. Le teorie includono i processi di apprendimento del rinforzo (RL) possibilmente gratificanti le fabbriche convincenti se portano a una risposta finale apparentemente corretta, sfide per l’apprendimento del rinforzo dal feedback umano (RLHF) quando i valutatori umani non possono facilmente verificare l’accuratezza di una fase di ragioni intermedie complesse a volte i modelli di ragionamento intermedi a volte. Modelli Azioni inventate che non potevano eseguire . Come ha suggerito il ricercatore di traduzione Neil Chowdhury a TechCrunch,”La nostra ipotesi è che il tipo di apprendimento di rinforzo utilizzato per i modelli di serie O possa amplificare i problemi che di solito sono mitigati (ma non completamente cancellati) dalle condutture post-training standard”. Questo sfondo di potenziale inaffidabilità sottolinea le preoccupazioni sollevate dai risultati del CHI Paper sulla fiducia dell’utente.
Contesto più ampio e andando avanti
I risultati si adattano a una discussione più ampia sulla fiducia del pubblico nell’intelligenza artificiale. Mentre l’utilizzo cresce, un recente studio di ricerca per la ricerca per la ricerca per la ricerca per la ricerca per la ricerca per la ricerca per la ricerca per la ricerca per la ricerca per la ricerca di una ricerca per la ricerca per la ricerca per la ricerca di una ricerca. Come la pianificazione medica o finanziaria.
Lo studio CHI aggiunge sfumature, suggerendo che questa sfiducia potrebbe essere più pronunciata quando il coinvolgimento dell’IA è esplicito, in contrasto con la preferenza che si trova nello scenario cieco. La tendenza a favorire la consulenza”cieca”di AI complica anche gli sforzi per garantire la responsabilità quando gli strumenti di intelligenza artificiale contribuiscono alla guida professionale.
Gli autori del documento di Chi propongono di migliorare l’alfabetizzazione dell’intelligenza artificiale come un percorso in avanti, eventualmente usando metodi di formazione sviluppati per identificare la disinformazione. Indicano inoltre l’importanza delle misure di trasparenza, referenziando regolamenti come l’UE AI Act che impone una chiara etichettatura del contenuto generato da AI ( articolo 50 ) e di divulgazione di rischi per le applicazioni. Identificabili, piuttosto che imitare gli esperti umani, può essere la chiave per promuovere una fiducia dell’utente più calibrata. I materiali di studio completi, inclusi script di dati e analisi utilizzati in jspsych / jatos a disposizione per le ricerche via Apri Science Framework .