Research presentert på Chi 2025-konferanse avslører et nysgjerrig mønster i hvordan lekfolk reagerer på juridisk råd: de rapporterer mer villig til å handle på veiledning fra store språk (LL) som CHATPT PUT PO-PO-PO-PO-PLITT enn å handle på veiledning fra store språk (LL) som COTT.

Denne preferansen dukker opp selv om folk demonstrerer en evne til å skille mellom AI og menneskeskrevet tekst bedre enn Chance ville forutsi, noe som antyder et komplekst forhold til automatisert kompetanse, som beskrevet i papiret med tittelen “Innvending tilsidesatt! Layfolk kan skille store språkmodeller fra advokater, men likevel favorisere råd fra en LL. href=”https://dl.acm.org/doi/10.1145/3706598.3713470″Target=”_ Blank”> Funn Stammer fra en serie på tre eksperimenter som involverer 288 deltakere. Forskere presenterte juridiske scenarier som dekker vanlige problemer som trafikk, planlegging og eiendomsrett, basert på spørsmål fra den virkelige verdenen hentet fra plattformer som Reddits Rdt=38701″Target=”De viste da deltakere tilsvarende råd generert enten av Openais chatGPT-4O eller av spesialiserte britiske advokater, og måler vilje til å handle eller tillit til Avhenger av å kjenne kilden

Kjernefunnet dukket opp fra å sammenligne deltakerreaksjoner basert på om de visste hvem som skrev rådene. Når deltakerne ikke var klar over kilden (testet i eksperiment 1s ‘kilde ukjente’ gruppe og bekreftet i eksperiment 2), uttrykte de konsekvent en betydelig høyere vilje til å handle etter LLMs råd sammenlignet med de menneskelige advokatenees råd. Men når kilden eksplisitt ble merket som ‘LLM’ eller ‘Lawyer’ (Experiment 1s ‘Kilde-kjente’ gruppe), forsvant denne forskjellen; Vilje til å rangere ble statistisk like for begge kilder.

Forskerne antyder at dette avviket kan stamme fra sosiale faktorer når kilden blir avslørt; Folk kan føle seg forpliktet til å rangere råd fra en menneskelig profesjonell høyere, i samsvar med opplevde forventninger bare når de blir eksplisitt oppmerksom.

En annen faktor kan være de tekstlige egenskapene i seg selv. Studien bemerket at selv om LLMs råd generelt var kortere, registrerte språket som mer komplekst basert på LIX-lesbarhetspoeng (et mål der høyere score indikerer større vanskeligheter). Oppgaven diskuterer at LLM-er kan presentere informasjon med en tillitsluft, i kontrast til det mer forsiktige, hedgefylte språket som er typisk for menneskelige advokater som er opptatt av ansvar og nyanse.

å skille ai, men likevel favorisere det blindt

Legg til det komplekset. I oppgave med å vurdere hvor sannsynlig hvert råd var å være ai-versus menneskegenerert (når de er umerket), presterte deltakerne betydelig bedre enn tilfeldigheter.

ved bruk av mottakerens driftskarakteristiske (ROC)-analyse-en metode fra signaldeteksjonsteori for å måle diskriminering uavhengig av respons skjevhet-målte et område under kurven (en RUC) uavhengig av respons skjevhet-den målte et område under kurven for å måle diskriminering uavhengig av respons skjevhet. En AUC på 0,50 representerer sjanseytelse, mens 1,0 er perfekt nøyaktighet, så 0,59 indikerer en ekte, men ufullkommen, evne til å skille de tekstlige forskjellene.

Dette presenterer et puslespill: selv med en viss kapasitet til å oppdage Halli-forfatterskapet.

Denne preferansen for potensielt uoppdagelig AI-råd er spesielt relevant gitt de kjente pålitelighetsproblemene som plager nåværende LLM-er. Ettersom disse modellene utvides til mer sensitive rådgivningsapplikasjoner, som Openais nylig oppdaterte dype forskningsfunksjoner i ChatGPT, øker risikoen for at brukere handler på unøyaktig informasjon øker.

Rapporter etter midten av april 2025 pekte på Openais O3 og O4-mini-modeller, for å ha kommet til Hallucucation. Openais egen dato-datasystem-card.pdf”mål=”48% av tiden på ett spesifikt målestokk (PersonQA).

Forskning som undersøker hvorfor disse kraftige modellene hallusinatpeker på flere potensielle faktorer relatert til deres trening. Teorier inkluderer forsterkningslæringsprosesser (RL)-prosesser som muligens belønner overbevisende fabrikasjon o3 modeller oppfinner handlinger de ikke kunne utføre . Som omregulerer forsker Neil Chowdhury antydet til TechCrunch,”vår hypotese er at den typen forsterkningslæring som brukes til O-seriemodeller kan forsterke problemer som vanligvis blir redusert (men ikke fullstendig slettet) etter standard etter treningspipelinjer.”Dette bakteppet av potensiell upålitelighet understreker bekymringene som reises av CHI-papirets funn om brukertillit.

bredere kontekst og fremover

Funnene passer inn i en bredere diskusjon om offentlig tillit til AI. Mens bruken vokser,

CHI-studien tilfører nyanse, noe som antyder at denne mistilliten kan være mer uttalt når AIs engasjement er eksplisitt, i kontrast til preferansen som finnes i det blinde scenariet. Tendensen til å favorisere ‘blinde’ AI-råd kompliserer også innsatsen for å sikre ansvarlighet når AI-verktøy bidrar til profesjonell veiledning.

Chi-papirforfatterne foreslår å forbedre AI-literacy som en vei fremover, muligens ved bruk av treningsmetoder utviklet for å identifisere feilinformasjon. De peker også på viktigheten av gjennomsiktighetstiltak, og refererer til forskrifter som EU AI-loven som mandat klar merking av AI-generert innhold ( Artikkel 50

) og risikoer. Identifiserbare, snarere enn å etterligne menneskelige eksperter, kan være nøkkelen til å fremme mer kalibrert brukertillit. Full studiematerialer, inkludert data og analyseskript som brukes i jspsych / Open Science Framework .

Categories: IT Info