Research presented at the CHI 2025 conference reveals a curious pattern in how laypeople react to legal advice: they report being more willing to act on guidance from Large Language Models (LLMs) like ChatGPT than from human lawyers, but specifically when the source isn’t identified.
This A preferencia annak ellenére, hogy az emberek azt mutatják, hogy képesek-e jobban megkülönböztetni az AI és az ember által írt szöveget, mint a Chance megjósolnák, ami azt sugallja, hogy az automatizált szakértelemmel összetett kapcsolatot kell tennie, amint azt a „Kifogás felülbírált” című cikk részletezi. href=”https://dl.acm.org/doi/10.1145/3706598.3713470″Target=”_ üres”> Megállapítások Három kísérlet sorozatából származik, amelyek 288 résztvevő. A kutatók olyan jogi forgatókönyveket mutattak be, amelyek olyan gyakori kérdéseket fednek le, mint a forgalom, a tervezés és az ingatlanjog, amely a valós online lekérdezéseken alapul, mint például a reddit r/jeiDviceUK . Ezután megmutatták a résztvevőket, akiknek az Openai CHATGPT-4O-ja vagy az Egyesült Királyság speciális ügyvédei által generált megfelelő tanácsokat, amelyek megmérik a cselekvési hajlandóságot vagy a forrás azonosításában való bizalmat. A forrás ismerete
Az alapvető megállapítás a résztvevő reakcióinak összehasonlításából származott, annak alapján, hogy tudták-e, ki írta a tanácsot. Amikor a résztvevők nem tudták a forrást (az 1. kísérlet „Forrás ismeretlen” csoportjában tesztelték, és a 2. kísérletben megerősítették), következetesen szignifikánsan magasabb hajlandóságot fejeztek ki az LLM tanácsának fellépésére, összehasonlítva az emberi ügyvédek tanácsával. Amikor azonban a forrást kifejezetten „LLM” vagy „Ügyvéd” címkével (1. kísérlet „Source ismert” csoportja) címkézték, ez a különbség eltűnt; A cselekvési hajlandóság mindkét forrás számára statisztikailag hasonlóvá vált. Az emberek kötelesek lehetnek úgy érezni, hogy az emberi szakemberek által magasabb szintű tanácsokat értékelnek, és csak az észlelt elvárásoknak felelnek meg, ha kifejezetten tudatában vannak.
Egy másik tényező lehet a szöveges jellemzők. A tanulmány megjegyezte, hogy míg az LLM tanácsai általában rövidebbek voltak, a nyelve a LIX olvashatósági pontszáma alapján bonyolultabbként regisztrált (egy olyan intézkedés, ahol a magasabb pontszámok nagyobb nehézségeket jeleznek). A cikk azt tárgyalja, hogy az LLM-ek bizalommal bírhatnak információkkal, ellentétben a felelősséggel és az árnyalattal foglalkozó emberi ügyvédekre jellemző óvatosabb, fedezetlen nyelvvel. A besorolás feladata, hogy az egyes tanácsok mennyire valószínű, hogy az ember által generált (ha nem jelölve) a résztvevők lényegesen jobban teljesítettek, mint a véletlen. A 0,50 AUC a véletlen teljesítményt képviseli, míg az 1,0 tökéletes pontosság, tehát a 0,59 valódi, bár tökéletlen képességet jelez a szöveges különbségek megkülönböztetésére. Kockázatok
Ez a potenciálisan nem észlelhető AI-tanácsadás preferenciája különösen releváns, tekintettel az ismert megbízhatósági kérdésekre, amelyek sújtják a jelenlegi LLMS-t. Mivel ezek a modellek érzékenyebb tanácsadó alkalmazásokká bővülnek, mint például az Openai nemrégiben frissített mély kutatási funkciója a CHATGPT-ben, a pontatlan információkra gyakorolt felhasználók kockázata növekszik. Az Openai saját adatok mutatták meg az o4-mini modellt, az o4-mini modellt. Az idő 48%-a egy adott referenciaértéknél (PersonQA). Az elméletek magukban foglalják a megerősítő tanulási (RL) folyamatok, amelyek esetleg megismerik a meggyőző kidolgozásokat, ha egy látszólag helyes végső válaszhoz vezetnek, az emberi visszajelzésekből származó megerősítési tanulás kihívásai (RLHF), ha az emberi értékelők nem tudják könnyen ellenőrizni a komplex közbenső érvelési lépések pontosságát, és a modelleket, amelyekben nem férnek hozzá a saját lépésekhez való indoklás előzményeihez. Modellek Műveletek feltalálása, amelyeket nem tudtak végrehajtani . Ahogyan Neil Chowdhury kutató átültetése javasolta a TechCrunch-nak, „hipotézisünk az, hogy az O-Series modellekhez használt megerősítési tanulás olyan kérdéseket is felerősíthet, amelyeket általában enyhít (de nem teljesen töröl) a szokásos edzés utáni csővezetékek.” A potenciális megbízhatóságnak ez a háttere aláhúzza a Chi-papír felhasználói bizalommal kapcsolatos megállapításai által felvetett aggodalmakat. Míg a használat növekszik, a egy közelmúltbeli Pew kutató központ A-their-own-health-care/”Target=”_ üres útmutató”>”vagy pénzügyi tervezés. A „vak” AI-tanácsadás kedvezésére irányuló hajlandóság bonyolítja az elszámoltathatóság biztosítására irányuló erőfeszítéseket is, amikor az AI eszközök hozzájárulnak a szakmai útmutatáshoz. Megmutatták az átláthatósági intézkedések fontosságát is, hivatkozva az olyan rendeletekre, mint az EU AI törvény, amely kötelezi az AI által generált tartalom világos címkézését ( 50. cikk ) és kockázati disklosures. Az emberi szakértők helyettesítése helyett az azonosítható lehet, hogy a több kalibrált felhasználói bizalom elősegítse. A teljes vizsgálati anyagok, beleértve az jspsych /“_ blank”> jatos kísérletek, a jatos kísérletek, a jatos kísérleteket, amelyek a jatos kísérletekben használt szkripteket használtak. href=”https://osf.io/bksqa/?view_only=8c9a5893fb52478cb755870e56e686ca”Target=”_ üres”> Nyissa meg a tudományos keretrendszer .
.
.