Forschungsergebnisse auf dem CHI 2025-Konferenz enthüllt ein merkwürdiges Muster in der Art und Weise, wie Laienpeopel auf Rechtsberatung reagieren: Sie berichten, dass sie eher bereit sind, auf Leitlinien zu handeln, die von großen Sprachmodellen (LLMs).

Diese Präferenz entsteht, obwohl die Menschen die Fähigkeit demonstrieren, zwischen KI und menschlichem geschriebenem Text zu unterscheiden, das besser als die Zufall vorhersagen würde, was auf eine komplexe Beziehung mit automatisiertem Fachwissen hinweist, wie in dem Papier mit dem Titel „Überlagertes Einspruch überzogen! href=”https://dl.acm.org/doi/10.1145/3706598.3713470″target=”_ leer”> Ergebnisse stammen aus einer Reihe von drei Experimenten mit 288 Teilnehmern. Die Forscher präsentierten rechtliche Szenarien, die gemeinsame Probleme wie Verkehr, Planung und Eigentumsgesetz behandeln, basierend auf realen Online-Abfragen aus Plattformen wie

entstand der Kernbefund aus dem Vergleich der Teilnehmerreaktionen, basierend darauf, ob sie wussten, wer den Rat schrieb. Als die Teilnehmer die Quelle nicht bewusst waren (getestet in Experiment 1″Unbekannter”-Geurationskontrolle und in Experiment 2 bestätigt), drückten sie im Vergleich zu den Ratschlägen der menschlichen Anwälte konsequent eine signifikant höhere Bereitschaft aus, auf die Ratschläge der LLM zu reagieren. Als die Quelle jedoch explizit als”LLM”oder”Anwalt”(Experiment 1-Gruppe bekannt”) bezeichnet wurde, verschwand dieser Unterschied. Die Bereitschaft zu Act-Bewertungen wurden für beide Quellen statistisch ähnlich. Die Menschen könnten sich verpflichtet fühlen, Ratschläge eines menschlichen Fachmanns höher zu bewerten und sich nur dann den wahrgenommenen Erwartungen zu entsprechen, wenn sie ausdrücklich aufmerksam gemacht werden. In der Studie wurde festgestellt, dass die Ratschläge der LLM im Allgemeinen kürzer waren, ihre Sprache jedoch als komplexer auf der Grundlage der Lesbarkeitswerte der LIX-Lesbarkeit registriert wurden (eine Maßnahme, bei der höhere Werte auf größere Schwierigkeiten hinweisen). In der Arbeit wird erläutert, dass LLMs Informationen mit einem Menschenvertrauen aufweisen könnten, der sich mit der vorsichtigeren, mit Hecke gefüllten Sprache im Gegensatz zu menschlichen Anwälten, die sich mit Haftung und Nuancen befassen, im Gegensatz zu einer Unterscheidung von KI im Gegensatz zu stellen. Mit der Bewertung beauftragt, wie wahrscheinlich jeder Ratschlag von Menschen erzeugt werden sollte (wenn sie nicht beliebig sind), machten die Teilnehmer signifikant besser als den Zufall. Ein AUC von 0,50 stellt eine zufällige Leistung dar, während 1,0 eine perfekte Genauigkeit ist, so dass 0,59 eine echte, wenn auch unvollkommene Fähigkeit angeben, die textuellen Unterschiede zu erkennen. Risiken

Diese Präferenz für potenziell nicht nachweisbare KI-Ratschläge ist besonders relevant angesichts der bekannten Zuverlässigkeitsprobleme, in denen die aktuellen LLMs plagen. Da sich diese Modelle in sensiblere Anwendungen zur Beratung ausdehnen, wie die kürzlich aktualisierte Deep-Research-Funktion von OpenAI in ChatGPT, steigt das Risiko von Benutzern, die auf ungenaue Informationen wirken. OpenAIS eigene Erfindungsaktionen, die sie nicht ausführen konnten . Wie Transluce-Forscher Neil Chowdhury dem TechCrunch vorschlug: „Unsere Hypothese ist, dass die Art des für O-Serie-Modelle verwendeten Verstärkungslernens Probleme, die normalerweise durch Standardpipelines nach dem Training gemildert (aber nicht vollständig gelöscht) werden, verstärken können.”Dieser Hintergrund potenzieller Unzuverlässigkeit unterstreicht die Bedenken, die durch die Ergebnisse des Chi-Papiers zum User Trust ausgewählt werden. Während die Verwendung wächst, Artikel 50 ) und Risiko-Ablösungen für bestimmte Anwendungen. Identifizierbare, anstatt menschliche Experten nachzuahmen, ist möglicherweise der Schlüssel zur Förderung des kalibrierten Benutzervertrauens. Die vollständigen Studienmaterialien, einschließlich Daten-und Analyse-Skripte, die in der jspsych / Öffnen Science Framework .

Categories: IT Info