A pesquisa apresentada no Chi 2025 Conference revela um padrão curioso em como as pessoas leigos não são consideradas que não são consideradas, mas a lison, mas a lisada. A preferência surge, mesmo que as pessoas demonstrem uma capacidade de diferenciar entre IA e texto escrito por humanos melhor do que o acaso preveria, sugerindo uma relação complexa com conhecimento automatizado, conforme detalhado no artigo intitulado “Objeção anulada! Os leigos podem distinguir modelos de idiomas grandes dos advogados, mas ainda favorecem conselhos de um LLM”. href=”https://dl.acm.org/doi/10.1145/3706598.3713470″Target=”_ Blank”> descobertas O decorre de uma série de três experiências envolvendo 288 participantes. Os pesquisadores apresentaram cenários legais abrangendo questões comuns como tráfego, planejamento e direito da propriedade, com base em consultas on-line do mundo real provenientes de plataformas como Reddit’s R/LegalAdrice Eles então mostraram aos participantes conselhos correspondentes gerados pelo ChatGPT-4O da Openai ou por advogados especializados no Reino Unido, medindo a disposição de agir ou confiar na identificação da fonte. Ao conhecer a fonte
A descoberta principal surgiu de comparar as reações dos participantes com base em saber se eles sabiam quem escreveu o conselho. Quando os participantes desconheciam a fonte (testados no grupo”Fonte Unknown”da Experiência 1 e confirmados no experimento 2), eles consistentemente expressaram uma disposição significativamente maior de agir sob os conselhos do LLM em comparação com os conselhos dos advogados humanos. No entanto, quando a fonte foi explicitamente rotulada como’LLM’ou’Advogado'(grupo de’fonte conhecido’da Experiência 1), essa diferença desapareceu; As classificações de disposição para acordar tornaram-se estatisticamente semelhantes para ambas as fontes. Os pesquisadores sugerem que essa discrepância pode resultar de fatores sociais quando a fonte for revelada; As pessoas podem se sentir obrigadas a avaliar conselhos de um profissional humano mais alto, em conformidade com as expectativas percebidas somente quando tomadas explicitamente conscientes. Outro fator pode ser as próprias características textuais. O estudo observou que, embora os conselhos do LLM fossem geralmente mais curtos, seu idioma registrou como mais complexo com base nos escores de legibilidade dos lixes (uma medida em que pontuações mais altas indicam maior dificuldade). O artigo discute que os LLMs podem apresentar informações com um ar de confiança, contrastando com a linguagem mais cautelosa e cheia de hedge típica dos advogados humanos preocupados com a responsabilidade e a nuance. Encarregada de classificar a probabilidade de cada conselho ser AI-versus gerado pelo ser humano (quando não marcado), os participantes tiveram um desempenho significativamente melhor que o acaso. Uma AUC de 0,50 representa o desempenho da chance, enquanto 1,0 é uma precisão perfeita, então 0,59 indica uma capacidade genuína, embora imperfeita, de discernir as diferenças textuais. Riscos
Essa preferência por conselhos de IA potencialmente indetectáveis é particularmente relevante, dadas as questões de confiabilidade conhecidas que atormentam os LLMs atuais. À medida que esses modelos se expandem para aplicativos de conselhos mais sensíveis, como o recurso de pesquisa profunda recentemente atualizada do OpenAI no ChatGPT, o risco de usuários agindo com informações imprecisas aumenta. O próprio OpenAI Inventando ações que eles não puderam executar . Como o pesquisador de tradução Neil Chowdhury sugeriu ao TechCrunch, “nossa hipótese é que o tipo de aprendizado de reforço usado para os modelos da série O pode amplificar problemas que geralmente são mitigados (mas não totalmente apagados) por oleodutos pós-treinamento padrão”. Esse pano de fundo de potencial não confiabilidade ressalta as preocupações levantadas pelas descobertas do documento CHI sobre a confiança do usuário. Enquanto o uso cresce, jsPsych/JATOS experiments, are available to researchers via the Abra a estrutura científica .
Categories: IT Info