Ang pananaliksik na ipinakita sa chi 2025 Conference ay naghahayag ng isang mausisa na pattern sa kung paano ang reaksyon ng mga tao sa ligal na payo: iniuulat nila na mas handa na kumilos sa gabay mula sa malalaking mga modelo ng wika (llms) tulad ng Chatgpt kaysa sa mula sa mga abogado ng tao, ngunit partikular na ang mga mapagkukunan ay hindi nakikilala. Ang kagustuhan na ito ay lumilitaw kahit na ang mga tao ay nagpapakita ng isang kakayahang pag-iba-iba sa pagitan ng AI at teksto na nakasulat ng tao kaysa sa pagkakataon na mahuhulaan, na nagmumungkahi ng isang kumplikadong relasyon sa awtomatikong kadalubhasaan, tulad ng detalyado sa papel na may pamagat na”Pagtutukoy ng Overrocked! Lay People ay maaaring makilala ang mga malalaking modelo ng wika mula sa mga abogado, ngunit pinapaboran pa rin ang payo mula sa isang LLM.”href=”https://dl.acm.org/doi/10.1145/3706598.3713470″target=”_ blangko”> Mga Paghahanap Stem mula sa isang serye ng tatlong mga eksperimento na kinasasangkutan ng 288 mga kalahok. Inilahad ng mga mananaliksik ang mga ligal na sitwasyon na sumasaklaw sa mga karaniwang isyu tulad ng trapiko, pagpaplano, at batas sa pag-aari, batay sa mga query sa online na online na nagmula sa mga platform tulad ng reddit’s r/legaladviceuk . Pagkatapos ay ipinakita nila ang mga kalahok na kaukulang payo na nabuo alinman sa Chatgpt-4o ng OpenAi o sa pamamagitan ng mga dalubhasang abogado sa UK, pagsukat ng pagpayag na kumilos o kumpiyansa sa pagkilala sa pinagmulan. Nakasalalay sa pag-alam ng mapagkukunan
Kapag ang mga kalahok ay hindi alam ang pinagmulan (nasubok sa pangkat na’pinagmulan’ng eksperimento ng eksperimento 1 at nakumpirma sa Eksperimento 2), palagi silang nagpahayag ng mas mataas na pagpayag na kumilos sa payo ng LLM kumpara sa payo ng mga abogado ng tao. Gayunpaman, kapag ang pinagmulan ay malinaw na may label na’LLM’o’Lawyer'(‘pinagmulan’na pangkat’ng eksperimento 1), ang pagkakaiba na ito ay nawala; Ang pagpayag-to-act rating ay naging katulad ng istatistika para sa parehong mga mapagkukunan. Ang mga tao ay maaaring pakiramdam na obligado na i-rate ang payo mula sa isang propesyonal na tao na mas mataas, na naaayon sa napansin na mga inaasahan lamang kapag ginawang malinaw na may kamalayan. Nabanggit ng pag-aaral na habang ang payo ng LLM ay karaniwang mas maikli, ang wika nito ay nakarehistro bilang mas kumplikado batay sa mga marka ng pagbabasa ng LIX (isang panukala kung saan ang mas mataas na mga marka ay nagpapahiwatig ng higit na kahirapan). Tinatalakay ng papel na ang LLMS ay maaaring magpakita ng impormasyon na may isang hangin ng kumpiyansa, na kaibahan sa mas maingat, puno ng bakod na pangkaraniwan ng mga abogado ng tao na nababahala sa pananagutan at nuance. Itinalaga sa rating kung paano malamang ang bawat piraso ng payo ay maging kumpara sa nabuo ng tao (kapag hindi nababagay), ang mga kalahok ay gumanap nang mas mahusay kaysa sa pagkakataon. Ang isang AUC na 0.50 ay kumakatawan sa pagganap ng pagkakataon, habang ang 1.0 ay perpektong kawastuhan, kaya ang 0.59 ay nagpapahiwatig ng isang tunay, kahit na hindi sakdal, kakayahang makilala ang mga pagkakaiba sa teksto. Ang mga peligro
Habang lumalawak ang mga modelong ito sa mas sensitibong mga aplikasyon na nagbibigay ng payo, tulad ng na-update ng OpenAi ng malalim na tampok na pananaliksik sa ChATGPT, ang panganib ng mga gumagamit na kumikilos sa hindi tumpak na pagtaas ng impormasyon. Openai’s sariling Ang data ay nagpakita ng modelo ng o4-mini ng oras sa isang tiyak na benchmark (personqa). Kasama sa mga teorya ang mga proseso ng Reinforcement Learning (RL) na posibleng nakakagambala sa mga nakakumbinsi na mga katha kung humahantong sila sa isang tila tamang panghuling sagot, ang mga hamon para sa pag-aaral ng pampalakas mula sa mga hakbang sa pagkatao (RLHF) kapag ang mga rater ng tao ay hindi madaling mapatunayan ang kawastuhan ng mga kumplikadong intermediate na mga hakbang sa pangangatuwiran, at ang mga modelo kung minsan ay kulang sa pag-access sa kanilang sariling hakbang-hakbang na pangangatuwiran na kasaysayan ng pag-uusap. href=”https://transluce.org/investigating-o3-truthfulness”target=”_ blangko”> Pag-imbento ng mga aksyon na hindi nila maisasagawa . Tulad ng iminumungkahi ng mananaliksik ng transluce na si Neil Chowdhury sa TechCrunch,”Ang aming hypothesis ay ang uri ng pag-aaral ng pampalakas na ginamit para sa mga modelo ng O-Series ay maaaring palakasin ang mga isyu na karaniwang pinapagaan (ngunit hindi ganap na mabura) ng mga karaniwang post-training pipelines.”Ang backdrop na ito ng mga potensyal na hindi mapagkakatiwalaan ay binibigyang diin ang mga alalahanin na itinaas ng mga natuklasan ng papel ng CHI sa tiwala ng gumagamit. Habang lumalaki ang paggamit, isang kamakailan-lamang na pag-aaral sa sentro ng pananaliksik na natagpuan ang mababang pag-aalsa sa ai para sa sosyoso na patnubay sa pew. Tulad ng pagpaplano ng medikal o pinansiyal. Ang pagkahilig na pabor sa payo ng’bulag’AI ay kumplikado din ang mga pagsisikap upang matiyak ang pananagutan kapag ang mga tool ng AI ay nag-aambag sa propesyonal na patnubay. Itinuturo din nila ang kahalagahan ng mga hakbang sa transparency, na tumutukoy sa mga regulasyon tulad ng EU AI na kumikilos na mag-utos ng malinaw na pag-label ng ai-generated na nilalaman ( jspsych / bukas na balangkas ng agham