Ang OpenAi New O3/O4-Mini Models ay nag-hallucinate higit sa mga nakaraang modelo

Itinulak ng

Openai ang mga modelo ng O3 at O4-Mini sa Chatgpt para sa pagbabayad ng mga tagasuskribi sa paligid ng Abril 16, 2025, na tinutukoy ang mga ito bilang isang hakbang patungo sa mas autonomous na mga katulong sa AI. Ang mga modelong ito ay dinisenyo gamit ang”maagang pag-uugali ng ahente,”na may kakayahang magpasya nang nakapag-iisa kapag gumamit ng mga tool tulad ng pag-browse sa web, pagpapatupad ng code, o pagsusuri ng file. Isang Tungkol sa Trend: Sa Benchmark ng Personqa ng OpenAi, na idinisenyo upang subukan ang kaalaman tungkol sa mga tao, ang O3 ay gumawa ng hindi tama o gawa-gawa na impormasyon na 33% ng oras. Ang modelo ng O4-Mini ay mas masahol pa, ang pag-hallucinate sa 48% ng mga kaso. Habang sa pangkalahatan ay nagpapakita ng mga pagpapabuti sa mga benchmark ng pangangatuwiran at coding kumpara sa mga matatandang bersyon, ang tiyak na pagtaas ng katha ay nagtataas ng mga katanungan tungkol sa mga trade-off na kasangkot sa pagbuo ng mas maraming mga sistema ng ahente. href=”https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf”target=”_ blangko”> o3 at o4-mini system card na”kailangan”Ang teorizing na dahil ang mga modelo ay”gumawa ng mas maraming mga paghahabol sa pangkalahatan,”gumagawa sila ng parehong mas tama at mas hindi tumpak na mga pahayag. Sinabi ng tagapagsalita ng Openai na si Niko Felix sa TechCrunch,”Ang pagtugon sa mga guni-guni sa lahat ng aming mga modelo ay isang patuloy na lugar ng pananaliksik, at patuloy kaming nagtatrabaho upang mapagbuti ang kanilang katumpakan at pagiging maaasahan.”Ang AI Research Lab na isinalin AI ay naglathala ng gumanap . Kapag naharap ang tungkol sa mga katha na ito, madalas na nadoble ang modelo, na nag-imbento ng masalimuot na mga pagbibigay-katwiran. target=”_ blangko”> halimbawa ng pag-uusap kung saan inaangkin ng O3 na makabuo ng isang 512-bit na pangunahing numero gamit ang Python code at mga tiyak na pagsubok. Tumatakbo ang mga pagsubok… ang anumang tunay na run ng Miller-Rabin ay tatanggihan agad ang numero.”

Isalin ang dokumentado ng iba pang mga katha, kabilang ang mga pag-angkin ng pagpapatakbo ng code sa isang panlabas na “2021 macbook pro”Kapag tinanong tungkol sa python rep environment . Habang kapaki-pakinabang para sa pag-coding, ayon sa CEO ng Workera na si Kian Katanforoosh na nagsalita sa TechCrunch, kung minsan ang O3 ay gumawa ng hindi gumagana na mga link sa web. Sa paligid ng oras ng paglulunsad, ang OpenAi kamakailan lamang Ang dokumentasyon ni Openai , ang pangangatwiran na bakas na ito ay hindi naipasa sa pagitan ng mga pag-uusap. Isinalin ang kakulangan ng pag-access sa sarili nitong naunang pangangatuwiran na maaaring iwanan ang modelo na hindi makatotohanang sagutin ang mga katanungan ng gumagamit tungkol sa kung paano ito nakarating sa isang mas maagang konklusyon.”Ang aming hypothesis ay ang uri ng pag-aaral ng pampalakas na ginamit para sa mga modelo ng O-Series ay maaaring palakasin ang mga isyu na karaniwang pinapagaan (ngunit hindi ganap na mabura) sa pamamagitan ng karaniwang mga post-training pipelines,”sinabi ng transluce researcher na si Neil Chowdhury sa TechCrunch. binibigyang diin ang kanilang napapansin na utility. Ang mga modelong ito ay dumating sa tabi ng iba pang mga pag-update ng openai tulad ng pinahusay na visual na pagproseso noong Marso at ang pag-activate ng tampok na memorya ng”Pag-alaala”noong Abril 11. Ito ay nagbubukas bilang mas malawak na industriya na may kasamang transparency, na napatunayan sa pamamagitan ng pagpuna sa mga naantala at kalat-kalat na mga detalye ng kaligtasan para sa kanyang modelo ng Gemini 2.5 Pro, na nagtataas ng patuloy na mga katanungan tungkol sa balanse sa pagitan ng bilis ng pagbabago at maaasahan na paglawak ng AI.

Ang OpenAi New O3/O4-Mini Models ay nag-hallucinate higit sa mga nakaraang modelo

Published by All Things Windows on April 19, 2025

IT Info

Microsoft Edge Adobe PDF Engine Rollout Para sa Mga Negosyo na Itinulak sa Huli ng 2025

IT Info

Bluesky upang ipakilala ang Blue Check Verification System

IT Info

Ang mga pambansang bantay sa seguridad ng US

Ang OpenAi New O3/O4-Mini Models ay nag-hallucinate higit sa mga nakaraang modelo

Published by All Things Windows on April 19, 2025

Related Posts

IT Info

Microsoft Edge Adobe PDF Engine Rollout Para sa Mga Negosyo na Itinulak sa Huli ng 2025

IT Info

Bluesky upang ipakilala ang Blue Check Verification System

IT Info

Ang mga pambansang bantay sa seguridad ng US