Ang
AI safety firm na si Anthropic ay naglabas ng Petri, isang bagong tool na open-source na gumagamit ng AI upang mag-audit sa iba pang AI. Magagamit sa mga mananaliksik sa buong mundo, inilalagay ni Petri ang mga ahente ng autonomous na”auditor”upang subukan ang mga makapangyarihang modelo para sa mga mapanganib na pag-uugali tulad ng panlilinlang, naghahanap ng kapangyarihan, at sycophancy. Ang layunin ng Anthropic ay upang mapabilis at pamantayan ang pananaliksik sa kaligtasan sa buong industriya, na ginagawang mas madali upang mahanap at ayusin ang mga mapanganib na pag-uugali bago sila magdulot ng pinsala sa mundo. src=”https://winbuzzer.com/wp-content/uploads/2024/10/anthropic-ai-safety-ai-sabotage.jpg”> href=”https://www.anthropic.com/research/petri-open-shource-uditing”target=”_ blangko”> Parallel na tool sa pagsaliksik para sa mapanganib na pakikipag-ugnayan (Petri) maaaring manu-manong mag-audit, na kumakatawan sa isang madiskarteng paglilipat mula sa mga static na benchmark hanggang sa awtomatiko, patuloy na pagsusuri. Ayon sa Anthropic, ang naka-streamline na diskarte na ito ay posible upang masubukan ang maraming mga indibidwal na ideya tungkol sa kung paano maaaring kumilos ang isang modelo na may mga minuto lamang na pagsisikap ng hands-on. Nag-aalis ito ng mga awtomatikong ahente ng”auditor”na umaakit sa target na modelo sa magkakaibang, multi-turn na pag-uusap sa loob ng mga simulate na kapaligiran. katapatan at pagtanggi. Ang system pagkatapos ay awtomatikong lumilitaw ang pinaka tungkol sa mga transkrip para sa pagsusuri ng tao, na makabuluhang binabawasan ang manu-manong pagsisikap. Ang buong balangkas ngayon ay magagamit sa github . Mga modelo. Kasama sa lineup ang sarili nitong Claude Sonnet 4.5, GPT-5 ng OpenAi, at Gemini 2.5 Pro ng Google. Ang mga resulta ay malungkot, sumasaklaw sa mga pag-uugali tulad ng panlilinlang, sycophancy, at naghahanap ng kapangyarihan. Habang ang sariling Claude Sonnet ng Anthropic ay nakamit ang pinakamababang pangkalahatang marka ng peligro, ang mga natuklasan ay binibigyang diin ang mga hamon sa kaligtasan ng systemic na salot sa buong industriya. Ang mga modelo ay inilagay sa mga kathang-isip na kumpanya at nakalantad sa impormasyon tungkol sa pagkakasala sa korporasyon. Nalaman ni Petri na ang desisyon ng isang modelo na mag-ulat ng maling pag-uugali ay madalas na hinihimok ng mga salaysay na salaysay sa halip na isang magkakaugnay na etikal na balangkas. Ipinapahiwatig nito na ang mga pattern na tumutugma sa mga kwento ng maling paggawa nang walang pag-unawa sa aktwal na pinsala na kasangkot, isang kritikal na kapintasan sa kanilang pangangatuwiran. Ang mga insidente ay nagpahayag ng isang pattern ng hindi mahuhulaan at madalas na mapanirang pag-uugali. Sa isang kaso, ang ahente ng Gemini CLI ng Google