Pinuputol ng Openai ang oras ng pagsubok sa kaligtasan ng AI, na nag-spark ng mga alalahanin sa gitna ng paglunsad ng modelo ng pagmamadali - All Things Windows

Ang Openai ay nahaharap sa mga matulis na katanungan tungkol sa mga protocol ng kaligtasan nito pagkatapos ng isang Sa isang post sa blog Maaaring mangahulugan ng OpenAI at ang iba pang mga kumpanya ng AI ay pinapabagsak ang pinakamasamang panganib ng kanilang mga modelo.”Ang isa pang kritika ay nagsasangkot ng pagsubok sa mga naunang bersyon ng modelo, o”mga checkpoints,”sa halip na ang pangwakas na code na inilabas sa publiko.”Masamang kasanayan na ilabas ang isang modelo na naiiba sa isa na iyong nasuri,”sinabi ng isang dating miyembro ng kawani ng Openai na Teknikal sa ft. Sinabi ng kumpanya na ang mga checkpoints ay”karaniwang magkapareho”sa mga pangwakas na paglabas at ang mga modelo ay lubusang nasubok, lalo na para sa mga panganib sa sakuna. Si Johannes Heidecke, pinuno ng mga sistema ng kaligtasan ng Openai, ay iginiit,”Mayroon kaming isang mahusay na balanse kung gaano kabilis ang paglipat namin at kung gaano kami masinsinang.”Ang mga startup sa mga pagsusuri sa”domain-specific”at pag-optimize ng modelo gamit ang pampalakas na pinong pag-tune (rft) Ang inisyatibong ito, gayunpaman, ay lilitaw na naiiba mula sa pundasyon, pre-release na pagsusuri sa kaligtasan na naiulat na pinaikling. Noong Mayo 2024, si Jan Leike, pagkatapos ay co-lead ng superalignment team ng kumpanya na nakatuon sa mga pangmatagalang panganib ng AI, na nagsasabi sa publiko na sa mga nakaraang taon,”ang kultura ng kaligtasan at proseso ay nakakuha ng backseat sa mga makintab na produkto.”Ang kanyang pag-alis at kalaunan ay sumali sa antropiko ay nag-sign ng malalim na hindi pagkakasundo sa mga mapagkukunan at prayoridad tungkol sa pangmatagalang pananaliksik sa kaligtasan ng AI. Kapansin-pansin, inihayag ni OpenAI ang pagbuo ng isang komite sa kaligtasan at seguridad na pinangunahan ng board na mga araw bago, na naatasan sa isang 90-araw na panahon upang suriin at bumuo ng mga proseso ng kaligtasan at gumawa ng mga rekomendasyon. Noong Marso 28, detalyado ng antropiko ang balangkas ng interpretability nito, isang”mikroskopyo ng AI”gamit ang pag-aaral ng diksyonaryo Sinusubukan ng pag-aaral ng diksyunaryo na baligtarin-engineer ang panloob na mga kalkulasyon ng modelo, pagma-map sa mga ito sa mga maliwanag na konsepto. Ang antropiko ay naka-frame na ito bilang mahalaga para sa tiwala. Katulad nito, iminungkahi ng Google DeepMind ang isang pandaigdigang balangkas ng kaligtasan ng AGI noong Abril 3, na nagsusulong para sa pang-internasyonal na pangangasiwa at pagpapagamot ng mga advanced na panganib sa AI. Ang panukalang ito ay sumunod sa pagbuo ng sariling AI safety and alignment organization ng DeepMind mas maaga noong 2024. Ang Anthropic, habang pinipilit ang mas malakas na mga patakaran ng gobyerno ng AI noong unang bahagi ng Marso, tahimik din na tinanggal ang ilan sa sarili nitong naunang boluntaryong mga pangako sa kaligtasan na ginawa sa ilalim ng isang 2023 White House Initiative, na naglalarawan ng pag-igting sa pagitan ng pampublikong pagpoposisyon at mga presyur sa pagpapatakbo. Ang OpenAi mismo ay partido sa kusang mga pangako sa UK at mga gobyerno ng US tungkol sa pag-access sa panlabas na kaligtasan, tulad ng nabanggit sa ulat ng FT. Ang pangangailangan para sa matatag na pagsubok ay binibigyang diin ng patuloy na pagtuklas ng kahinaan, tulad ng pagsasamantala sa”pagkaantala ng tool invocation”na natagpuan sa memorya ng Google Gemini noong Pebrero, o patuloy na mga diskarte sa jailbreaking na nakakaapekto sa maraming nangungunang mga modelo. Ang mabilis na pag-unlad ng Openai ay nagpapatuloy sa kabila ng Altman pagkilala sa mga potensyal na hamon sa kapasidad

Categories: IT Info