Mengejar industri teknologi AI yang boleh mengendalikan komputer secara aktif, bukan hanya bertindak balas terhadap pertanyaan, melihat satu lagi peserta yang berpotensi, sebagai tanda-tanda menunjukkan kepada Google meneroka fungsi”penggunaan komputer”dalam studio AI.
Pembangunan ini, Walaupun kemajuan, keberkesanan praktikal agen AI semasa dalam mengendalikan tugas profesional kompleks secara autonomi masih di bawah pengawasan. Kajian Carnegie Mellon University yang diterbitkan pada 5 Mei, bertajuk”Theagentcompany,”menyediakan penilaian yang sober. Mensimulasikan firma perisian, kajian mendapati bahawa walaupun AI terkemuka, sonnet Claude 3.5 Anthropic, hanya menyelesaikan 24% tugas yang ditugaskan, dengan kos operasi purata lebih dari $ 6 setiap tugas. Flash Gemini 2.0 Google mengendalikan penyelesaian 11.4%, sementara GPT-4O OpenAI mencapai 8.6%. Sebagai contoh, ejen bergelut dengan pemahaman fail asas atau menolak pop timbul pada skrin. Kesimpulannya ialah walaupun agen AI dapat membantu dengan bahagian-bahagian kerja manusia, mereka”mungkin bukan pengganti untuk semua tugas pada masa ini.”Ini membentangkan penanda aras prestasi yang ketara bahawa mana-mana ciri”penggunaan komputer”baru dari Google secara tersirat akan diukur. Manus Ai, dari Kesan Rama-rama Permulaan Cina, yang dilancarkan sekitar 6 Mac, dan dipasarkan sebagai ejen autonomi yang mampu merancang dan melaksanakan tugas-tugas digital tanpa pengawasan manusia yang berterusan, dilaporkan menggunakan model seperti claude antropik dan Alibaba. Ejen telah menarik perhatian dari pengawal selia, dengan Manus AI menghadapi larangan di rangkaian negeri di Tennessee dan Alabama kerana kebimbangan keselamatan dan propaganda. href=”https://www.fierceHealthcare.com/health-tech/google-cloud-sees-multi-gent-ystems-next-next-dier-denvancing-tild-and-mengurus”pada persidangan seterusnya awan pada bulan April 2025. Oleh kerana Google berpotensi membentuk ciri”penggunaan komputer”untuk AI Studio, kejayaannya akan bergantung bukan sahaja pada keupayaan teknikal dan kemudahan penempatan untuk model-model seperti Gemma 3 tetapi juga untuk menangani kebolehpercayaan dan pertimbangan keselamatan yang menjadi lebih menonjol dalam bidang yang dikendalikan oleh Commin. Dengan hosting model tanpa pelayan, berpotensi mengubah AI Studio menjadi platform yang lebih komprehensif untuk membangun dengan model Gemma dan masa depan. Sama ada kapal”penggunaan komputer”ini secara meluas atau kekal sebagai eksperimen dalaman mungkin bergantung kepada penilaian keselamatan yang berterusan dan strategi ejen yang berkembang Google. Pemeriksaan realiti mengenai prestasi ejen