lmarena, permulaan yang berputar dari projek chatbot arena berpengaruh UC Berkeley, telah memperoleh $ 100 juta dalam pembiayaan benih, yang mendorong penilaiannya kepada $ 600 juta yang dilaporkan. Usaha, dan dana rumah. Infusi modal bertujuan untuk mengkomersialkan dan memperluaskan platform penilaian model AI dengan ketara.

Pembangunan ini menggariskan kepentingan yang semakin meningkat dan sokongan kewangan yang direka untuk menilai keupayaan kecerdasan buatan, yang menawarkan kepada pemaju dan industri. Perlumbaan untuk membina model yang lebih baik, soalan keras tidak lagi boleh dilakukan oleh AI.

Platform ini telah membuat tanda, dengan lebih daripada empat ratus penilaian model dan lebih daripada tiga juta undi yang dibuang, mempengaruhi model dari gergasi teknologi seperti Google, Openai, Meta, dan XAI. Ion Stoica, pengasas bersama Lmarena dan profesor UC Berkeley, menekankan peranan platform, menyatakan,”Penilaian AI sering tertinggal di belakang pembangunan model. Akar ke usaha komersial

Arena chatbot pada mulanya muncul pada awal 2023 dari UC Berkeley Lab Computing Sky . Kaedah inovatifnya melibatkan pengguna secara membabi buta membandingkan output dari dua model AI tanpa nama, dengan undi menjana kedudukan melalui sistem penarafan ELO. Pendekatan ini dengan cepat menjadikan papan pendahulu awam sebagai sumber yang berpengaruh.

Peralihan ke syarikat formal, Arena Intelligence Inc., yang beroperasi sebagai Lmarena, bertujuan untuk mendapatkan sumber untuk peningkatan yang signifikan. Kepimpinan termasuk penyelidik pasca doktoral UC Berkeley baru-baru ini Anastasios Angelopoulos dan Wei-lin Chiang, bersama Profesor Stoica, pengasas bersama Databricks dan Anyscale. href=”https://a16z.com/announcing-our-latest-open-source-ai-grants/”target=”_ blank”> Open-Source AI Grants , dan firma infrastruktur AI Versi beta laman web lmarena juga dilancarkan untuk meningkatkan pengalaman pengguna. dan pakar etika. Kebimbangan utama adalah sama ada mekanisme pengundian itu benar-benar menangkap kualiti model yang bermakna. Beliau seterusnya mengulas,”Chatbot Arena tidak menunjukkan bahawa pengundian untuk satu output ke atas yang lain benar-benar berkorelasi dengan keutamaan, namun mereka mungkin ditakrifkan.”Kebimbangan ini dikuatkan oleh kontroversi seperti model Llama 4 Maverick Meta, di mana, seperti yang dilaporkan oleh TechCrunch, syarikat itu menanda aras versi khas yang mengatasi standard yang kemudiannya dikeluarkan. T

Dia bergantung kepada sumbangan pengguna yang tidak dibayar juga telah menarik perhatian etika; Kristine Gloria, yang dahulunya Institut Aspen, memberitahu TechCrunch bahawa tanda aras tersebut”tidak boleh menjadi satu-satunya metrik untuk penilaian.”Matt Frederikson dari Grey Swan AI bersetuju bahawa penanda aras awam”bukan pengganti”untuk ujian dalaman yang ketat dan menasihatkan komunikasi yang jelas dari pemaju dan pencipta penanda aras. Pengasas bersama Wei-lin Chiang memberitahu TechCrunch,”Komuniti kami tidak berada di sini sebagai sukarelawan atau penguji model.”Beliau menjelaskan bahawa pengguna terlibat dengan lmarena untuk persekitaran terbuka dan telus untuk interaksi AI dan maklum balas kolektif. Tidak akan menjadi berat sebelah ke arah (atau menentang) mana-mana pembekal, dan akan mencerminkan keutamaan komuniti kita dengan reka bentuk. Anastasios Angelopoulos juga telah menyatakan visi untuk Lmarena sebagai tempat bagi semua orang untuk meneroka dan membandingkan AI. Rancangan termasuk meningkatkan sokongan untuk penyelidikan terbuka dan memperkenalkan arena ujian khusus seperti WebDev Arena, Repochat Arena, dan Arena Cari. Projek-projek masa depan akan mensasarkan model penglihatan, ejen AI, dan latihan Red-Teaming AI. Mengenai model perniagaannya, Ion Stoica menunjukkan kepada