lmarena การเริ่มต้นหมุนออกมาจากโครงการ Chatbot Arena ผู้มีอิทธิพลของ UC Berkeley ได้รับเงินทุน 100 ล้านเหรียญสหรัฐซึ่งเป็นแรงผลักดันให้มีการประเมินมูลค่า 600 ล้านเหรียญ
การระดมทุนรอบการลงทุน กองทุน. การแช่เงินทุนมีวัตถุประสงค์เพื่อทำการค้าและขยายแพลตฟอร์มการประเมินแบบจำลอง AI อย่างมีนัยสำคัญ
การพัฒนานี้เน้นย้ำถึงความสำคัญที่เพิ่มขึ้นและการสนับสนุนทางการเงินของเครื่องมือที่ออกแบบมาเพื่อประเมินความสามารถด้านปัญญาประดิษฐ์นำเสนอข้อมูลเชิงลึกที่สำคัญสำหรับนักพัฒนาและอุตสาหกรรม แบบจำลองที่เคยชินกับคำถามที่ยากลำบากคือสิ่งที่ AI สามารถทำได้อีกต่อไป Mark ซึ่งมีการประเมินแบบจำลองมากกว่าสี่ร้อยครั้งและมีคะแนนโหวตมากกว่าสามล้านคะแนนซึ่งมีอิทธิพลต่อโมเดลจากยักษ์ใหญ่ด้านเทคโนโลยีเช่น Google, Openai, Meta และ Xai Ion Stoica, Lmarena ผู้ร่วมก่อตั้งและศาสตราจารย์ UC Berkeley เน้นบทบาทของแพลตฟอร์มโดยระบุว่า“ การประเมิน AI มักจะล้าหลังการพัฒนาแบบจำลอง Lmarena ปิดช่องว่างโดยการทำให้เกิดการเคลื่อนไหวอย่างรวดเร็ว กิจการเชิงพาณิชย์
Chatbot Arena เริ่มแรกเกิดขึ้นในช่วงต้นปี 2023 จาก UC Berkeley’s Sky Computing Lab วิธีการที่เป็นนวัตกรรมของมันเกี่ยวข้องกับผู้ใช้อย่างสุ่มสี่สุ่มห้าเปรียบเทียบผลลัพธ์จากสองรุ่น AI ที่ไม่ระบุชื่อโดยมีคะแนนโหวตสร้างการจัดอันดับผ่านระบบการจัดอันดับ ELO วิธีการนี้ทำให้ลีดเดอร์บอร์ดสาธารณะเป็นทรัพยากรที่มีอิทธิพลอย่างรวดเร็ว
การเปลี่ยนไปใช้ บริษัท ที่เป็นทางการ Arena Intelligence Inc. ซึ่งดำเนินงานเป็น Lmarena มีวัตถุประสงค์เพื่อรักษาความปลอดภัยทรัพยากรสำหรับการอัพเกรดที่สำคัญ ความเป็นผู้นำรวมถึงนักวิจัยหลังปริญญาเอก UC Berkeley เมื่อเร็ว ๆ นี้ Anastasios Angelopoulos และ Wei-Lin Chiang ควบคู่ไปกับศาสตราจารย์ Stoica ผู้ร่วมก่อตั้ง Databricks และ Anyscale
ก่อนหน้านี้ href=”https://a16z.com/announcing-our-latest-open-source-ai-grants/”target=”_ blank”> โอเพ่นซอร์ส ai มอบให้ และโครงสร้างพื้นฐานของ AI A เว็บไซต์เบต้าของเว็บไซต์ lmarena ก็เปิดตัวเพื่อปรับปรุงประสบการณ์ผู้ใช้
ผู้เชี่ยวชาญด้านวิชาการและจริยธรรม ความกังวลหลักคือกลไกการลงคะแนนดังกล่าวจับคุณภาพแบบจำลองที่มีความหมายอย่างแท้จริง
Emily Bender ศาสตราจารย์ภาษาศาสตร์มหาวิทยาลัยวอชิงตันได้เปล่งเสียงความสงสัยใน TechCrunch ยืนยันว่า สร้าง”เธอให้ความเห็นเพิ่มเติมว่า“ Chatbot Arena ไม่ได้แสดงให้เห็นว่าการลงคะแนนให้กับผลผลิตหนึ่งรายการที่มีความสัมพันธ์กับการตั้งค่าอย่างไรก็ตามพวกเขาอาจถูกกำหนด”
นักวิจารณ์ยังกังวลเกี่ยวกับศักยภาพในการตีความผลลัพธ์ที่ผิด ข้อกังวลนี้ได้รับการขยายโดยการถกเถียงเช่น Llama 4 Maverick Model ของ Meta ซึ่งตามที่ TechCrunch รายงาน บริษัท เปรียบเทียบรุ่นที่ปรับเป็นพิเศษซึ่งมีประสิทธิภาพสูงกว่ามาตรฐานที่เปิดตัวในภายหลัง T
เขาพึ่งพาการมีส่วนร่วมของผู้ใช้ที่ไม่ได้ชำระเงินได้ทำการตรวจสอบอย่างมีจริยธรรมเช่นกัน Kristine Gloria ซึ่งเดิมเป็นสถาบัน Aspen บอกกับ TechCrunch ว่ามาตรฐานดังกล่าว“ ไม่ควรเป็นตัวชี้วัดเดียวสำหรับการประเมิน” Matt Frederikson จาก Grey Swan Ai เห็นพ้องกันว่ามาตรฐานสาธารณะ“ ไม่ได้เป็นตัวแทน” สำหรับการทดสอบภายในอย่างเข้มงวดและแนะนำการสื่อสารที่ชัดเจนจากนักพัฒนาและผู้สร้างมาตรฐาน
ความมุ่งมั่นที่จะเป็นกลาง ผู้ร่วมก่อตั้ง Wei-Lin Chiang บอกกับ TechCrunch ว่า“ ชุมชนของเราไม่ได้อยู่ที่นี่ในฐานะอาสาสมัครหรือผู้ทดสอบแบบจำลอง” เขาอธิบายว่าผู้ใช้มีส่วนร่วมกับ lmarena สำหรับสภาพแวดล้อมที่เปิดกว้างและโปร่งใสสำหรับการโต้ตอบ AI และข้อเสนอแนะโดยรวม
บริษัท ได้ประกาศความมุ่งมั่นต่อความเป็นธรรมใน