LMArena, a startup spun out from UC Berkeley’s influential Chatbot Arena project, has secured $100 million in seed funding, propelling its valuation to a reported $600 million.

The funding round is led by Andreessen Horowitz and UC Investments, with notable participation from Lightspeed Venture Partners, Felicis Ventures, Kleiner Perkins, Laude Ventures, and The房屋基金。 The capital infusion aims to commercialize and significantly expand the AI model evaluation platform.

This development underscores the growing importance and financial backing of tools designed to assess artificial intelligence capabilities, offering crucial insights for developers and the industry.

LMArena’s mission, as co-founder and CEO Anastasios N. Angelopoulos stated, is to address critical questions: “In a world racing to建立越來越多的模型,難以做的問題,而不是為特定的用例做什麼,我們正在為誰構建基礎架構來回答這些關鍵問題。在400多個模型評估和超過300萬張選票中取得了成功,影響了Google,OpenAI,Meta和XAI等科技巨頭的模型。 LMARENA聯合創始人和加州大學伯克利分校教授Ion Stoica強調了該平台的角色,他指出:“ AI評估通常落後於模型開發。 LMARENA通過將嚴格的,社區驅動的科學置於中心的嚴格,社區驅動的科學來縮小這一差距。這是一個長期綜合的團隊的一部分。 Venture

Chatbot Arena最初於2023年初從UC Berkeley的天空計算實驗室中出現。它的創新方法涉及用戶盲目比較來自兩個匿名AI模型的輸出,而投票通過ELO評級系統產生排名。 這種方法很快使公共排行榜成為有影響力的資源。

以LMARENA運行的正式公司Arena Intelligence Inc.的過渡旨在確保資源以進行大量升級。 The leadership includes recent UC Berkeley postdoctoral researchers Anastasios Angelopoulos and Wei-Lin Chiang, alongside Professor Stoica, a co-founder of Databricks and Anyscale.

Prior to this seed round, the project received support from university grants and donations from entities including Google’s Kaggle, Andreessen Horowitz via its open-source ai授予和ai Infrastructure beta版本的lmarena網站的beta版本也是為了改善用戶體驗。和道德專家。一個核心問題是,這種投票機制是否真正捕捉到有意義的模型質量。

華盛頓大學語言學教授艾米麗·班德(Emily Bender)對技術克魯克的持懷疑態度,斷言“要有效,基準需要衡量某些特定的東西,並且需要具有構造有效性的構造,這是一個很好的構造,即構建的構造,並且構造了既定的,又有效率。她進一步評論說:“聊天機器人競技場尚未表明對另一項輸出的投票實際上與偏好相關,但是可能會定義它們。”

批評家還擔心誤解結果的可能性,萊斯安(Asmelash Teka teka Hadgu)的萊斯安(Asmelash Teka teka teka Hadgu)可能會使用techcrunch向TechCrunch提出這些平台來宣傳這些平台來宣傳Exaggers的聲音。 “諸如Meta的Llama 4 Maverick模型之類的爭議擴大了這一問題,正如TechCrunch報導的那樣,該公司基準了一個特別調整的版本,該版本的表現優於後來發布的標準版本。 T

依靠未付用戶貢獻的依賴也引起了道德審查;阿斯彭研究所(Aspen Institute)的克里斯汀·格洛里亞(Kristine Gloria)告訴TechCrunch,這種基準“絕不應該是唯一的評估指標”。 Gray Swan AI的Matt Frederikson同意公共基準“不是替代”進行嚴格的內部測試,並建議開發人員和基準創建者的明確交流。

對中立性和未來Roadmap

lmarena的團隊的承諾正在積極解決這些問題。聯合創始人Wei-Lin Chiang告訴TechCrunch:“我們的社區不是在這裡作為志願者或模型測試人員。 “他解釋說,用戶與LMARENA互動,以進行AI互動和集體反饋的開放和透明的環境。

公司已公開宣佈在