Larena, ein Startup aus der einflussreichen Chatbot-Arena-Projekt von UC Berkeley, hat eine Saatgutförderung in Höhe von 100 Millionen US-Dollar gesichert und seine Bewertung auf 600 Millionen US-Dollar vorangetrieben. Fonds. Die Kapitalinfusion zielt darauf ab, die AI-Modellbewertungsplattform zu kommerzialisieren und signifikant zu erweitern. Um immer mehr zu erstellen, ist die schwierige Frage nicht mehr, was AI tun kann. Bereits einen Spuren mit über vierhundert Modellbewertungen und mehr als drei Millionen Stimmen, die Modelle von Tech-Riesen wie Google, Openai, Meta und Xai beeinflussen. Ion Stoica, Mitbegründer und UC Berkeley-Professor, betonte die Rolle der Plattform und erklärte: „Die AI-Bewertung ist oft hinter der Modellentwicklung zurückgeblieben. Larena schließt diese Lücke, indem sie strenge, gemeinschaftsgetriebene Wissenschaft in das Zentrum bringt. Venture

Die Chatbot-Arena entstand zunächst Anfang 2023 von UC Berkeley’s Sky Computing Lab . Seine innovative Methode besteht darin, dass Benutzer die Ausgaben von zwei anonymen KI-Modellen blind vergleichen, wobei Stimmen über ein ELO-Bewertungssystem Rankings erzeugen. Dieser Ansatz machte seine öffentliche Rangliste schnell zu einer einflussreichen Ressource. Die Führung umfasst die jüngsten UC Berkeley-Postdoktoranden-Forscher Anastasios Angelopoulos und Wei-Lin Chiang neben Professor Stoica, einem Mitbegründer von Databricks und AnyScale. href=”https://a16z.com/announcing-our-latest-open-source-ai-grants/”target=”_ leer”> Open-Source AI-Zuschüsse , und ai Infrastructure firma zusammen ai/a>. A Beta-Version der LMARena-Website wurde ebenfalls gestartet, um die Benutzererfahrung zu verbessern. Spezialisten. Ein zentrales Problem ist, ob solche Abstimmungsmechanismen wirklich sinnvolle Modellqualitäten erfassen. Sie kommentierte weiter:”Chatbot Arena hat nicht gezeigt, dass die Abstimmung für eine Ausgabe über eine andere tatsächlich mit den Vorlieben korreliert, sie können jedoch definiert werden.”Diese Sorge wurde durch Kontroversen wie das LLAMA 4-Maverick-Modell von Meta verstärkt, bei dem das Unternehmen, wie Techcrunch berichtete, eine speziell abgestimmte Version bewertete, die den später veröffentlichten Standard übertraf. T

Die Abhängigkeit von unbezahlten Benutzerbeiträgen hat ebenfalls ethische Prüfung gezogen. Kristine Gloria, ehemals vom Aspen Institute, sagte gegenüber TechCrunch, dass solche Benchmarks”niemals die einzige Metrik für die Bewertung sein sollten”. Matt Frederikson von Grey Swan AI stimmte zu, dass öffentliche Benchmarks”kein Ersatz”für strenge interne Tests sind und eine klare Kommunikation von Entwicklern und Benchmark-Schöpfer beraten. Mitbegründer Wei-Lin Chiang sagte gegenüber TechCrunch:”Unsere Community ist nicht hier als Freiwillige oder Modellentester.”Er erklärte, dass Benutzer sich mit Larena für seine offene und transparente Umgebung für KI-Interaktion und kollektives Feedback beschäftigen. Voreingenommen gegenüber (oder gegen) jeden Anbieter und wird die Präferenzen unserer Gemeinde durch Design treu widerspiegeln. Anastasios Angelopoulos hat auch eine Vision für Larena als Ort für alle artikuliert, um AI zu erforschen und zu vergleichen. Zu den Plänen gehören die Verbesserung der Unterstützung für offene Forschung und die Einführung von spezialisierten Testarenen wie Webdev Arena, Repochat Arena und Sucharena. Zukünftige Projekte zielen auf Sichtmodelle, KI-Agenten und KI-Red-Team-Übungen ab. In Bezug auf sein Geschäftsmodell zeigte Ion Stoica zu