Lmarena, uma startup girada do influente projeto de arena de chatbot da UC Berkeley, garantiu US $ 100 milhões em financiamento de sementes, impulsionando sua avaliação a US $ 600 milhões. Fundo. A infusão de capital tem como objetivo comercializar e expandir significativamente a plataforma de avaliação do modelo de IA. Corrida para construir modelos cada vez maiores, a questão difícil não é o que a IA pode fazer. A plataforma já deixou uma marca, com mais de quatrocentos avaliações de modelos e mais de três milhões de votos, influenciando modelos de gigantes da tecnologia como Google, OpenAi, Meta e Xai. ION STOICA, co-fundador da Lmarena e Professor da UC Berkeley, enfatizou o papel da plataforma, afirmando:”A avaliação da IA geralmente ficou para trás do desenvolvimento do modelo. Lmarena fecha essa lacuna, colocando rigorosas e generalizadas em uma integridade mais rápida. Venture
chatbot arena emergiu inicialmente no início de 2023 do UC Berkeley’s Sky Computing Lab . Seu método inovador envolve os usuários comparando cegamente os resultados de dois modelos de IA anônimos, com votos gerando rankings por meio de um sistema de classificação ELO. Essa abordagem rapidamente tornou sua tabela de classificação pública um recurso influente. A liderança inclui os recentes pesquisadores de pós-doutorado da UC Berkeley Anastasios Angelopoulos e Wei-Lin Chiang, ao lado da professora Stoica, co-fundadora de banco de dados e qualquer escala. href=”https://a16z.com/announcing-our-latest-open-source-ai-grants/”Target=”_ Blank”> A IA de fonte aberta concede , e ai infraestrutura da empresa Versão beta do site Lmarena Também foi lançado para melhorar a experiência do usuário. especialistas em ética. Uma preocupação central é se esses mecanismos de voto realmente capturam qualidades significativas de modelos. Ela comentou ainda:”O Chatbot Arena não mostrou que o voto em uma produção sobre outro realmente se correlaciona com as preferências, no entanto, eles podem ser definidos”. Essa preocupação foi amplificada por controvérsias como o Modelo Maverick do Llama 4 da Meta, onde, como o TechCrunch relatou, a empresa comparou uma versão especialmente ajustada que superou o padrão lançado mais tarde.
A confiança nas contribuições de usuários não pagos também desenhou escrutínio ético; Kristine Gloria, anteriormente do Instituto Aspen, disse ao TechCrunch que tais benchmarks”nunca deveriam ser a única métrica para avaliação”. Matt Frederikson, da Grey Swan AI, concordou que os benchmarks públicos”não são um substituto”para testes internos rigorosos e aconselhou a comunicação clara de desenvolvedores e criadores de referência. O co-fundador Wei-Lin Chiang disse ao TechCrunch:”Nossa comunidade não está aqui como voluntários ou testadores de modelos”. Ele explicou que os usuários se envolvem com o LMARENA por seu ambiente aberto e transparente para interação e feedback coletivo da IA. Seja tendencioso para (ou contra) qualquer provedor e refletirá fielmente as preferências de nossa comunidade por design. Anastasios Angelopoulos também articulou uma visão para Lmarena como um lugar para todos explorarem e comparam a IA. Os planos incluem o aprimoramento do suporte para pesquisas abertas e a introdução de arenas de testes especializados, como WebDev Arena, Repochat Arena e Search Arena. Projetos futuros direcionarão modelos de visão, agentes de IA e exercícios de time vermelho da IA. Em relação ao seu modelo de negócios, a ION STOICA indicada para BLOOM> BLOOM> plataforma.