Um novo artigo acadêmico em co-autor de pesquisadores das principais universidades e a Amazon entregou um aviso gritante à indústria de IA: os benchmarks que usamos para medir o progresso são fundamentalmente falhos. O estudo, publicado nesta semana, revela que os métodos de avaliação populares podem julgar incorretamente os verdadeiros recursos de um agente de IA em até 100 %. A pesquisa, uma colaboração entre mentes na UIUC, Stanford, MIT, Amazon e outros, questiona a própria base de como classificamos ai. Como afirma o artigo, “Muitos referências órgãos existentes podem acalmar o desempenho da IA ​​em até 100% devido a problemas na configuração de tarefas e no design de recompensa…”Essa descoberta sugere que a indústria pode estar perseguindo métricas enganosas.

Um novo estudo desafia as fundações da avaliação da IA ​​

o papel , titular”Titleding Pratics para construir as práticas de construção para o rigoroso. O primeiro é”Validade dos resultados”, onde um teste falha em confirmar se uma IA realmente conseguiu. A segunda,”validade da tarefa”, significa que a tarefa em si é falha, permitindo atalhos ou soluções triviais. Em outro, um agente trivial que não faz nada pode passar com sucesso 38% das tarefas, superando modelos mais sofisticados em certas métricas.

Essas falhas têm consequências tangíveis. O estudo constatou que os erros de pontuação podem inflar o desempenho relatado de um agente em até 100% em relação às suas verdadeiras habilidades. O efeito a jusante é uma distorção significativa das tabelas de classificação competitivas, onde os pesquisadores descobriram que os agentes podem ser mal classificados em até 40 %. Isso questiona a validade dos rankings que os laboratórios do Google ao Openai usam para reivindicar superioridade e orientar seus esforços de pesquisa. Essa estrutura fornece um conjunto de diretrizes rigorosas para criar avaliações mais sólidas cientificamente. O objetivo é injetar disciplina em um processo que se tornou um alto risco e, muitas vezes, criticou o esporte espectador. Lançado no Sky Computing Lab da UC Berkeley, tornou-se rapidamente um item básico da indústria. Sua nova abordagem usa comparações de modelos de crowdsourced e cegos frente a frente para gerar uma tabela de classificação baseada em ELO. O co-fundador da Lmarena, Anastasios N. Angelopoulos, descreveu a meta ambiciosa da empresa para a plataforma, afirmando:”Em uma corrida mundial para construir modelos cada vez maiores, a questão difícil não é mais o que pode fazer. Os críticos argumentam que um simples voto de preferência não é uma medida confiável da qualidade de uma IA. Emily Bender, professora de linguística da Universidade de Washington, expressou esse ceticismo ao TechCrunch. Preferências, no entanto, elas podem ser definidas.”

O co-fundador da LMARENA, Wei-Lin Chiang, empurrou essa caracterização, dizendo ao TechCrunch:”Nossa comunidade não está aqui como voluntários ou testadores de modelos, que usam o LM Arena, porque lhes damos um lugar aberto e transparente para se envolver com um feedback de uma coletiva. Avançar

A nova estrutura ABC visa ser o antídoto para essa incerteza. Ele fornece um conjunto concreto de práticas recomendadas, cobrindo tudo, desde garantir que as tarefas sejam projetadas adequadamente para verificar se as métricas de avaliação são robustas e não são facilmente giradas. Isso garante não apenas que o teste seja justo e os resultados sejam precisos, mas também que as limitações da referência sejam claramente comunicadas aos usuários. Ao implementar os princípios da ABC, eles reduziram a superestimação do desempenho da referência em 33 % significativos. Isso fornece uma prova clara de conceito para sua eficácia.

Esse movimento em direção à padronização e rigor é visto por muitos tão atrasados. O Ion Stoica, um co-fundador da Lmarena e professor de Berkeley, reconheceu que a lacuna que a plataforma visa preencher, afirmando: “A avaliação da IA ​​geralmente ficou para trás do desenvolvimento do modelo. Lmarena fecha essa lacuna, colocando a rigorosa e a integração da comunidade no centro. Tensão central na raça da IA: a necessidade de avaliação rápida e voltada para o público versus o ritmo mais lento e metódico da validação científica. A equipe de Lmarena se comprometeu publicamente com a justiça, com um post de blog declarando: “Nossa tabela de classificação nunca será tendenciosa para (ou contra) qualquer fornecedor e refletirá fielmente as preferências de nossa comunidade por design. Ele será orientado à ciência. Kristine Gloria, anteriormente do Instituto Aspen, alertou que tais parâmetros de referência”nunca deveriam ser a única métrica para avaliação”e deve ser uma ferramenta entre muitos. Como Matt Frederikson, da Grey Swan AI, aconselhou:”É importante para os desenvolvedores de modelos e os criadores de referência, crowdsourcing ou não, para comunicar os resultados claramente àqueles que seguem e respondem quando são questionados,”a nova pesquisa fornece uma ferramenta poderosa para ajudá-los a fazer isso, pressionando a indústria para uma contagem mais honesta de uma contabilidade de Ai.

Categories: IT Info