Durante anos, a pesquisa de inteligência artificial tem sido dominada por empresas que despejam bilhões em modelos maciços de IA, assumindo que o poder computacional puro os manteria à frente. Mas um novo projeto da Universidade de Stanford e da Universidade de Washington é um desafio essa crença. e Deepseek.”812″altura=”909″src=”Dados: imagem/gif; base64, r0lgodlhaqabaaaach5baekaaeaealaaaaabaaaaaaaaTtaaeaow==”>
Relacionado:
Seu código, metodologia e conjunto de dados foram disponibilizados através de Um repositório de github de fonte aberta , tornando-o acessível para qualquer pessoa inspecionar, replicar ou melhorar. O projeto levanta uma questão crítica para a indústria de IA: ainda é necessário um orçamento de vários bilhões de dólares para competir no nível mais alto?/Strong>
gigantes Ai como OpenAi, Google e Microsoft apostaram muito em sua capacidade de superar os concorrentes no modelo de treinamento e infraestrutura de modelos de IA. são projetados com essa vantagem em mente. No entanto, o desenvolvimento da S1 prova que os recursos de raciocínio de alto nível podem ser replicados por uma fração do custo. Um sistema de IA maior. Perguntas de matemática e raciocínio. Conforme declarado no S1 Pesquisa Artigo , “Construímos S1K, que consiste em 1.000 perguntas cuidadosamente curadas emparelhadas com raciocínio emparelhado com raciocina Rastrear e respostas destiladas de Gemini Pensing Experimental.”
Relacionado: O Google libera Gemini 2.0 Pro Experimental e New 2.0 Flash-Lite AI Models
Enquanto o Google fornece API gratuito Acesso a esse modelo, seus termos de serviço proíbem usando seus resultados para desenvolver modelos de IA concorrentes. Modelos
Apesar de terem sido treinados em um conjunto de dados relativamente pequeno, o S1 atinge os níveis de desempenho comparáveis aos modelos OpenAI e Deepseek. A capacidade de resolver, S1 alcançou uma pontuação de precisão de 56,7%, superando o Open-Preview da OpenAI, que obteve 44,6%. , o modelo mostra algumas limitações no conhecimento científico mais amplo. No benchmark GPQA-Diamond, que contém problemas avançados de física, biologia e química, o S1 obteve 59,6%, ficando atrás dos modelos Openai e do Google.://winbuzzer.com/wp-content/uploads/2025/02/s1-32b-benchmarks-aime-2024-math-500-gpqa-diamond-ftical.jpg”> S1 Referência de desempenho de desempenho em comparação com os modelos de IA líder dos modelos de AI de dos modelos de IA dos de partir de Google e OpenAI
Ainda, para um modelo treinado em menos de 30 minutos com computação mínima, esses resultados desafiam a suposição de que conjuntos de dados maiores e ciclos de treinamento mais longos são sempre necessários.
Um truque inesperado que Melhora o raciocínio da IA
A pesquisa também revelou uma descoberta inesperada de que melhorou a precisão de S1. Em vez de modificar o próprio modelo, eles experimentaram a forma como os avisos foram estruturados.’Aguarde’várias vezes para a geração do modelo quando tenta terminar. Isso pode levar o modelo a verificar sua resposta, geralmente corrigindo etapas de raciocínio incorretas.”
Simplesmente adicionando a palavra”aguarde”no prompt forçou S1 a gastar mais tempo considerando sua resposta antes de finalizar uma resposta. Essa abordagem está alinhada com pesquisas recentes sobre escala de tempo de teste , onde os modelos melhoram a precisão, alocando alocando Mais computação para tarefas complexas em vez de responder instantaneamente. Modelos como o S1 apresenta um desafio para empresas que investiram fortemente em sistemas de IA exclusivos..
No entanto, à medida que mais pesquisadores demonstram que os recursos de AI de alto nível podem ser replicados baratos, essas empresas podem procurar novas maneiras de proteger seus modelos de serem engenhados reversos ou destilados em concorrentes menores.
o OpenAI já mostrou sinais de acesso à sua tecnologia. Atualmente, a empresa restringe seu profundo recurso de pesquisa a usuários pagos do ChatGPT Pro, limitando a capacidade dos desenvolvedores de IA externos de estudar seus métodos. Enquanto isso, o Google impõe limites rígidos de taxa ao acesso à sua API Gemini 2.0 e proíbe explicitamente os modelos de IA concorrentes usando seus resultados. ou restrições legais para impedir que seus resultados gerados pela IA sejam usados para treinar outros sistemas. No entanto, a aplicação dessas regras em ambientes de pesquisa de IA de código aberto será extremamente difícil.