Deepseek libera el modelo Masivo 671B Prover V2 para el teorema matemático que demuestra antes del lanzamiento de R2

El laboratorio de IA chino Deepseek ha lanzado Deepseek-Prover-V2-671b, un modelo de idioma excepcionalmente grande dirigido a la prueba de teorema matemático, lo que lo pone a disposición en

Provergue-Prover-V2-671b parece por delante de su próximo lanzamiento de su próximo modelo de razonamiento. El despliegue anterior a lo planeado, mientras lucha contra las regulaciones estadounidenses y europeas e intensificando la competencia de Openai, Google, Anthrope, XAI y Alibaba.

eficiencia bajo las restricciones

Estas restricciones de hardware, limitando el acceso a los niveles de NVIDIA de nivel superior, como el contocutal de los niveles, aparece en el fondo de la protocencia de los niveles más profundos y H100. eficiencia. La compañía incorporó técnicas como atención latente múltiple (MLA): un enfoque diseñado para manejar eficientemente largas secuencias de datos (hasta 128,000 tokens en su modelo base V3) y cuantización FP8, un formato numérico de baja precisión que reduce src=”https://winbuzzer.com/wp-content/uploads/2025/01/deepseek.jpg”>

Este enfoque de eficiencia se destacó previamente cuando DeepSeek abre abierto de infraestructura, como el kernel de atención Flashmla, y el sistema de archivos distribuido 3FS en abril de 2024. Entrenado en un grupo sustancial de 2048 GPU de NVIDIA H800, de acuerdo con su informe técnico .

AI toca matemáticas formales

Deepseek-prover-v2-671b no es un chatbot general, sino un sistema altamente especializado dirigido al teorema formal, utilizando específicamente el Lean 4 Assistant Language . Lean 4 es una herramienta interactiva utilizada para formalizar las definiciones y pruebas matemáticas y verificar su corrección computacionalmente.

Es un poderoso asistente de prueba y un lenguaje de programación que proporciona el marco para expresar argumentos matemáticos de forma formal y computacionalmente verificación de su corrección. Deepseek-Prover-V2 interactúa con este marco, probablemente generando o sugiriendo pasos de prueba en la sintaxis Lean 4, que luego se verifican por el entorno Lean 4 en sí para garantizar la solidez lógica. Esta sinergia tiene como objetivo hacer que la compleja tarea de verificación formal sea más manejable.

El modelo utiliza un total masivo de 671 mil millones de parámetros totales, distribuidos en el seguro Safetensors formato. Sin embargo, su arquitectura de mezcla de expertos (MOE), una entrada de enrutamiento de diseño solo para un subconjunto de parámetros, los sigles solo una fracción está activa durante la inferencia, equilibrando la escala con el costo computacional.

Las aplicaciones potenciales incluyen generar automáticamente pruebas paso a paso, detectar errores en las pruebas existentes, impulsar la enseñanza y ayudar a los investigadores. Esto se basa en el trabajo previo de Deepseek, incluido el parámetro 7B Deepseek-prover-v1.5 (en agosto de 2024), que las técnicas de uso como el aprendizaje de la refuerzo de la prueba de los comentarios de asistente de la prueba) para el recuerdo de la medición de asuntos (RLPAF) para el año 4, una vez. href=”https://arxiv.org/abs/2405.14333″Target=”_ Blank”> Prover Work (mayo 2024).

Este enfoque difiere de otros sistemas de IA matemáticos de alto perfil recientes. Alphageometry2 de Google Deepmind, que recientemente superó a los medallistas de oro humano en problemas de geometría de la Olimpiada Matemática Internacional (OMI), emplea una arquitectura híbrida que combina un modelo de lenguaje Géminis afinado con un motor de razonamiento simbólico dedicado (DDAR).

Alphageometry2 también se basó en gran medida en generar grandes cantidades de datos de entrenamiento sintético (más de 300 millones de teoremas y pruebas) para lograr su rendimiento en los problemas de geometría de estilo competencia. Deepseek’s Prover Models ( v1.5 y v1 <<<<<<

Deepseek libera el modelo Masivo 671B Prover V2 para el teorema matemático que demuestra antes del lanzamiento de R2

Published by All Things Windows on April 30, 2025

eficiencia bajo las restricciones

AI toca matemáticas formales

IT Info

Corrección: la integridad de la memoria está apagada porque el controlador E1G6032E.Sys es incompatible en Windows 11.

IT Info

Google explora el aprendizaje de idiomas contextuales con herramientas experimentales de IA Géminis

IT Info

La Casa Blanca explota Amazon sobre planes para mostrar el costo de la tarifa en las páginas de productos”acto hostil y político”

Deepseek libera el modelo Masivo 671B Prover V2 para el teorema matemático que demuestra antes del lanzamiento de R2

Published by All Things Windows on April 30, 2025

eficiencia bajo las restricciones

AI toca matemáticas formales

Related Posts

IT Info

Corrección: la integridad de la memoria está apagada porque el controlador E1G6032E.Sys es incompatible en Windows 11.

IT Info

Google explora el aprendizaje de idiomas contextuales con herramientas experimentales de IA Géminis

IT Info

La Casa Blanca explota Amazon sobre planes para mostrar el costo de la tarifa en las páginas de productos”acto hostil y político”