多年來,假設純粹的計算能力將使它們保持領先地位,那麼人工智能研究一直由將數十億美元投入大量AI模型的公司主導。但是,斯坦福大學和華盛頓大學的一個新項目都在挑戰這種信念。
他們的最新模型S1接受了不到50美元的計算成本的培訓
與需要廣泛的基礎設施和幾個月培訓的專有模型不同,S1在30分鐘內僅使用16個NVIDIA H100 GPU進行了微調。
/p>
已經通過一個開放式github repository ,任何人都可以訪問任何人檢查,複製或改進。該項目對AI行業提出了一個關鍵的問題:在最高級別的競爭中仍然需要數十億美元的預算?
一種使OpenAI和Google的AI策略處於風險的模型
AI巨頭,例如OpenAI,Google和Microsoft,他們在AI模型培訓和基礎設施中都超過了競爭對手的能力。
OpenAI的O1型號和Google的Gemini 2.0 Flash設計有這種優勢。但是,S1的開發證明,高級推理能力可以以成本的一小部分複制。
S1背後的研究團隊使用了一種稱為蒸餾的技術,其中較小的模型經過培訓以模仿響應的響應
而不是從頭開始開發AI模型,他們採用了QWEN2.5-32B-Instruct,這是來自阿里巴巴的QWEN AI實驗室的免費可用模型數學和推理問題。
值得注意的是,數據集是使用Google的Gemini 2.0 Flash思維實驗模型生成的。如 S1研究論文,“我們構造S1K從雙子座思考實驗中蒸餾出的痕跡和答案。”
相關: Google釋放Gemini 2.0 Pro實驗和新2.0 Flash-Lite AI模型
而Google提供免費訪問此模型,其服務條款禁止使用其輸出來開發競爭AI模型。模型
儘管在相對較小的數據集上進行了培訓,但S1的性能水平與OpenAI和DeepSeek的模型相當。
在AIME24基准上,該基準測量了AI數學問題-解決能力,S1的精度得分為56.7%,超過OpenAI的O1-preview,在Math500基准上,S1的得分為44.6%,S1達到了93 %的精度,與DeepSeek R1的結果相匹配。
,該模型在更廣泛的科學知識中顯示出一些局限性。在包含高級物理,生物學和化學問題的GPQA-DIAMOND基准上,S1得分為59.6%,落後於OpenAI和Google的型號。