來自斯坦福大學和華盛頓大學的一組研究人員最近提出了一個新的推理的人工智能模型,稱為“ S1”。根據上週發表的一篇文章中報導的內容,該模型儘管預算有限,並且在短時間內開發了:只有26分鐘。
為了實現這一結果,研究人員使用了一種稱為“蒸餾”的技術,該技術使您可以通過利用較大模型的知識來訓練較小的IRS模型。
雙子座的蒸餾
在這種情況下,S1使用Gemini 2.0 Flash思維實驗提供的答案,Google的推理模型。有趣的是,Google的服務條款禁止使用其蜜蜂開發競爭模型,但Google尚未對此事發表評論。
S1模型基於QWEN2.5,這是Alibaba Cloud的開源模型,並使用相對較小的數據進行培訓,僅包括1,000個問題。研究人員發現,更廣泛的數據集的使用並沒有導致模型性能的顯著改善。此外,S1訓練僅需僅使用16個NVIDIA H100 GPU,這類型的活動數量相對較低。斯坦福大學研究員尼克拉斯·穆尼基諾夫(Niklas Muennighoff)在該項目中工作,他說您可以以約20美元的價格租用所有東西。
其他S1開發中使用的關鍵技術是“測試時間縮放”,這允許模型在提供答案之前更長的時間內處理信息。Nvidia還談到了DeepSeek出來的。實際上,研究人員通過將“等待”一詞添加到其響應中,使該模型“思考”更長的時間,這種方法據他們說,這種方法在推理中提高了準確性。
S1獲得的結果是有希望的。根據研究人員的說法,“超過了O1-preiview(OpenAI模型)模型,涉及高達27%的競爭數學問題”模型。同時,是否也有待理解DeepSeek確實是通過蒸餾而創建的這種法律影響可能會發現這種類型的發現。
你怎麼認為?在下面的評論中告訴我們您。