更新时间:2025-05-20 01:00作者:佚名
最近,美国计算机科学家推出一种新的推理模型来生产最便宜的高性能AI模型的竞争正在加热,其中包括著名的“人工智能教母” Feifei Li,该模型在阿里巴巴的开源技术的支持下获得了不到50美元的培训。
根据上周发表的一份研究论文,S1推理模型是由斯坦福大学和华盛顿大学的研究人员根据中国电子商务巨头QWEN2.5-32B-INSTRUCT模型开发的。

该论文说,在收到了1000个精心计划的问题的答案和Google的Gemini-ink-Exp模型所完善的“思考过程”之后,S1模型在数学和编程技能方面的O1-preview优于OpenAi的O1-preview。根据研究中提到的计算,仅运行GPU以开发S1的成本低至14美元,并且该模型在16个NVIDIA H100上训练了26分钟。这些筹码可以以每小时2美元的价格租用。加利福尼亚大学伯克利分校的计算机科学家Pang Jiayi说,以如此低成本(关于纽约熟食店的三明治价格)训练强大的推理模型的关键是基本模型。他说:“基本模型的质量是关键。”当他的团队启动一个项目时,潘得出了这个结论,该项目还建立在一系列QWEN2.5型号上,而花费约为30美元。通过使用强化学*,PAN的团队从Qwen25变化,该Qwen25使用了5亿个参数版本,更改为70亿个参数版本。潘在X上说,一旦使用了15亿个参数模型,它就开始“学*搜索,自我验证和修改其解决方案以获得更高的分数”。S1和Tinyzero选择了阿里巴巴的QWEN2.5,因为该模型的开源代码允许任何人允许任何人访问和修改基本模型,并且其性能良好。阿里巴巴云在9月首次推出了QWEN2.5系列,尺寸从5亿个参数到720亿个参数不等。参数是指人工智能系统训练过程中存在的变量。 AI模型的复杂性和有效性在很大程度上取决于培训过程中涉及的参数规模。在发布时,QWEN2.5-72B是该系列中最大的产品,其性能优于其他开源竞争对手,其中包括Meta平台的Llama3.1-405B,该竞争者要大得多。根据当时进行的基准测试,其性能也可与顶级封闭源模型(例如Microsoft支持的OpenAI和亚马逊支持的人类众多)相提并论。去年,它成为全球最大的深度学*和人工智能模型社区的拥抱面孔下载最多的模型,并取代了Meta的Llama系列,作为世界各地研究人员和开发人员的首选选择,解释了为什么通过对Qwen Models进行实验来增强对AI系统的类似努力。诸如OpenAI的GPT系列之类的顶级模型不是开源的,不能下载此类研究。在本月早些时候发表的一篇论文中,上海Jiaotong University的计算机科学家展示了一种使用高质量培训样本增强人工智能系统推理能力的方法,并且该实验还使用QWEN模型作为基础。加拿大滑铁卢大学计算机科学助理教授Wenhu Chen说:“ QWEN模型肯定有一些神奇的东西。”他在X上写道,他的团队试图用相同的数据质量方法训练其他模型,但几乎没有任何东西。