AI无法真正理解化学？北大超级试卷揭开了大模型的华丽短板

更新时间：作者：小小条

那个周末，北大化学系的174名大二学生收到一条不同寻常的通知：他们期中考的“竞争对手”将包括GPT-5、Gemini、DeepSeek等多款全球顶尖AI模型。这场在云端和教室同步进行的考试，使用的是一套名为SUPERChem的“北大试卷”，由近百名师生耗时良久精心设计，目的就是要检验AI在科学推理上的真实水平。

考试结果让人颇感意外。北大化院本科生的平均准确率为40.3%，而表现最好的AI模型GPT-5 (High)准确率为38.5%，仅与低年级本科生的平均水平相当。这个数字清晰地划出了一条界线：即便是最聪明的AI，在需要深度推理的化学难题面前，也还没能超越人类的基础专业认知。

北大团队之所以要重新设计500道高难度题目，原因很简单——“大模型太会‘背书’了”。网络上随手可得的公开题库早已被AI在训练阶段熟记于心，无法真正考出它的推理能力。化学这门学科，恰恰不能只靠死记硬背，它需要严密的逻辑推演和对微观世界的空间想象。

SUPERChem的题目源自高难度非公开试题和专业文献的深度改编，覆盖晶体结构解析、反应机理推演、物化性质计算等核心领域。出题团队中不乏奥赛金牌得主，他们搭建了一个协作平台，让出题、审题、修题变成像游戏打怪升级一样的流程。一道题目从初稿到终审，最多迭代了15个版本，确保每道题都具备高门槛、重推理、防作弊的特点。

化学的语言是图形，分子结构图、反应机理图都蕴含着关键信息。但研究发现，视觉信息对AI模型的影响是一把“双刃剑”。对于Gemini-2.5-Pro这类强推理模型，图像输入能帮助提升准确率；但对某些模型而言，图像信息反而造成了干扰，导致准确率不升反降。这说明，AI在将视觉信息转化为化学语义时，仍存在明显的感知瓶颈。

为了探究AI是不是真“懂”，团队引入了推理路径一致性（RPF）指标，为每道题目都标注了详细的评分规则和关键检查点。分析发现，即便选对了答案，AI的解题步骤也常常经不起推敲。像DeepSeek-V3.1-Think这类模型，虽然准确率接近，但其RPF得分相对较低，更倾向于通过启发式路径得出结论，而非严谨的专家逻辑。

通过细粒度的推理断点分析，团队发现AI的推理链条往往断裂于一些高阶化学推理环节，比如产物结构预测、反应机理识别以及构效关系分析。这反映出当前大模型虽然拥有海量知识储备，但在处理需要严密逻辑和深刻理解的硬核化学问题时，仍显得力不从心。它们的失败并非倒在后续复杂步骤，而是在理解反应性与分子结构这些核心任务上就出现了短板。

就在同一天，另一条科技新闻引发关注。特斯拉中国在上海发布了一则招聘启事，为Robotaxi（自动驾驶出租车）项目招募低压电器工程师。这个岗位负责设计控制自动驾驶出租车电气系统的核心电路板，被业内视为特斯拉在华推进自动驾驶服务的关键信号。

特斯拉的Cybercab自动驾驶车型已在今年11月的上海进博会完成亚太首秀，并计划于2026年第二季度启动量产。这款为无人运营场景设计的车型配备了无线充电技术和机械臂自动清洁功能。特斯拉在上海的两座超级工厂，特别是产业链本土化率已达95%的整车工厂，为其在中国市场的深度布局提供了坚实基础。

技术狂奔的同时，制度与规则的适应也在同步进行。北京市劳动人事争议仲裁委员会近期公布的一个典型案例明确裁定：企业以AI替代岗位为由解除劳动合同，不属于“客观情况发生重大变化”，构成违法解除[citation:用户消息]。仲裁委员会指出，技术替代引发的岗位调整本质属于企业经营决策范畴，应优先通过协商变更合同、提供技能培训或内部岗位调剂来安置劳动者[citation:用户消息]。

在自动驾驶领域，责任划分成为新的焦点。深蓝汽车董事长邓承浩谈到L3级自动驾驶时表示，从L2到L3是责任主体的巨大跨越[citation:用户消息]。 L3时代，责任主体将涉及车主、车企以及自动驾驶系统供应商，关系复杂得多[citation:用户消息]。他认为，交通法规和保险体系都需要随之完善，这是中国智能网联电动汽车发展的必经过程[citation:用户消息]。目前，深蓝汽车取得的L3级自动驾驶牌照车辆仍属“探索期”，必须配备专业驾驶员，尚未向普通消费者开放[citation:用户消息]。

Anthropic联合创始人Jack Clark观察到，AI技术正引发一种“平行世界”式的分化[citation:用户消息]。他描述了自己使用Claude Code在几分钟内“一键生成”复杂软件的经历，这种高效与十年前需耗费数周的情况形成鲜明对比[citation:用户消息]。然而，这种技术红利并非均等惠及所有人[citation:用户消息]。

绝大多数公众对AI的使用仍停留在被动消费合成内容或询问基础问题的层面，而真正能够触及技术核心、利用前沿AI系统的人群，需要具备强烈的好奇心、将其转化为具体指令的能力以及大量的实验时间[citation:用户消息]。这道由“好奇心与时间”构成的鸿沟，正使得熟练掌握AI的群体与普通用户之间的体验差异越来越大[citation:用户消息]。

当我们的生活在表面上一如既往——社交媒体依然充斥着普通图片和网络迷因，街上还没有漫天飞舞的无人机——技术的底层逻辑其实已被重写[citation:用户消息]。 AI在专业测试中表现出的“力不从心”，自动驾驶在责任认定上的“复杂博弈”，以及技术红利分配引发的“平行世界”担忧，都指向一个核心问题：我们是否准备好接纳一个真正理解物理世界、并能自主行动的智能体？当AI不止于“聊天”，而开始“动手”时，社会的规则、人类的技能，乃至我们定义“理解”的方式，都将面临前所未有的考验[citation:用户消息]。

特斯拉Robotaxi中国招聘引爆猜想，自动驾驶时代真的来了？

上一篇：留学生申请美国绿卡流程（美国留学生怎样才能获得绿卡）

下一篇：姚顺雨高考数学睡觉错失状元向老师道歉，妈妈是知识分子

美国留学