更新时间:作者:小小条

这不是一篇只给专家看的论文解读,也不是一篇只讲故事的入门文章。
它试图做三件事:
如果你觉得“矩阵、流形、物理定律”听起来很吓人,请先记住一句话:
我们想做的事,只是给虚拟世界也装上一套“物理规则”,让它既有创造力,又不会崩溃。
先回到那条高速公路。
传统神经网络:像一条笔直的主车道,车(信号)必须一站一站往前开。ResNet 做了一件很简单的事:用公式写就是:
xl+1=xl+F(xl)x_{l+1} = x_l + F(x_l)xl+1=xl+F(xl)
这里的关键信息有两点:
有一条恒等映射通路:x_l 原封不动地加到输出里。不管网络有多深,原始信号 x_0 都会以“1倍权重”出现在最深层输出中。这条“恒等通路”就是 ResNet 能在上百层、上千层仍然可训练的本质原因。
可以把它看成:系统里有一个永远守恒的量。
Hyper-Connections(HC)提出了一个看似合理的想法:
一条应急车道这么好用,那我不如一次性扩成 4 条、8 条,让信息在多条通道里并行流动。
为此,HC 在每一层引入了三个可学*的矩阵:
H_pre:入口分流器,把输入拆成多条流H_res:车道混合器,让多条流之间互相混合H_post:出口汇合器,把多条流再合成输出抽象公式可以写成(只看主干):
xl+1=Hres(l)xl+…x_{l+1} = H_{\text{res}}^{(l)} x_l + \dotsxl+1=Hres(l)xl+…
问题来了:
在 ResNet 中,主干那条“通道”的系数永远是 1;在 HC 中,主干变成了 H_res^L ⋯ H_res^1 的矩阵连乘——每一层都可以随意放大或缩小信号。在大模型上实测结果非常惊人:
某些层组合的放大倍数可以到 3000 倍;反向传播中的梯度也会被连乘放大;训练曲线中途会出现“陡崖式爆炸”,直接崩溃。通俗一点说:
从单车道扩到多车道没错,
但你把每一个红绿灯都变成“完全听自己心情”的 AI,
剩下的就只能交给运气了。
DeepSeek 的 mHC 做的是一件非常聪明的事情:
不放弃多车道,只是给中间那个最危险的“车道混合矩阵 H_res”套上一个严格的数学规则:
它必须属于双随机矩阵流形(Birkhoff 多面体)。
双随机矩阵的定义是:
每一行加起来等于 1;每一列加起来也等于 1;所有元素非负。这就像是说:
从“输入通道”看:总流量守恒;从“输出通道”看:总流量也守恒;中间不会凭空制造或吸走能量。数学上,这类矩阵有三个关键性质:
谱范数 ≤ 1:不会放大二范数(信号强度)乘积仍是双随机矩阵:多层连乘仍在同一个“守恒世界”里几何上是置换矩阵的凸组合:为了让每一层的 H_res 都满足这个规则,mHC 用了一个 1967 年就提出的算法——Sinkhorn-Knopp。
它的做法是:
实验结果非常硬:
原始 HC:最大放大倍数 ≈ 3000mHC:最大放大倍数 ≈ 1.6训练曲线从“随时爆炸”变成“平滑到底”,下游任务性能全面提升,训练时间只多 ≈6.7%。这就是“给自由套一个刚刚好的紧箍咒”的威力。
在物理世界里,有很多我们耳熟能详的定律:
能量守恒:能量不会凭空产生或消失动量守恒:孤立系统的总动量不变电荷守恒:正负电荷总量守恒这些定律的本质,是给自然界设定了硬性的边界。
你不能随便造能量、也不能让物体瞬间无限加速。
正因为这些“约束”存在,世界才不会乱成一团。
深度模型内部,其实也是一个世界,只不过一切都被写成了矩阵运算:
线性层:y = W x + b注意力:softmax(QKᵀ / √d) V残差:x + F(x)如果这些矩阵完全不受约束,就像 HC 那样:
理论上确实“自由最大”;但你很快就会面对训练不稳定、梯度爆炸、性能乱飘等问题。所以,我们可以把大模型设计的核心问题,写成一句非常直接的话:
在虚拟世界里,我们需要一套“矩阵版的物理定律”。
这些定律以“矩阵流形 / 矩阵族”的形式存在,
它们给出明确的边界,而数据和梯度在这个边界之内自由演化。
我们可以严肃地给出一个判断标准:
一个矩阵族要配称为“大模型的基座”,至少要满足以下 5 点:
就像物理世界不可能只靠“能量守恒”一个定律运行,
虚拟世界也不可能只靠“某一个矩阵”支撑起来。
因此:
“哪些矩阵可以做基座” = 哪些矩阵族满足上面 5 条;“哪些矩阵组可以成为最小单元” = 几个互补的矩阵放在一起,各司其职。下面列出的这几类矩阵族,都已经在数学与工程实践中被广泛使用,它们是构建“虚拟物理定律”的最好候选。
在 mHC 中,H_res 被强制限制在这一集合里,
结果是训练稳定性和下游性能都获得显著提升。
可以把它看成虚拟世界中的“能量守恒定律”。
它适合承担这样的角色:
作为特征变换层的默认约束:这是“几何不变定律”。
在模型中,它可以:
作为注意力中的核函数/度量;作为优化中的自然梯度预条件矩阵。可视为“度量与能量的细节定律”。
它适合做:
在固定基座上的任务适配 / 增量更新;控制参数量和计算量。是“有限自由度定律”。
在模型里,它们是:
注意力权重矩阵;MoE 中的专家路由;多模态融合中的权重分配。这是“流量分配定律”。
单个矩阵族只解决一个侧面的规则。
一个最小世界单元需要至少两个矩阵,共同完成“既有边界、又有自由”。
因此,一个最小单元至少需要:
一个矩阵负责“硬约束”(守恒/结构);一个矩阵负责“在约束内自由调整”(混合/适配)。组成:
H_res:双随机矩阵(能量守恒)Q:正交矩阵(几何不变)使用顺序非常重要:
先用 H_res:保证主路径信号不被放大到失控;在多条流之间以守恒方式混合。再用 Q:在不改变整体强度的前提下,重新组织特征空间。如果倒过来,先 Q 再 H_res,则双随机的守恒性质对“变形后的空间”不再那么清晰,这会让分析和直觉都变差。
组成:
S:稀疏结构矩阵(0/1 或模式),定义谁可以连接谁;P:随机矩阵(每行概率向量),定义如何在允许连接上分配权重。两者合成:
W=S⊙PW = S \odot PW=S⊙P
S 决定图结构:本地注意力、块稀疏注意力图神经网络中的邻接结构P 决定动态流量:注意力权重MoE 的路由 gate这是“大模型内部的信息网络是如何‘接线 + 选路’”的基本单元。
组成:
K:SPD 矩阵,负责定义局部度量 / 能量结构;L:低秩矩阵,负责在既定度量下的任务适配。可以这么理解:
先用 K 决定“这块空间的物理属性”(像地形、重力、介质);再用低秩的 L 对特定任务做精细调整(像往现有地形上修路)。每个组至少包含 2 个矩阵,这样才能“既做勾勾结,又能活”。
一个“基座化”的 Transformer 层,可以这样理解:
主残差分支: 由若干 EG 组串联(多层 H_res+Q),保证这层与上下层之间的稳定传递。注意力模块: 由若干 SR 组并联(不同头各自一组),定义 token 间交互和路由。任务 / 模态适配模块: 在部分层引入 MA 组,为特定任务或模态提供额外表达力。一个完整的大模型,就是:
若干模块(层) × 每个模块若干矩阵组 × 每个组 2–3 个矩阵
形成一个多层次、多基座协同的虚拟世界:
顶层:决定整体架构(有几条大路、几种交互模式)中层:决定每条路上的“交通规则”(能否调头、限速多少)底层:在每次具体运行中,数据与梯度在这些规则内自由流动、寻找最优路径。换句话说:
构成“矩阵基座世界”的每一块砖,单独看都已经被工业和学术界验证过,只是还没用“虚拟物理学 + 矩阵组”的框架统一描述。
基于现有成果,一条合理的路线是:
在已有 mHC 框架上,通过这样的路线,既避免一口吃成胖子,又能逐步验证“矩阵基座世界”的现实价值。
从我们一开始围绕 mHC 的讨论,到你提出“矩阵基座 / 矩阵组 / 虚拟物理规则”的问题,这篇文章试图给出的是一个可讨论、可修正、但已经足够清晰的起点——
真实世界靠物理定律维持有序,
虚拟世界的大模型,应当靠矩阵基座与矩阵组,
在“被约束的自由”中,稳定地生长出智能。
版权声明:本文转载于今日头条,版权归作者所有,如果侵权,请联系本站编辑删除