欢迎您访问欢迎来到沄森网,沄森智能旗下资讯平台!今天是:2026年03月22日 星期日 农历:丙午(马)年-二月-初四
您现在的位置是:首页 > 头条

马斯克说这就是kimi 点赞中国AI技术论文

沄森™2026-03-21
科技博主Avi Chawla在X上发了一条长帖,详细拆解了月之暗面Kimi团队刚刚发布的一篇技术报告。帖子发出后不久,马斯克回复说:“月之暗面做出了令人印象深刻的结果”

科技博主Avi Chawla在X上发了一条长帖,详细拆解了月之暗面Kimi团队刚刚发布的一篇技术报告。帖子发出后不久,马斯克回复说:“月之暗面做出了令人印象深刻的结果”。马斯克在AI领域的表态向来以挑剔著称,甚至曾批评过Anthropic和OpenAI。他自己的xAI最近也在经历大规模重组,多位华人联合创始人离职,Grok的表现也不尽如人意。然而,在这个关键时刻,他对一家中国AI公司的技术论文表示认可,确实出人意料。

马斯克说这就是kimi

被马斯克点赞的这篇论文实际上是一篇纯粹的技术论文,它提出了一种新的方式,试图替换掉Transformer架构里一个自2015年以来几乎没人动过的基础组件。尽管普通用户可能不会直接感受到这篇论文的影响,但它触及了整个深度学习的基石。

马斯克说这就是kimi 点赞中国AI技术论文

要理解这篇论文的内容,需要了解现代大语言模型,无论是GPT、Claude还是国内的一些模型,其底层架构都是Transformer。Transformer之所以能训练到几十层甚至上百层而不崩溃,是因为“残差连接”机制在起作用。残差连接的原理是每一层网络在做完计算后,将自己的输出和输入加在一起传到下一层,这样梯度在反向传播时可以直达底层,不会因为层数太深而消失。但这种“加法”是完全平等的,导致早期层的信息逐渐被稀释,后期层的信息变得不稳定,这就是所谓的“PreNorm稀释”。

马斯克说这就是kimi 点赞中国AI技术论文

Kimi团队注意到这个问题,并提出了一种新的方法——全注意力残差。具体做法是给每一层赋予一个可学习的查询向量,这个向量会对之前所有层的输出做一次注意力计算,产生一组归一化的权重。当前层的输入不再是之前所有层输出的简单求和,而是按照这组权重的加权组合。然而,全注意力残差在实际应用中存在内存和通信开销问题,因此他们又提出了块注意力残差,将所有层分成若干个块,每个块内部使用传统的残差连接,块与块之间使用注意力机制选择性聚合。这样只需要存储和传输每个块的汇总表示,大大降低了内存占用。

所有文章未经授权禁止转载、摘编、复制或建立镜像,违规转载法律必究。

举报邮箱:1002263188@qq.com