第21章你们看懂了吗？（1/2）

第5次回看题干。

齐物盯著题干里设置的核心障碍：退化临界子流形s以及海量零特徵值的hessian矩阵。

“高维鞍点陷阱……”

齐物已经猜出阿力八八遇到的难题了。

阿力八八在ai大模型的训练中，应该是梯度趋近於零时，导致优化器失效，然后ai死锁。

自2018年，openai发布gpt-1以来，ai正式进入大模型时代，全世界的网际网路巨头都在开发自己的大模型。

阿力八八自然也不意外。

“阿力八八肯定遇到了梯度消失和loss停滯的问题，並且迟迟无法解决。”

齐物看穿一切，“这道题就是在求救。”

“常规的加速器，不管是加动量还是adam，本质上还是依赖歷史梯度的惯性。但是在这种绝对平坦的鞍点陷阱里，歷史梯度早就消耗殆尽了，所以ai才会被死锁。”

第6次回看题干——

“题目要求构造一个纯几何的拓扑补偿项Ω(x)，不能改变全局极优解，还要能指数级逃逸……”

齐物陷入沉思，“不能顺著梯度走，那就必须製造一个和梯度正交的力？

引入空间的內蕴曲率，用拓扑扭矩把系统强行甩出去！”

齐物开始在草稿纸上推演。

“就像在平底锅里放了一颗玻璃球，平底锅太平了，球不动，常规做法是倾斜锅底（梯度下降），但是现在锅底卡死了，那么我就在锅里人为製造一个磁场，让球自己旋转起来！

利用——洛伦兹力逃逸！”

思路清楚了，齐物开始在latex里输入自己的答案。

————

与此同时，千里之外的杭城。

阿力八八西溪园区，达摩院ai大模型【九章】的核心研发中心。

大屏幕上，代表著阿里耗资百亿打造的下一代通用大模型【九章】的训练损失函数（loss曲线），正死死地卡在一个平缓的平台上，犹如一条死去的心电图，已经整整停滯了三个月。

“还是不行！张总，我们增加了学习率、引入了动量梯度下降，甚至使用了最新的adamw优化器，但是梯度流依然在11维度的张量特徵空间里打转！

彻底迷失了！”

高级算法研究员小林无奈地道。

达摩院首席ai科学家，张宙双手抱在胸前，眉头紧锁，站在屏幕前一言不发。

这是他从openai跳槽回国之后，开发的第一个大模型，没想到就遭遇了罕见的高位拓扑死锁。

在超高维度的参数空间里，模型陷入了一个巨大的鞍点陷阱，这就像是一辆汽车开进了一个四周都是平缓高地的盆地，无论怎么踩油门，都找不到冲向真正谷底的下坡路。

他和达摩院將近百名来自世界各个名校的博士、研究员，奋战了三个月，仍旧找不到那一丝破局的灵感。

loss降不下来，不仅仅是工程问题了，张宙觉得这是一个纯粹的数学死锁。

“张总，您执意要把死锁问题脱敏成数学题，塞进这次全球数学竞赛里，当预赛的压轴题，是否太冒失了呢？”

小林苦笑道，“咱们达摩院上百个博士都没解决，难道还指望参加预赛的人能在48小时之內解出来？

这无异於大海捞针啊。”

“不要小看民间的智慧。”

张宙嘆气道，“【九章】每天的训练成本高达数百万，咱们烧不起了，全球大赛匯聚了世界最聪明的大脑，哪怕有一个人能从纯数学的拓扑角度给我们提供一丝灵感，这都是值得的。

后台监控怎么样了？”

小林打开了赛事的后台实时数据。

【当前参赛总人数：125402人】

【压轴题回答人数：30人。】

本章未完，点击下一页继续阅读。

第21章 你们看懂了吗？（1/2）