🧬 注意力的进化注意力的进化 · 第2期

AI 为何开始'选择性失明'——稀疏注意力的诞生

2026年5月20日 · 阅读约 2 分钟

AI 为何开始”选择性失明”——稀疏注意力的诞生

「注意力的进化」· 第2篇

从 Transformer 的全量注意力到 Mamba 的选择性机制

2023 年底，一篇名为 Mamba 的论文在 AI 圈引起了巨大关注。

它的核心论点出奇地简单：Transformer 看了太多东西。

O(N²) 的全量注意力——每个 token 都要跟其他所有 token 计算关联。这在短文本上没问题，但在长文本上——100 万个 token 意味着 1 万亿次计算。

而 Mamba 的解决方案是：选择性机制（Selective State Space Model）——只关注与当前任务相关的信息，忽略不相关的内容。

这恰恰是人类注意力最核心的特征。

你此刻在读这篇文章。你的注意力放在这些字上。但同时——你忽略了椅子的触感、空调的嗡嗡声、窗外偶尔经过的汽车、手机屏幕边缘弹出来的通知预览。

你不是”没接收到”这些信号。你是主动过滤掉了。

这不是缺陷。这是进化设计出来的最优策略。如果每时每刻你都要处理所有感官输入，你会瞬间崩溃。Transformer 也是一样——O(N²) 在处理长上下文时正在撞墙。

稀疏注意力（Sparse Attention）、滑动窗口（Sliding Window）、选择性 SSM——不同路径，同一个目标：让 AI 学会不看。

这个范式转移的意义，不只是算力节省。它意味着 AI 正在学习一种更像人类的认知方式——不是”处理所有信息然后找出重要的”，而是”先判断什么值得处理，再把注意力分配过去”。

稀疏注意力的诞生不是技术升级——是认知范式的转折。AI 从”暴力计算”转向”选择性处理”，跟人类注意力进化走的是同一条路。理解这个趋势，你就能理解 AI 未来五年的发展方向：不再追求”更大”，而是追求”更聪明地选择看什么”。

参考：Mamba (Gu & Dao, 2023)、FlashAttention (Dao et al., 2022)、Transformer (Vaswani et al., 2017)

你刚刚读的是注意力的进化第2篇——稀疏注意力的诞生。AI 从'全量注意'进化到'选择性注意'，跟人类注意力的运作方式惊人地相似。下一篇：AI 的记忆进化 vs 人类的遗忘危机。

继续阅读：