🌳 注意力解码注意力解码 · 第3期

你花 4 万美元买的英伟达显卡，里面到底有什么？

2026年6月8日 · 阅读约 2 分钟

一篇你读完之后，终于能听懂”GPU 架构”四个字的文章。

哈喽大家好。

你有没有想过一个问题：英伟达一张 H100 卖 4 万美元，还被抢爆。这张卡里面有 800 亿个晶体管。800 亿个啊——全世界每人分 10 个还有剩。

但这么多晶体管，到底在里面干什么？

今天咱们不聊股价，不聊泡沫，不聊 Sam Altman 又说了什么。咱们从零开始，用最简单的逻辑，一步一步搭出一颗 AI 芯片。

这期内容的”老师”叫 Reiner Pope——前 Google TPU 架构师，现在自己创业做 AI 芯片。他在 Dwarkesh Podcast 上拿粉笔和黑板讲了一个半小时，从逻辑门讲到 GPU，全程无尿点。

我帮你浓缩成 7 步。每一步只看一张图、记住一个比喻。

芯片 = 工厂。 把这个比喻焊在脑子里，咱们出发。

第 1 步：逻辑门——芯片的”字母表”

你可能会问：芯片最底层是什么？

不是硅。是逻辑门。

跟门、或门、非门——三个最基础的操作。跟门：两个输入都是 1，输出才是 1（“两个人都同意才干”）。或门：至少一个输入是 1，输出就是 1（“有一个人想干就干”）。非门：输入 1 输出 0，输入 0 输出 1（“反着来”）。

就这三个。芯片里 800 亿个晶体管，说白了就是把这三种门复制粘贴了 800 亿次。

说白了就是： 芯片的字母表只有三个字母。所有复杂的东西，都是这三个字母写出来的。

三个逻辑门怎么变成能做数学题的芯片？

把它们拼成一个”乘法累加器”——MAC。

MAC 干一件事：把两个数相乘，再把结果加到一个总数上。就这一件事。

但注意——矩阵乘法就是无数个 MAC 的嵌套循环。 而 AI 模型跑一次推理，99% 的计算都是矩阵乘法。

所以一个 AI 芯片，本质上就是尽可能多地塞 MAC 单元，然后让它们以最快的速度干活。

本文共 7 步，从逻辑门到完整 GPU 架构。每一步配图。完整版包含：数据流、缓存层级、并行计算、HBM 内存、以及为什么 NVIDIA 护城河这么深。

你刚刚读的是注意力解码第3期——从零开始了解芯片设计。7 步，从逻辑门到 GPU 架构。芯片 = 工厂，这个比喻应该已经焊在你脑子里了。

继续阅读：