🌳 注意力解码 注意力解码 · 第3期

你花 4 万美元买的英伟达显卡,里面到底有什么?

· 阅读约 2 分钟

你花 4 万美元买的英伟达显卡,里面到底有什么?

一篇你读完之后,终于能听懂”GPU 架构”四个字的文章。


哈喽大家好。

你有没有想过一个问题:英伟达一张 H100 卖 4 万美元,还被抢爆。这张卡里面有 800 亿个晶体管。800 亿个啊——全世界每人分 10 个还有剩。

但这么多晶体管,到底在里面干什么?

今天咱们不聊股价,不聊泡沫,不聊 Sam Altman 又说了什么。咱们从零开始,用最简单的逻辑,一步一步搭出一颗 AI 芯片。

这期内容的”老师”叫 Reiner Pope——前 Google TPU 架构师,现在自己创业做 AI 芯片。他在 Dwarkesh Podcast 上拿粉笔和黑板讲了一个半小时,从逻辑门讲到 GPU,全程无尿点。

我帮你浓缩成 7 步。每一步只看一张图、记住一个比喻。

芯片 = 工厂。 把这个比喻焊在脑子里,咱们出发。


第 1 步:逻辑门——芯片的”字母表”

你可能会问:芯片最底层是什么?

不是硅。是逻辑门。

跟门、或门、非门——三个最基础的操作。跟门:两个输入都是 1,输出才是 1(“两个人都同意才干”)。或门:至少一个输入是 1,输出就是 1(“有一个人想干就干”)。非门:输入 1 输出 0,输入 0 输出 1(“反着来”)。

就这三个。芯片里 800 亿个晶体管,说白了就是把这三种门复制粘贴了 800 亿次。

说白了就是: 芯片的字母表只有三个字母。所有复杂的东西,都是这三个字母写出来的。


第 2 步:MAC 单元——芯片里最忙的”工人”

三个逻辑门怎么变成能做数学题的芯片?

把它们拼成一个”乘法累加器”——MAC。

MAC 干一件事:把两个数相乘,再把结果加到一个总数上。就这一件事。

但注意——矩阵乘法就是无数个 MAC 的嵌套循环。 而 AI 模型跑一次推理,99% 的计算都是矩阵乘法。

所以一个 AI 芯片,本质上就是尽可能多地塞 MAC 单元,然后让它们以最快的速度干活。


本文共 7 步,从逻辑门到完整 GPU 架构。每一步配图。完整版包含:数据流、缓存层级、并行计算、HBM 内存、以及为什么 NVIDIA 护城河这么深。

🧭 认知导航

你刚刚读的是注意力解码第3期——从零开始了解芯片设计。7 步,从逻辑门到 GPU 架构。芯片 = 工厂,这个比喻应该已经焊在你脑子里了。