什么是ASIC?专用集成电路与GPU的区别
打开一台比特币矿机,看看里面的芯片,你会发现它只是一块功能单一的硅片:哈希运算。这就是它的全部功能。它无法运行网页浏览器,也无法解码Netflix视频流,更无法训练人工智能模型。但它唯一擅长的功能,其效率却比市面上任何通用芯片高出上千倍。这种硅片被称为ASIC,即专用集成电路(Application-Specific Integrated Circuit)的缩写。ASIC的应用远不止于加密货币领域,例如谷歌的数据中心、你手机里的无线调制解调器、特斯拉的自动驾驶电脑,以及你办公室里的每一台以太网交换机。本文将详细介绍ASIC的原理、设计过程、它与CPU、GPU或FPGA的区别、比特币挖矿为何在2013年就选择了ASIC,以及第一代ASIC与最新GPU的性能对比。
用一段话解释什么是ASIC。
ASIC(专用集成电路)是一种专为特定任务而设计、能效最高的芯片。它的全称是Application-Specific Integrated Circuit(专用集成电路),有时也写作Application Specific Integrated Circuit,不带连字符。一旦芯片设计在台积电或三星等代工厂蚀刻到硅片上,其逻辑电路就无法重新编程。每个晶体管的位置都由ASIC设计团队精确设定。这种设计牺牲了极致的灵活性,换来了极致的优化。像Antminer S21 Pro这样的现代比特币ASIC,每秒可以运行234万亿次SHA-256哈希运算,每太哈希耗能15焦耳,这是CPU、GPU或其他处理单元都无法企及的水平。谷歌的TPU(线程处理单元)就是一个ASIC。你手机里的无线调制解调器也是。用于加速最新消费电子产品中人工智能和机器学习的数字信号模块也都是ASIC。
ASIC 与 CPU、GPU 和 FPGA:通用权衡
要了解ASIC芯片与其他芯片的区别,最简单的方法就是将其与其他芯片进行比较。现代计算机的大部分工作都由四种类型的芯片完成,每种芯片在灵活性和效率之间权衡取舍的比例各不相同。
CPU(中央处理器)是笔记本电脑中的芯片。它可以运行任何程序。但缺点是,它的单次任务每瓦性能并不突出。GPU(图形处理器)专为并行计算而设计。相同的运算可以同时在数千个小型核心上运行。这非常适合图形处理、机器学习和抗ASIC的加密货币挖矿。FPGA(现场可编程门阵列)是一种芯片,其逻辑门可以在制造完成后使用硬件描述语言(HDL)(例如Verilog或VHDL)进行重新编程。FPGA在能效方面介于GPU和ASIC之间,其优势在于可重新配置。ASIC大规模生产的单芯片成本远低于FPGA,但前期非经常性工程费用(NRE)非常高昂。ASIC是最终选择。逻辑固定。每瓦性能最大化。完全没有灵活性。设计人员针对特定工作负载优化芯片,然后就大功告成了。
| 芯片类型 | 灵活性 | 固定任务的性能/瓦特 | 典型用途 | 例子 |
|---|---|---|---|---|
| 中央处理器 | 运行任何软件 | 最低 | 操作系统,通用代码 | 英特尔至强处理器,AMD Ryzen处理器 |
| GPU | SIMD 并行可编程 | 中 | 图形处理、机器学习训练、抗ASIC挖矿 | NVIDIA RTX 4090 |
| FPGA | 可重编程逻辑 | 高的 | 原型制作、电信、高频交易、小批量定制 | Xilinx Versal、Intel Agilex |
| 专用集成电路 | 固定功能硅 | 最高 | 比特币挖矿、谷歌TPU、网络交换机 | 蚂蚁矿机 S21,谷歌 TPU v5 |
一旦你理解了那张表格,本文的其余部分就都是应用方面的内容了。当工作负载固定、数据量巨大,并且工作负载保持稳定足够长的时间以证明流片的合理性时,ASIC芯片就具有优势。一旦工作负载发生变化,ASIC芯片就会失去优势。

ASIC开发:从RTL到硅晶圆
ASIC芯片的设计过程缓慢、昂贵,而且几乎是单向的。整个流程大致分为六个阶段。任何一个阶段出现问题,都可能导致数月的工作成果和数千万美元的掩模成本付诸东流。
第一阶段是规格和架构设计。工程师们明确芯片必须实现的功能,包括性能目标、功耗预算和芯片面积。第二阶段是RTL设计,工程师们使用硬件描述语言在寄存器传输级(RTL)编写逻辑程序。Verilog和VHDL仍然是主流语言,而SystemVerilog则已取代RTL成为验证的主要工具。第三阶段是功能验证,它结合了针对测试平台的仿真和形式属性检查。在这个阶段发现的缺陷可能会造成数千美元的损失,而一旦缺陷进入芯片内部,则可能造成数百万美元的损失。整个芯片的成败都取决于此。
第四阶段是逻辑综合。编译器将RTL代码转换为标准单元的门级网表。第五阶段是物理设计,包括布局规划、布局布线、时钟树综合和时序收敛。输出结果是一个描述芯片每一层的GDSII文件。第六阶段是流片,GDSII文件被送往代工厂。光刻工艺将设计转化为掩模组。掩模逐层在硅晶圆上形成图案。最后,晶圆被切割成单个芯片并封装。即使是这种规模下晶体管之间的互连也是一个独立的研究领域,每年都有博士论文探讨这一主题。
现在来说说成本。根据Semianalysis和IBS的数据,5纳米制程的单套掩模成本在500万至1000万美元之间。3纳米制程的成本则在1000万至1500万美元甚至更高。再加上工资、IP许可和验证费用,一款尖端ASIC芯片的非经常性工程费用(NRE)很容易超过5亿美元。从规格制定到首片芯片的周期为12至24个月。真正重要的工具供应商包括:Synopsys(VCS、PrimeTime)、Cadence(Virtuoso)和Siemens EDA。Verilog和VHDL语言在40年后依然占据主导地位,至今还没有更好的替代技术。
ASIC设计类型:全定制、门阵列等
ASIC(专用集成电路)涵盖多种设计方法。这些方法从精细的全定制设计到快速的预制捷径,不一而足。
全定制ASIC芯片需要手工绘制每个晶体管,以实现最佳性能和密度,但设计周期最长。标准单元或半定制ASIC芯片则使用预先表征的逻辑门、寄存器和存储模块库,这在大幅缩短开发时间的同时,仍能为大多数数字工作负载提供接近最优的性能。门阵列ASIC芯片更进一步:采用预制晶圆,晶圆上包含未连接的晶体管,只有连接这些晶体管的金属层是客户定制的,从而降低了成本并缩短了交付周期。结构化ASIC芯片介于门阵列ASIC和标准单元ASIC之间,是小批量、高性能设计的理想选择。
简要回顾一下历史。双极型门阵列(BGA)于1967年由Ferranti和Interdesign公司推出,同年Fairchild公司的Micromatrix系列也问世。1981年Sinclair ZX81家用电脑内置的Ferranti ULA被广泛认为是首款流行的消费级ASIC。CMOS门阵列于1974年问世。全标准单元ASIC在20世纪80年代迅速普及。如今的尖端ASIC仍然源自这一技术体系。
ASIC芯片目前应用于:TPU、网络、AI推理等领域
ASIC芯片无处不在,只是人们往往忽略了它们。打开任何一部智能手机,你都会发现其中内置的定制应用处理器,从技术上讲,它就是ASIC芯片家族的一员。例如苹果的A系列和M系列处理器、高通骁龙处理器、三星Exynos处理器等等。走进云数据中心,你会发现博通、思科和Marvell等公司定制的网络ASIC芯片,它们每秒处理数太比特的流量,而如果有人试图用软件完成同样的工作,这些交换机恐怕早已不堪重负。
目前被引用最多的非加密专用集成电路(ASIC)是谷歌的张量处理单元(TPU)。TPU 项目从概念到芯片部署仅用了大约 15 个月。TPU v1 于 2015 年在谷歌数据中心上线,并在 2016 年 5 月的谷歌 I/O 大会上公开亮相。Norm Jouppi 团队在 2017 年发表于 ISCA 的一篇论文中指出,TPU v1 的推理速度比当时的 CPU 和 GPU 快 15 到 30 倍,每瓦性能提升 30 到 80 倍。谷歌目前正在开发第八代 TPU,名为 Ironwood,旨在迎接智能体人工智能时代。Edge TPU 于 2018 年 7 月发布,将同样的理念应用于边缘低功耗推理。
汽车专用集成电路(ASIC)也无处不在。特斯拉的Dojo训练芯片和FSD推理芯片都是定制的ASIC。Mobileye和NVIDIA也为ADAS系统中的图像处理和数字信号处理提供ASIC加速器。电信、自动驾驶汽车和人工智能推理是ASIC广泛应用的三大增长领域,并且在未来十年内将继续占据主导地位。ASIC在制造完成后无法重新编程,因此它们会被部署在工作负载真正保持不变的地方。第四个领域正是本文一直关注的:加密货币挖矿。
ASIC矿机:比特币的集成电路故事(来自Avalon1)
比特币挖矿是ASIC矿机为何如此重要的最佳案例。比特币网络通过支付矿工费用来计算SHA-256哈希值。SHA-256算法是固定的,自2009年以来从未改变,这使其成为ASIC矿机的理想目标。
早期,挖矿通常使用家中现有的任何硬件。CPU挖矿在2009年和2010年达到顶峰。2010年至2012年,随着人们发现显卡的算力比酷睿i7处理器快几个数量级,GPU挖矿开始占据主导地位。2011年和2012年,FPGA挖矿短暂兴起,吸引了一些最执着的矿工。随后,Canaan Creative于2013年1月19日发布了Avalon1,这是首款商用比特币ASIC矿机。首台Avalon1采用110纳米工艺制造,功耗为600瓦,算力达到60 GH/s。当时整个比特币网络的算力约为20 TH/s,这意味着一台Avalon1在发布之初每天可以挖到大约15到20个比特币。我们今天所熟知的挖矿行业实际上就是从那时开始的。
比特大陆于同年在北京由吴忌寒和詹克诚创立。MicroBT(Whatsminer品牌)于2016年成立,由前比特大陆工程师杨作兴创立。到2013年下半年,GPU比特币挖矿已经无利可图。CPU挖矿也已经消亡两年。自那时起,唯一经济合理的比特币挖矿方式就是使用ASIC矿机。仅此而已。
行业整合日趋剧烈。比特大陆目前占据全球ASIC矿机市场约82%的份额。2024年,美国对中国制造的ASIC矿机硬件加征25%的301条款关税,这改变了矿机部署地点和ASIC芯片制造的实际布局。如今,半导体行业的加密货币领域已与中美贸易形势紧密相连。

ASIC矿机与GPU矿机在2026中的挖矿对比:算力、功耗、投资回报率
在2026中将ASIC矿机与GPU矿机在比特币挖矿方面进行比较,这根本不是一回事,而是概念错误。数据可以解释这一点。
截至5月3日,根据《财富》杂志的每日价格追踪器,比特币交易价格接近每枚77,347美元。根据算力指数,网络算力7天平均值约为1,012 EH/s。挖矿难度徘徊在136.61 T附近。自2024年4月19日减半以来,区块奖励一直为3.125 BTC。算力价格(矿工每单位算力所获得的收益)为每PH/s/天39.04美元,约合每TH/天0.039美元。
| 模型 | 哈希率 | 效率 | 力量 | 冷却 | 每日收入为 0.039 美元/TH |
|---|---|---|---|---|---|
| 蚂蚁矿机 S21 Pro | 234 TH/s | 15 J/TH | 3,510 瓦 | 空气 | 约9.13美元 |
| 蚂蚁矿机 S21 XP Hydro | 473 TH/s | 12 J/TH | 5,676 西 | 水力 | 约18.45美元 |
| Whatsminer M60S++ | 226 TH/s | 15.93 焦耳/小时 | 3600瓦 | 空气 | 约8.81美元 |
| Whatsminer M63S+ | 450 TH/s | 17 J/TH | 7,650 瓦 | 水力 | 约17.55美元 |
假设电价为每千瓦时 0.07 美元(这是大型农场常用的电价),S21 Pro 每天大约消耗 84 千瓦时,电费约为 5.88 美元。扣除电费后,每天的成本约为几美元。按当前算力价格计算,S21 Pro 的盈亏平衡电价约为每千瓦时 0.108 美元。据剑桥另类金融中心估计,整个电网每年消耗约 170 至 180 太瓦时,约占全球电力消耗的 0.7% 至 0.8%。
现在来看GPU方面。NVIDIA RTX 4090是上一代顶级消费级显卡,其比特币SHA-256算法的运算速度约为1到2 GH/s,相当于0.001到0.002 TH/s,而S21 Pro的运算速度高达234,000 GH/s。S21 Pro的运行速度比售价1600美元的显卡快10万倍以上。此外,它的噪音仅为75分贝,与路边吸尘器的噪音水平相当,而水冷式吸尘器的噪音则可降至50分贝。对于SHA-256算法而言,通用芯片显然不适用。
在2026中,GPU挖矿仍然优于ASIC的加密货币
少数工作量证明加密货币仍然让 GPU 在 2026 中继续发挥作用,主要是因为它们的算法被设计成对 ASIC 芯片不友好。
Ergo 运行的是 Autolykos2 算法,这是一种内存密集型算法,从一开始就只支持 GPU 挖矿。Ravencoin 使用 KawPow 算法,RTX 4090 显卡的算力约为 120 MH/s。Alephium 使用 Blake3 算法,实际上也只支持 GPU 挖矿。Monero 依赖 RandomX 算法,该算法刻意只支持 CPU 挖矿,并且围绕随机程序生成构建,从而消除了 ASIC 的优势。Kaspa 在 2023 年失去了 ASIC 抗性窗口,当时 IceRiver 和 Bitmain 先后推出了专用的 kHeavyHash ASIC 矿机。以太坊经典的 Ethash 算法自 2018 年以来就一直使用 ASIC 挖矿。Zcash 的 Equihash 算法早在几年前就已开始使用 ASIC 挖矿。
规律始终如一。内存密集型或频繁迭代的算法能够抵御ASIC芯片的冲击长达数年之久。而固定计算密集型算法则总是难逃被淘汰的命运。这就是硅芯片的经济规律,仅此而已。