HASH GAME - Online Skill Game ET 300DeepSeek掀起算力革命英伟达挑战加剧ASIC芯片崛起

　　HASH GAME - Online Skill Game GET 300

HASH GAME - Online Skill Game GET 300DeepSeek掀起算力革命英伟达挑战加剧ASIC芯片崛起

　　日前，芯流智库援引知情人士的消息，称DeepSeek正在筹备AI芯片自研。相比这个后起之秀，国内大厂如阿里、百度、字节们更早就跨过了“自研”的大门。大洋彼岸，OpenAI自研芯片的新进展也在年初释出，外媒披露博通为其定制的首款芯片几个月内将在台积电流片。此前更是一度传出Sam Altman计划筹集70000亿美元打造“芯片帝国”，设计与制造通吃。此外，谷歌、亚马逊、微软、Meta也都先后加入了这场“自研热潮”。

　　而ASIC芯片，可能会成为他们跨越新世界大门的入场券。这会不会“杀死”英伟达？或者，会不会“再造”第二个英伟达？现在还没有答案。不过可以明确的是，这场轰轰烈烈的“自研浪潮”，其上游的产业链企业已经“春江水暖鸭先知”，例如给各家大厂提供设计定制服务的博通，业绩已经“起飞”：2024年AI业务收入同比240%，达到37亿美元；2025Q1AI业务营收41亿美元，同比增77%；其中80%来自ASIC芯片设计。在博通的眼里，ASIC芯片这块蛋糕，价值超过900亿美元。

　　低成本是AI推理爆发的必要条件，与之相对的是——通用GPU芯片成了AI爆发的黄金枷锁。英伟达的H100和A100是大模型训练的绝对王者，甚至连B200、H200也让科技巨头们趋之若鹜。金融时报此前援引Omdia的数据，2024年，英伟达Hopper架构芯片的主要客户包括微软、Meta、Tesla/xAI等，其中微软的订单量达到50万张。但是，作为通用GPU的绝对统治者，英伟达产品方案其“硬币的另一面”已逐渐显现：高昂的成本与冗余的能耗。成本方面，单个H100售价超3万美元，训练千亿参数模型需上万张GPU，再加上网络硬件、存储和安全等后续的投入，总计超5亿美元。根据汇丰的数据，最新一代的GB200 NVL72方案，单机柜超过300万美元，NVL36也在180万美元左右。可以说，基于通用GPU的模型训练太贵了，只不过是算力不受限制的硅谷，仍然偏向于“力大砖飞”的叙事，资本支出并未就此减速。

　　就在日前，马斯克旗下xAI，不久之前公布的Grok-3，训练的服务器规模，已经达到了20万张GPU的规模。腾讯科技联合硅兔赛跑推出的《两万字详解最全2025 AI关键洞察》一文提到，超大规模数据中心运营商预计2024年资本支出（CapEx）超过 2000亿美元，到2025年这一数字预计将接近2500亿美元，且主要资源都将倾斜给人工智能。能耗方面，根据SemiAnalysis的测算，10万卡H100集群，总功耗为150MW，每年耗费1.59TWh的电量，按0.078美元/千瓦时计算，每年电费高达1.239亿美元。对照OpenAI公布的数据，推理阶段GPU的算力利用率仅30%-50%，“边算边等”现象显著，如此低效的性能利用率，在推理时代，确实是大材小用，浪费过于严重。

　　谷歌此前公布的TPU V4与A100针对不同架构模型的训练速度性能领先、价格昂贵，效率不佳，外加生态壁垒，过去一年业内都在喊“天下苦英伟达久矣”——云厂商逐渐丧失硬件自主权，叠加供应链风险，再加上AMD暂时还“扶不起来”，诸多因素倒逼巨头开始自研ASIC专用芯片。自此，AI芯片战场，从技术竞赛转向经济性博弈。正如西南证券的研究结论，“当模型架构进入收敛期，算力投入的每一美元都必须产出可量化的经济收益。”从北美云厂商最近反馈的进展看，ASIC已体现出一定的替代优势：

　　锦缎在《DeepSeek的隐喻：GPU失其鹿，ASIC、SoC们共逐之》一文中详解过SoC，而CPU、GPU用户早已耳熟能详，FPGA应用市场小众，最为陌生的当属ASIC。特性CPUGPUFPGAASIC定制化程度通用半通用半定制化全定制化灵活性高高高低成本较低高较高低功耗较高高较高低主要优点通用性最强计算能力强，生态成熟灵活强较高能效最高主要缺点并行算力弱功耗较大，编程难度较大峰值计算能力弱，编程难度较难研发时间长，技术风险高应用场景较少用于AI云端训练和推理云端推理，终端推理云端训练和推理，终端推理图：算力芯片对比资料来源：中泰证券那么，都说ASIC利好AI推理，究竟它是一个什么样的芯片？

　　从架构上来说，GPU这样的通用芯片，其局限在于“以一敌百”的设计——需要兼顾图形渲染、科学计算、不同的模型架构等多元需求，导致大量晶体管资源浪费在非核心功能模块。英伟达GPU最大的特点，就是有众多“小核”，这些“小核”可以类比成猎鹰火箭多台发动机，开发者可以凭借CUDA多年积累的算子库，平稳、高效且灵活地调用这些小核用于并行计算。但如果下游模型相对确定，计算任务就是相对确定的，不需要那么多小核来保持灵活性，ASIC最底层的原理正是如此，所以也被称为全定制化高算力芯片。通过 “手术刀式”精准裁剪，仅保留与目标场景强相关的硬件单元，释放出惊人的效率，这在谷歌、亚马逊都已经在产品上得到了验证。

　　在过去的历史和正在发生的现实中，我们都能够找到ASIC成功的力证，比如矿机芯片。早期，行业都是用英伟达的GPU挖矿，后期随着挖矿难度提升，电力消耗超过挖矿收益（非常类似现在的推理需求），挖矿专用ASIC芯片爆发。虽然通用性远不如GPU，但矿机ASIC将并行度极致化。例如，比特大陆的比特币矿机ASIC，同时部署数万个SHA-256哈希计算单元，实现单一算法下的超线性加速，算力密度达到GPU的1000倍以上。

　　不仅专用能力大幅提升，而且能耗实现了系统级节省。此外，使用ASIC可精简外围电路（如不再需要PCIe接口的复杂协议栈），主板面积减少40%，整机成本下降25%。低成本、高效率，支持硬件与场景深度咬合，这些ASIC技术内核，天然适配AI产业从“暴力堆算力”到“精细化效率革命”的转型需求。随着推理时代的到来，ASIC成本优势将重演矿机的历史，实现规模效应下的“死亡交叉”——尽管初期研发成本高昂（单芯片设计费用约5000万美元），但其边际成本下降曲线远陡于通用GPU。

　　以谷歌TPU v4为例，当出货量从10万片增至100万片时，单颗成本从3800美元骤降至1200美元，降幅接近70%，而GPU的成本降幅通常不超过30%。根据产业链最新信息，谷歌TPU v6预计2025年出货160万片，单片算力较前代提升3倍，ASIC的性价比，还在快速提升。这又引申出一个新的话题，是否所有人都可以涌入自研ASIC大潮中去？这取决于自研成本与需求量。按照7nm工艺的ASIC推理加速卡来计算，涉及IP授权费用、人力成本、设计工具、掩模板在内的一次流片费用等，量级可能就在亿元的级别，还不包括后期的量产成本。在这方面，大厂更具有资金优势。

　　受制于禁令的限制，国产GPU与英伟达的差距仍然巨大，生态建设也是一个漫长的路程，但是对于ASIC，我们甚至与海外在同一起跑线上，再结合垂直场景，中国不少Fabless能够做出更有能效比的产品，前面提及的矿机ASIC、智驾ASIC以及阿里平头哥的含光、百度的昆仑芯这些AI ASIC。与之配套的芯片制造，主要依赖中芯国际，中兴旗下的中兴微等则是新入场的“玩家”，不排除未来他们将与国内厂商合作，上演一场“谁将是中国博通”的戏码。

HASH GAME - Online Skill Game ET 300DeepSeek掀起算力革命英伟达挑战加剧ASIC芯片崛起

联系我们

底部导航

扫描二维码