查看原文
其他

全球首款5nm服务器CPU“倚天710” 问世!阿里自研芯片的终点在哪?

包永刚 芯基建 2022-12-30

阿里自研云CPU是必然选择,但为什么要集成这么多先进技术?

 作者 |包永刚 

全球高性能CPU市场又增加了一个重磅玩家。
2021年10月19日云栖大会,阿里巴巴旗下半导体公司平头哥发布自研为云而生的高性能CPU倚天710,同时还推出搭载倚天710的“磐久”云原生服务器。这是继2018年云栖大会发布的含光800云端AI推理芯片之后,平头哥最新的自研芯片,也表明其自研高性能芯片的设计能力从专用AI芯片走向了通用CPU芯片。

阿里云智能总裁、达摩院院长张建锋
雷锋网了解到,倚天710采用最新的Armv9架构,基于最先进的5nm工艺,单芯片集成600亿晶体管,CPU核心数高达128个,最高主频为3.2GHZ。倚天710不仅是全球首款采用5nm工艺的服务器芯片,也集成了最新的内存DDR5和PCIE5.0。
也就是说,从架构到制造工艺,从CPU核心到内存和接口,倚天710都拥有当下CPU最先进的技术。
标准测试集SPECint2017的数据显示,倚天710的分数达到440,超出业界标杆20%,能效比提升50%以上。

阿里花费数亿美元打造一款高性能CPU的价值和目的何在? 

倚天710集最先进技术于一身

概括倚天710的特性,那就是集先进技术于一身。
先看最底层指令集架构,倚天710采用的是Arm今年三月才发布的面向新十年的Armv9架构。根据Arm发布的产品,雷锋网预计倚天710采用的是Arm Neoverse N2核心,兼具性能和能效。
一般而言,Arm只会为期最新的架构选择少数几家合作伙伴,阿里平头哥作为首个宣布采用Armv9架构的公司,不仅显示了双方在合作上的深入,也能体现出平头哥在芯片设计领域的能力。
基于最新的指令集,倚天710包含了高达128个核心。之所以说是高达,是因为今年3月AMD发布的最新一代服务器CPU EPYC,最高为64核128线程,4月英特尔发布的第三代至强可扩展处理器,核心数是40核。
与倚天710核数更为接近的,是同样采用Arm架构的Ampere(安晟培)在2020年投产的80核云原生服务器CPU Ampere Altra。Ampere的128核CPU计划在今年第三季度投产,同样采用5nm工艺。

倚天710即将在阿里云数据中心部署,然后逐步服务云上企业。
再从底层架构转向制造工艺,倚天710采用的是5nm工艺,这一节点已经被应用于苹果A15芯片,但倚天710是首个采用5nm工艺的服务器CPU。最新的架构加上最新的工艺,自然会对芯片设计的能力有较高要求。
但相比之下,解决上百个核心带来的带宽瓶颈更考验平头哥。过去数年间,处理器核心性能的提升速度远超带宽的性能提升速度,这限制了CPU计算性能的提升,就像是“茶壶里面倒饺子”。
据悉,为了解决带宽瓶颈,平头哥对片上互联作了特殊优化,采用新的流控算法,降低系统反压,有效提升了系统效率和扩展性,使单核高性能有效地转化为整个系统的高性能。
另外,倚天710通过新的系统地址到DRAM地址的转换机制,支持安全、非安全隔离、多NUMA、异常通道隔离多种特性,同时DRAM读写效率大幅度提升。
除了从芯片设计的前端进行优化,倚天710在后端物理实现方面也克服了诸多挑战,包括灵活调度多达30种不同EDA软件、深度定制时钟网络和定制IP技术。
倚天710还采用了先进封装技术,集成业界最领先的内存DDR5和接口PCIE5.0技术,有效提升芯片的传输速率,并且可适配云的不同应用场景,最终实现了性能和能效的优势。

花费数亿美元打造云CPU的价值

倚天710集成如此多先进技术,也意味着这款芯片的成本非常高昂。
市场研究机构International Business Strategies (IBS)的研究数据显示,28nm之后芯片的成本迅速上升。28nm工艺的成本为0.629亿美元,到了7nm和5nm,芯片的成本迅速暴增,5nm将增至4.76亿美元。

来源BIS
芯片是一个典型需要以量取胜的行业,一款芯片从设计到制造,采用先进制程成本高达数亿美元,只有芯片有足够大的量,才能拥有成本优势,这也是为什么只有手机这样的产品才能持续采用最先进的制程。
倚天710作为一款阿里为云而定制的芯片,阿里明确表示不对外出售,这意味着其出货量难以达到手机的数亿量级。那么,从单颗芯片成本的角度看,平头哥自研一款5nm的CPU芯片很难实现芯片的以量取胜。但如果从总体拥有成本和公司整体的竞争力来分析,自研高性能CPU有非常重要的价值。

IDC最新今年7月发布的2021年第一季度中国公有云市场数据显示,季度内IaaS+PaaS市场规模达46.32亿美元(301亿人民币),其中阿里云排名第一,市场份额为40%。另据Gartner 2021年报告,云基础设施和平台市场呈现稳固、集中格局,在全球范围,超过90%的云市场向亚马逊、微软、阿里云、谷歌等前四家云厂商集中。
阿里云作为芯片的最大使用者之一,在全球建设了数百个云数据中心,能够支撑阿里自研芯片。
但更重要的是,阿里云的竞争对手们也正在通过自研芯片来增强自身优势。亚马逊自研的Arm CPU已经展现出优势,谷歌的TPU也已经在云中被广泛使用。
这样看来,阿里为云研发CPU和AI芯片成为其提供差异化服务,保持领导力的关键。
同样,阿里自研芯片的优势也已经展现,2020年10月30日开始,淘宝用户的搜索请求均由含光800处理,其支持的淘宝主搜全链路吞吐率性能达到GPU性能的3倍左右。在杭州城市大脑的业务测试中,1颗含光800的算力相当于10颗GPU。
同时,基于对自身业务理解定制的AI芯片也能让阿里云提供更多更好的AI云服务,比如图像搜索、场景识别、视频内容识别、自然语言处理等场景。
因此,无论从总体拥有成本,还是公司战略的角度,自研芯片是阿里云的必然选择。并且自研的芯片越早应用,自研芯片的决心越坚定,越有利于阿里云提供高性能,差异化的云服务,保持和提升领导力。
可以看到,倚天710从前端架构设计到后端物理实现都是自研,并且集成了最先进的技术。

阿里成芯片公司?

从2018年阿里平头哥成立到现在,短短三年间阿里已经拥有了自研AI芯片含光800,自研云端CPU倚天710,还开发了十多款玄铁系列嵌入式RISC-V指令集CPU IP核,累计出货量超过25亿颗。

这不禁让人疑问,阿里是要取代现有的芯片公司了吗?
答案是否定的,以阿里为代表的科技巨头自研芯片的核心原因是市场上的芯片性能越来越难以满足其包括AI在内的新兴业务,以及提供差异化功能的需求。另外,最先进的CPU和GPU售价高昂,且功耗高,此时基于对自身业务的理解有针对性开发芯片成为了一个更好的选择。
阿里云智能总裁、达摩院院长张建锋表示:“基于阿里云‘一云多芯’和‘做深基础’的商业策略,我们发布倚天710,希望满足客户多样性的计算需求。我们将继续与英特尔、英伟达、AMD等合作伙伴保持密切合作。”

对于第三方芯片公司来说,其业务的核心是尽可能多销售芯片。
但对于阿里这样的系统公司,直接为用户提供系统级服务,芯片只是其提供更好、更具差异化服务的关键,销售芯片并非其目标,既然如此,芯片的开发和应用策略和路径和传统芯片公司并不会相同。

比如,倚天710与飞天操作系统协同,能为云上客户提供高性价比的云服务。还有,基于从云到端的芯片,阿里能够更好的发展其AIoT生态,构建一个更强大的生态。
从处理器到服务器,再到操作系统,阿里正在从系统层级实现全面的自主,增强竞争力。

往期推荐

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存