@Article{CAM-15-9, author = {}, title = {中国“最强芯”出招!独角兽寒武纪发布新一代AI芯片}, journal = {CAM-Net Digest}, year = {2018}, volume = {15}, number = {9}, pages = {6--6}, abstract = {
寒武纪在上海举办 2018 产品发布会,创始人陈天石重磅发布了新一代云端 AI 芯片 ——Cambricon MLU100 云端智能芯片和板卡产品、寒武纪 1M 终端智能处理器IP产品。寒武纪最新两款产品的发布,也意味着寒武纪成为中国首家同时拥有终端和云端智能处理器产品的公司。
最新发布的寒武纪1M是公司的第三代IP产品,是业界第一款支持本地终端处理的IP产品。在TSMC 7nm工艺下8位运算的效能比达5Tops/watt (每瓦5万亿次运算),提供三种规模的处理器核(2Tops/4Tops/8Tops)以满足不同应用场景下不同量级的智能处理需求,并可通过多核互联进一步提高性能。其具有非常好的通用性,而且不以性能功耗比的牺牲为代价。
本次发布的首款云端AI处理器---“MLU100”——这正是寒武纪科技在2017年底预告的其中一款云端高性能智能处理器,支持服务器端的推理和训练需求,尤其是侧重推理,另有一款MLU200偏重训练。在发布会现场,陈天石称MLU100的功耗仅为是英伟达同类产品的几分之一,将树立新的行业标杆。
值得注意的是,为了区别之前的神经网络处理器(NPU),寒武纪科技特意将云端芯片命名为机器学习处理器(MLU),意在强调其云端处理器不再局限于深度学习加速,而是扩展到整个机器学习加速,同时搭建一整套生态。
同时,联想、中科曙光等作为寒武纪的合作伙伴也发布了基于寒武纪芯片的应用产品。联想在发布会上宣布了国内首款搭载寒武纪 MLU100 智能处理卡的服务器平台 Thinksystem SR 650全新发布,实现服务器平台系统,智能卡,应用三方协作调优,共同加速推进人工智能市场。
中科曙光则发布了全新PHANERON系列,即全球首款基于寒武纪MLU的云端服务器。中科曙光称,公司正在考虑从传统高性能厂商转型为先进计算的集大成者,其中就必须有强大的“中国芯”,寒武纪在其中扮演着非常重要的角色。
这次发布会的产品对于提升云端和服务器端的 AI 计算效能有深远影响,而最具代表性的应用案例就是超级计算机。计算核心的发展可以说是中国发展超算(超级计算机)的基础,从龙芯到申威,这些标准化 CPU 核的推动,成了中国超算领域中的根基,并持续茁壮成长,然而中国还缺了关键的一块。
近几年来,由于 AI 计算的议题火热,中国超算也把 AI 当作重点推动的功能,但过去中国专注于自有 CPU 核的发展,对 AI 计算方面,还是只能依靠英伟达 GPU 等外来核心才有办法实现。
当然,这对于中国计算技术的自主化是一个相当大的讽刺,若核心计算功能块被握在国外厂商手中,那无论如何也不可能达成独立自主的目标。
因此,在 AI 计算领域,寒武纪就扮演了极为重要的角色,其完全自有,可通用的平台化AI计算架构,完全契合了中国的计算核心发展需求,也更重要的是,在面临美国的贸易制裁的同时,中国产业方才领悟整个半导体产业链是有多脆弱不堪,更赋予寒武纪这次发布的新核心不同的时代意义。
早在 2017 年底,寒武纪首次举办的发布会中,就已经把所有的产品布局和线路公诸于世,重点围绕终端和云端两条产品线。而这次特地把针对云端AI计算的MLU100及MLU200 最终版本拿出来向全球宣告,往后中国超算中的 AI 计算也将成为整个中国芯布局的一部分,彻底摆脱对外来计算架构的倚赖。
01中超预算发展火热 性能水平超越世界标准
中国在超算领域方面的技术在过去数年一直都是处于领先地位,根据2017年11月13日、半年发布一次的全球超级计算机 500 强榜单,中国超级计算机又毫无意外地占据了十分明显的优势。其中,“神威·太湖之光”和“天河二号”再次领跑,连续第四次分列冠亚军,其浮点运算速度分别为每秒 9.3 亿亿次和每秒3.39亿亿次。
而在中国队崛起的同时,美国的超算排名则不那么乐观,其上榜数量已经来到了25年来的新低,双方的超算500强比例为202:143。
而登上榜首的“神威·太湖之光”位于无锡的国家超级计算中心。不同于普通计算机的小巧体积,每一个超级计算机都是一个“巨无霸”,以“神威·太湖之光”为例,其占地接近1000平方米,由40个比家用冰箱体积还大的运算机柜和8个网络机柜组成。而在每个机柜内部,一共有1024块“申威26010”高性能处理器提供高性能的计算服务,而整个超级计算机的处理器数量则超过了40960块。
值得注意的是,虽然 “神威·太湖之光”的持续计算性能为每秒9.3亿亿次,但其系统峰值性能却达到了每秒12.5亿亿次,是世界首台峰值运算速度超过10亿亿次的超级计算机。换算下来,其1分钟的运算能力相当于全球70多亿人使用计算器32年的计算量,即便和普通PC机相比,其计算性能也要超过200万倍。
当然,“神威·太湖之光”的亮点不仅在于其惊人的计算能力,国产“申威 26010”高性能处理器的使用也特别引人注意,尤其是在中美之间围绕芯片问题你来我往的难解难分之际,这款芯片就带给我们更多的启示和思考。
根据了解,“申威 26010”采用了片上融合的异构众核体系结构,在25平方厘米的面积上集成了260个运算核心、数十亿晶体管,计算能力达到了每秒3万亿次。其指令集和配套软件生态系统具有完全自主知识产权。
申威 26010”的设计概念与xeon phi协处理器卡极为类似,只是intel这样一块计算卡只有区区60个核心,而且不能独立工作,还需要另外购买一个独立的xeon主机作为管理处理器使用。
而“申威 26010”处理器集成了管理处理器,可以独立工作,并且单个处理器卡拥有高达520个处理器核心。
不论从何种角度来看,“申威 26010”都代表了国产超算核心已经达到国际一流水准的顶尖地位。
自运营的一年多以来,“神威·太湖之光”的利用率已经超过了50%,应用领域涉及天气气候、航空航天、先进制造、生物医药、新材料、新能源等19个方面,共计完成200多万项作业任务,平均每天完成近7000项。例如核聚变发电的理论和实验模拟、C919 大飞机的飞行状态的模拟和天宫系列飞行器的飞行状态模拟都有“神威·太湖之光”的身影。
不过神威主要还是作为国防用途,与之互补的天河就比较偏一般商用超算,虽在效能上略微落后神威,但是在架构方面同样有著相当优秀的自有核心技术,其基础的算力来源,也就是号称中国计算加速卡China Accelerator的Matrix2000。
Matrix2000主要规格为16核设计的通用型DSP设计,最大可达到2.4T/s的浮点性能输出,虽略少于英特尔Knight Landing的3T/s,但对于白手起家的中国来说,已经相当不易,而且功耗比现有的Xeon Phi少了100W,从Matrix2000的设计规格上看,至少在能耗均衡性是个相当大的优势。
02中国超算是最早发展自有核心的产业之一
中国过去发展超算技术,其实还是基于欧美的计算核心基础,这些架构包括英特尔、超微的CPU,来自超微以及英伟达的 GPU 核心,和来自赛灵思与 Altera 的 FPGA 架构。虽说中国过去在超算技术成功突破特定架构的物理规模限制,实现远超过外国的超算性能表现,但这些成果都是基于欧美的计算架构,以及相关的核心,并非完全自有,如果哪天关键元件被欧美限制出口,那么这些算力的表现都是无法延续的,也无法为中国供应链创造真正的价值。
也因此,超算领域可以说是中国最早的中国芯计划实现者之一,中国在超算技术方面不仅在性能表现方面真正实现弯道超车,而且具备核心技术的完全自主。
中国超算核心过去十几年的发展主要还是通过基于通用核心的发展而来,从早期的龙芯架构,以及后来的申威技术,都是基于过去曾经在业界被认可的标准计算架构。
DT君以申威为例探讨自有超算架构的来源,“申威 26010”其实属于Alpha阵营,指令集也是基于Alpha进行扩展。但与龙芯指令集走现有 MIPS 兼容路线不同,申威的技术来源是于DEC的Alpha 21164。
DEC 的技术实力很强,Alpha 性能更是惊艳,AMD就曾经购买了Alpha 21264的技术资料,挖走了部分DEC的技术人员后,开发出自己的K7微结构。
虽然DEC的技术实力远比同时期的竞争对手强,但因为商业模式不如人,最终导致失败的结局,Alpha 也被几经转手,先被康柏收购,后被惠普雪藏。目前Alpha已经被束之高阁,指令集和微结构都已经不再更新,技术专利大多已过期。
但申威却很好的重新利用了这个被世人抛弃的架构,成为目前Alpha阵营中仅存的硕果,经过中国技术研发人员的钻研改造,Alpha 已经成功脱胎换骨,成为中国超算体系中难得一见的纯种中国芯。
03满足了CPU的自主化 AI计算的空白就由寒武纪来填补
申威的发展是中国芯片发展史上的一个相当经典的案例,也代表中国是有能力、也有意愿打造出属于自有的计算核心与生态,不过对读者来说,申威并非完全从零开始的自有研发,而是基于过去被淘汰计算架构的基础之上的再研发,虽是中国芯,但又不是那么根正苗红。
而且申威作为 CPU 核心,对于现代 AI 计算所需要的训练与推理在计算效率上无法得到百分之百的发挥,因此仍需要传统 GPU 或 FPGA 等 AI 专用计算架构来搭配,而这些都是外来架构。
寒武纪不仅是非常纯粹的中国科技产物,从核心指令集、架构、软件生态,都是自有知识产权,而更重要的是,它针对了时下最流行的 AI 计算优化,很好解决了中国芯在相关领域遇到的计算瓶颈。
其不论是计算核心的设计,以及算法应用的发展上,都是基于原创的技术推动,虽然概念上参考自2010年ISCA大会上 Temam 教授所发布的“The Rebirth of Neural Networks”主题演说中所提到机器学习加速器的概念,但寒武纪陈氏兄弟随后在2012年与Temam教授共同发展出第一代加速设计,并命名为Diannao项目。
Diannao 项目的核心实际上就是提出了一系列定制的AI加速器的设计方案。包括第一个最原始的加速器概念 Diannao,第二个加速器 DaDiannao,基本上就是Diannao的多片版本,通过多片设计,可以将较大的模型维持在片上缓存中。
第三个加速器 ShiDiannao,则是将AI加速器与传感器直连,从而减少内存通讯的开销,第四个加速器PuDiannao则将加速器从只支持特定神经网络扩宽到支持多种常规机器学习算法,也是后来寒武纪发展 AI 加速器的最关键核心逻辑:通用平台的设计概念的主要来源。
PuDiannao也是Diannao项目的最后一个工作。 随后,陈氏兄弟就提出了Cambricon指令集的思想,试图在更为泛化的层面来完成 AI 加速器的设计。与前面几个架构比较之下,Cambricon里试图针对 AI 算法,提取出更为细粒度,泛化性更强的建构基础,在更具原子性的基础上完成硬件结构设计,从而提升了加速器的通用性。
Cambricon 核心里所有的指令都是 64-bit 的长度,这也算是 RISC 设计思想的体现,可以有效简化指令解码器的负担,有助于减少功耗和芯片面积。指令集可以划分为四大类,分别是计算类/逻辑类/控制类/数据存取类。这也和一般常见的通用计算CPU指令即有着异曲同工之妙,而如此设计,也注定其要走向大市场,走平台方案发展的路线。
后来陈氏兄弟甚至将其架构设计转化为可对外授权的IP,并发展出相关商业模式,在国内清一色开自有芯片的风潮下显得特立独行,将目标瞄准更高层的市场,意图成为整个AI计算加速产业的共主。
目前,寒武纪的 IP 授权已经有包含海思在内几家厂商采用,其性能表现也要优于诸如苹果内建的NPU,以及高通所采用的DSP架构,可以说为AI加速方案的发展立下标竿。
而此次发布的MLU100及MLU200则可说是完全针对云端AI计算的需求而推出,二者都基于TSMC16nm工艺打造,以PCIE板卡形式呈现,这是寒武纪推出的云端市场的专用产品。
这两颗芯片都同时支持推理和训练,其中MLU100偏重推理,将面向数据中心和中小型服务器,而MLU200偏重训练,将面向企业级人工智能研发中心。而随着这两个全新架构的推出,寒武纪也宣示通过其与中科曙光的合作,正式在国家级超算计算中推动真正自有的AI计算核心,而不是像过去必须依靠外来架构。
}, issn = {}, doi = {https://doi.org/2018-CAM-14062}, url = {https://global-sci.com/article/75876/ai} }