向着国产E级系统迈出坚实一步, “天河三号”E级原型机研制部署

向着国产E级系统迈出坚实一步, “天河三号”E级原型机研制部署

Year:    2018

CAM-Net Digest, Vol. 15 (2018), Iss. 16 : p. 5

Abstract

我国自主研发的新一代百亿亿次超级计算机——“天河三号”E级原型机7月22日顺利通过项目课题验收,并于日前完成研制部署,这表明我国E级超算系统研制迈出了坚实的一步,有望在2020年左右,率先研制出我国第一台E级超算系统,在全球超算竞争中重回霸主地位。

“天河三号”E级原型机验收通过实现核心关键技术突破

“天河三号E级原型机系统”由国家科技部立项支持,国防科技大学牵头研制,并于近日已在国家超级计算天津中心完成部署,将逐步进入开放应用阶段。

研发团队聚焦技术核心奋力攻关,主要有以下自主创新亮点:

四类结点(计算结点、I/O服务节点、I/O存储节点、服务结点),十余种PCB电路板;

三款芯片——“迈创”众核处理器(Matrix-2000+)、互连接口芯片、路由器芯片;

系统操作、并行开发、应用支撑和综合管理等软件分系统;

新型的计算处理、高速互连、并行存储、服务处理、监控诊断、基础架构等硬件分系统。

依托全面技术创新,“天河三号原型机系统”实现了可适应科学计算和数据处理多应用需求的柔性体系结构,突破了计算访存通信三方平衡的高性能计算结点技术,可支持十万结点规模的高速互连和光电混合高速信号传输技术,高效靶向散热冷却技术,用户透明的高性能计算环境软件支撑等技术,通过几十年的超算技术积累和不断创新,在“天河”超级计算机系统核心关键技术上实现了整体自主可控。

同时,通过“天河三原型验证系统”关键技术突破和系统研制,也全面为“天河三号”百亿亿次整机系统提出了计算、访存、通信性能平衡的设计方案,未来“天河三号”E级超级计算机将对已经设计生产的三款计算、互连通信核心芯片再进行全面升级,同时基于飞腾CPU设计新的多核CPU,实现可支持海量数据存储的层次式存储系统,对适用高性能计算和高效大数据处理的柔性体系结构进一步优化,全自主的具有国际领先水平的新一代“天河三号”E级超级计算机有望在2020年研制成功。

布局三台E级超算原型系统走自主创新之路

2016年,国家科技部结合“十三五”发展规划,通过国家重点研发计划支持,开始分两期启动我国E级超算系统研制计划。第一期主要为“E级计算机关键技术”研究,安排了三个E级机原型样机的研制,第二期则为研制E级计算机。

我国E级计算机的研制不仅将采用自主可控处理器和加速器、实现在超算核心部件上的突破,还将提出新的E级机体系结构,并从计算系统、网络架构、存储架构、系统软件、冷却系统、应用支撑等多方面实现自主创新,在关键技术上取得一系列重大突破。

这三个E级原型机分别是天河三号E级原型机、神威E级原型机和曙光E级原型机。其中,“天河三号E级原型机系统”经过两年多的关键技术攻关和突破,成为我国首个完成原型样机系统研制和部署的项目。

2018年6月在德国法兰克福的ISC18(2018世界超算大会)上,我国科技部重点研发计划高性能计算专项专家组组长,中山大学钱德沛教授介绍了中国E级计算的研制和应用开发情况,其中介绍了中国三台E级原型机的一些技术细节。

天河E级原型机 
技术指标 
灵活的架构可以满足不同的应用 
新一代多核处理器,追求平衡计算和内存访问 
光电集成高速互连,大大提高了性能和能效 
基于新存储介质的容错能力 
精确散热,在制造成本与运营成本之间进行权衡

神威E级原型机 
技术指标 
包含计算内部互联、存储、供电和;冷却等子系统 
新一代众核系统,512个节点 
自主网络芯片,胖树互联结构,点对点带宽>200Gbps
基于神威存储服务器的存储子系统 
自主高压直流供电 
高效水冷,增强版的热传递散热铜板

曙光E级原型机 
技术指标 
计算子系统:自主设计的X86处理器(CPU>1TF),DCU加速器(DCU>15TF)
网络子系统:带宽400Gpbs拓扑结构采用6D-torus,384路由 
存储子系统:分布式存储架构,支持EB级扩展 
基础设施子系统:沉浸式相变液冷、高压直流供电、3D组装架构 
软件子系统:成熟与完善的运行库与编程工具、轻量级的可视化及软件定义架构

E级超算被称为是超级计算机界的下一顶皇冠,它将在解决人类共同面临的能源危机、环境污染、气候变化等关乎人类生存与发展的重大问题上发挥巨大作用,各国争相争夺其战略主导地位。美国和日本均已提出E级超级计算机的研制计划,拟在2021年左右完成系统研制。随着天河三号E级原型机系统22日顺利通过项目课题验收,表明我国E级超算系统研制迈出了坚实的一步,有望在2020年左右,顺利研制出国产首台E级超算系统,在全球超算竞争中重返霸主地位。让我们一起期待!

银河、天河系列超算国产超算领头羊

超级计算机的发展日新月异,在短短四十年的时间里,超级计算机系统性能增长了5.8亿倍。相对国外超算的发展来说,中国超算起步较晚,与国外差距较大。但庆幸的是,在当时邓小平同志的支持下,新中国有一支“胸怀祖国、志在高峰、团结协作、顽强拼搏”的计算机科技攻关队伍——国防科技大学银河/天河团队,从银河Ⅰ号到天河二号,他们先后研制出中国第一台每秒亿次向量巨型机、第一台每秒10亿次并行巨型机、第一台每秒万亿次超大规模并行巨型机、第一台每秒千万亿次的超算系统……,创造了一个又一个中国超算历史上里程碑式的奇迹,在世界超算领域打响了中国品牌。

在银河/天河团队的带领下,中国超算虽然起步较晚,但发展非常迅猛。“银河Ⅰ号”是中国首台巨型机,它的研制成功标志着中国继美、日两国之后,成为世界上第三个能够独立自主设计和制造超级计算机的国家。今天大家耳熟能详的“天河”系列超级计算机就是由数十年前的“银河”一步步发展而来的。

中国科技尖兵在世界超级计算机这场没有硝烟的战争中,代表中国打出了傲人的成绩:

2010年,“天河一号”二期系统成功登上世界超级计算机TOP500冠军宝座,中国首次在该榜单中荣获第一名!

2013年—2015年,“天河二号”连续6次蝉联世界超级计算机TOP500冠军,标志着中国在超级计算机领域已走在世界前列!这一成绩打破了超算领域的世界纪录,并至今仍保持着超算领域的世界纪录!

“天河”系列超级计算机的研制成功,打破了美日长期对世界超算头把交椅的垄断,改写了超级计算的世界格局。同时,由于其强大的计算能力,已成为提升创新型国家的重大科技基础设施,为国家科技创新和经济社会发展提供强劲引擎,服务数字中国的建设,助力我国从科技大国向科技强国迈进。

“天河一号”部署在国家超级计算天津中心,支撑京津冀重大科技协同创新及推动区域智能制造、智慧港口、智慧交通等产业发展、社会公共服务能力等方面发挥重大作用。“天河二号”部署在国家超级计算广州中心,用户数已超过3000家,是世界上用户数最多、系统利用率最高的超算中心。国家超算广州中心坚持技术、应用和服务的三位一体,完善超算、大数据与人工智能融合架构,服务数字中国和数字广东的建设,目前在广东省和全国范围内建立了9个超算分中心,推进从粤港澳大湾区到全中国28个省市自治区的超算应用服务全覆盖,支持大气海洋环境、天文地球物理、工业设计制造、生命科学等传统领域的研究实践,同时支持新能源新材料、生物医药、智慧城市等新兴产业的创新发展,在支撑基础科学研究、国家重大战略工程、地区经济社会发展等方面取得了一系列重要的应用成果突破,为保障国家安全,促进科技创新,推动产业转型升级贡献重要力量。

我们将继续围绕天河超算系统搭建应用平台,推广超算应用,拓展应用领域,积极构建天河超算应用生态环境,期待天河三号E级系统早日研制成功并发挥更大的作用!

You do not have full access to this article.

Already a Subscriber? Sign in as an individual or via your institution

Journal Article Details

Publisher Name:    Global Science Press

Language:    Multiple languages

DOI:    https://doi.org/2018-CAM-14174

CAM-Net Digest, Vol. 15 (2018), Iss. 16 : p. 5

Published online:    2018-01

AMS Subject Headings:    Global Science Press

Copyright:    COPYRIGHT: © Global Science Press

Pages:    1

Keywords: