arrow
第八卷, 第六期
计算大国从这里崛起863计划扶持高性能计算机产业发展纪实

来源:科技日报


作者:申明
2010年11月16日下午,美国新奥尔良市会议中心。第36届全球超级计算机500强排行榜发布现场,人头攒动。

当代表天河团队领奖的国家超级计算天津中心主任刘光明举起“世界第一”的证书时,台下不分国籍,掌声、欢呼声连成一片。

这一天,863计划“千万亿次高效能计算机系统研制”课题取得了重大的突破性成果,中国自主研发的“天河一号”高性能计算机以峰值速度4700万亿次、持续速度2568万亿次每秒浮点运算的速度,一举夺魁,成为世界运算速度最快的计算机。同时,由曙光公司研制的“星云”高性能计算机名列第三。至此,全球运算速度最快的前三台超级计算机中有两台是中国制造的。

当今世界,高性能计算能力是衡量一个国家综合国力和国际竞争力的重要体现,尤其是随着信息时代的到来,在这场比拼耐力、比拼实力、没有终点的“马拉松”计算竞赛中,“天河一号”的折桂,标志着中国自主研制高性能计算机能力实现了跨越,书写了“算盘王国”的新传奇。

今天的成就并非偶然,这是中国高性能计算厚积薄发、常年积累的结果。自1990年,863计划调整研制目标,从智能机研究转为高性能计算机算起,至今已有21年。

21年来,从最早的跟踪模仿到今天诸多关键技术实现零的突破。中国科技工作者发扬自主创新精神,研发了一大批具有自主知识产权的核心技术,在系统设计、芯片、通信、软件等领域走在了世界的前列。

21年来,从最早的“玻璃房子”到今天国产品牌占据半壁江山。中国实现了高性能计算机产业化发展,构建了产学研用的创新体系,一大批民族品牌在“与狼共舞”的竞争中杀出重围,打破了国外公司的市场垄断。

21年来,从最早的“曲高和寡”到今天的普及应用。中国高性能计算机在石油勘探、航天、气候、医药、金融、制造等众多行业发挥了卓越贡献,对我国的经济、社会发展起到了重要的支撑引领作用。

第一章 用自主创新实现全面突破

国运昌则科技兴,科技兴则国力强。花钱买不来核心技术,只有自主创新才能打破“玻璃房子”!——题记 

“打破玻璃房子”

这是一部不屈不挠,勇攀高峰,可歌可泣的历史。

从1953年1月我国成立第一个电子计算机科研小组到今天,我国计算机科研人员已走过了50多年艰苦奋斗、开拓进取的历程。其中,“玻璃房子”是科研工作者心中永远的痛。

上世纪八十年代初,随着改革开放大幕的拉起,我国的天气预报、石油勘探等民用行业急需一批高性能计算机。由于没有能力制造自己的高性能计算机,国家只能花巨资从国外进口设备。

“我国进口高性能计算机过去一直受到原巴黎统筹委员会的阻挠和禁运,要么不允许出口,要么就是只出口已经相当过时的产品,同时还要附加许多关于使用方面的限制。”中科研计算所所长李国杰回忆说,“即使是机器卖给中国,也要把机器放在一个中国人不能入内的玻璃屋里接受他们的监控。”

在中国的土地上,却被外国人拒于“技术大门”之外。国外的霸道强权政策,深深地刺痛了中国科研人员的心:“中国必须要有自己的高性能计算机!”“这口气一定要挣回来!”

此后,为发展自己的高性能计算机,打破封锁,打破垄断,我国先后启动了若干项研制高性能计算机的宏伟计划。

1986年,中国的高性能计算机产业迎来了“人生”中的第一次转折。中央正式批准实施《国家高技术研究发展计划纲要》,由于促成这个计划的建议提出和邓小平批示都是在1986年3月,人们便习惯地称之为“863计划”。

863计划开启了中国挑战尖端、以创新推动发展的新时代,也鸣响了中国追赶世界高性能计算行列的发令枪。

“像当年刘邓大军一样杀出重围”

1987年,按照“有限目标,突出重点”的方针,863计划选择了信息技术等7个高技术领域作为研究发展的重点,并设立了智能计算机系统主题(即306主题)。

“当时,受国际智能计算机研发计划,特别是日本五代机研究计划的影响,提出要研制智能计算机系统。”863计划“高效能计算机及网格服务环境”重大项目组组长钱德沛教授说。

1990年,863计划信息技术领域计算机主题组建了国家智能机研究开发中心(以下简称:智能机中心),并抽调回国不久的李国杰担任中心主任,由他负责组建一支从事高性能计算机攻关的国家队。

当时,李国杰面对的第一个选择题就是要不要跟日本人走。经过对国内外计算机发展趋势的反复调研分析,306专家组认为,脱离工业标准与计算机主流技术的所谓智能计算机不可能有好的前途,于是果断的对智能计算机研制计划进行重新定位,将研发重点转向并行计算机系统。

“从研制智能计算机向研制高性能并行计算机的转变,对于我国高性能计算领域的发展具有深远的意义。”钱德沛说。

方向找对了,但现实却很残酷。当时在高性能计算机领域,我国与国外的差距已逐渐拉开。巨大的技术差距以及国外公司构筑的专利壁垒,犹如一个包围圈让人窒息。

原国家科委主任宋健到智能机中心参观时,号召智能中心当敢死队,像当年刘邓大军一样杀出重围!

一往无前的勇气,充盈在每一个研发人员的心中。

“我们只有两种选择:要么是妄自菲薄,临渊羡鱼,望洋兴叹,忍受‘玻璃房子’的侮辱;要么是奋发图强,退而结网,面对强手勇敢拚搏去争一席之地。”国杰说。

经过三年的艰苦拼搏,1993年5月,运算速度每秒6.4亿次的“曙光一号”终于诞生。这项耗资仅200万元人民币的项目,是国内首次以基于超大规模集成电路的通用微处理器芯片和标准UNIX操作系统设计开发的并行计算机,并且达到了同时期国际同类计算机的先进水平。

著名科学家、863计划的倡议者王大珩院士在参观了曙光一号后,曾经感慨地说:“高性能计算机的作用,不亚于两弹一星。”

“曙光一号并行机的创新实践探索了一条在改革开放条件下研制高性能计算机的路线。”曙光信息产业有限公司总裁历军认为,曙光一号打破了国内以往“从芯片和操作系统做起,实现彻底自主研发”的传统模式,由于采取了“有所为,有所不为”和与国际接轨的技术路线,投入的人力和资金也大大减少。为我国在对外开放新形势下研制高性能计算机探索了一条新路。

此后,沿着“有所为,有所不为”的技术路线,曙光的阵营越做越大。先后研制出,曙光1000、曙光2000-I、曙光2000-II和曙光3000,建立了“曙光”这一国产高性能计算机品牌。

美国听到了中国追赶的脚步声

超前思维,超前部署,是21年来863计划高性能计算机课题的一大特点。

进入新世纪,蓬勃发展的互联网热潮不仅改变了高性能计算机的系统架构,还由此带来了面向未来分布、并行、共享、协作、移动、个性化等应用特点。对此,863计划专家组提出了建设国家高性能计算环境(简称计算网格)重大课题。

“这个重大课题的提出改变了过去单纯研制单台超级计算机的思路,这意味着不仅要研制高性能计算机,还要用所研制的机器建立高性能计算环境,更好地支持高性能计算的应用。国家高性能计算环境成为后来建立的中国国家网格的雏形。”钱德沛指出。

在863计划的统一部署下,由曙光、天河、联想三种国产高性能计算机的研制单位承担网格系统软件开发的任务,形成由多种国产超级计算机构成的异构平台,实现了各个节点的协调工作。

“从‘十五’开始,863计划高性能计算机的研发打破了过去定向委托一家承担的做法,引入了竞争机制,注意发挥用户的作用。”钱德沛说,“十一五”期间,通过竞争和用户参与的遴选,曙光公司和联想公司分别赢得了百万亿次高性能计算机的研发任务。

竞争促进了研发,提高了效率。2003年,联想研制成功了深腾6800,系统峰值速度达到每秒5.3万亿次浮点运算,该系统在2003年11月世界超级计算机TOP500中排在第14位。

2004年,曙光4000A研制成功,系统峰值速度每秒11.2万亿次浮点运算,在2004年6月的世界超级计算机TOP500中名列第十。

这标志中国已经成为继美、日之后第三个跨越了10万亿次计算机研发、应用的国家。此时,长期垄断高性能计算机发展的美国人已经听到了中国人追赶的脚步声。

“这两台机器都超过了863重大专项规定的指标。”钱德沛说,依托国产高性能计算机所建立的中国国家网格试验床包含了分布在全国各地的8个结点,聚合计算能力达到18万亿次。在2005年重大专项验收时,中国国家网格的资源能力居世界国家级同类网格的第二位。

千万亿次机实现整体突破

“梦幻天河弹指间,电闪巡地十亿年。滨海坐拥飞流急,倚天妙算出奇篇。”当得知“天河一号”成为世界第一后,项目总设计师、国防科技大学副校长杨学军即兴赋诗一首。

“‘天河一号’之所以能在较短时间内研制成功,离不开863计划的支持,这是走军民融合式自主创新道路带来的高速度与高效益。”国防科大计算机学院政委刘学民说。

“十一五”期间,863计划把高性能计算机的研究推到了新的高度。2006年启动的863计划重大项目“高效能计算机及网格服务环境”将研制千万亿次高效能计算机列为主要目标之一。

从高性能到高效能,一字之差,体现了研究路线的转变。高效能意味着衡量计算机系统的能力和水平不仅要看峰值性能,更要看应用所获得的实际性能,要强调应用程序开发的效率和程序编写的容易程度,要强调现有程序的可移植性。

“从十万亿、百万亿到千万亿的变化不是简单的数量堆叠,而是面临着存储墙、能耗管理、系统可靠性以及并行计算效率等问题的严峻挑战。必须要稳扎稳打,提前预研。”钱德沛说。

根据项目安排,高效能计算机的研制分两步走。一期研制百万亿次高效能计算机,突破千万亿次高效能计算机的关键技术。二期部署了3台千万亿次高效能计算机的研制课题,分别为“曙光6000”系统、“天河一号”、“神威蓝光”。

至2008年,项目一期完成了百万亿次高效能计算机“曙光5000A”和“联想深腾7000”的研制,并开展了异构混合体系结构、超并行处理体系结构、高性能互连等千万亿次高效能计算机关键技术研究,为千万亿次系统的研制成功奠定了基础。

“在863计划的支持下,我们在体系结构技术、异构并行算法、高速互连通信技术、大规模系统资源管理技术以及综合能耗控制方法等方向开展了广泛的技术探索,共获得863项目资助20余项。”杨学军告诉记者。

杨学军说,“天河一号”最大的技术特点是,首创了CPU和GPU异构融合计算体系结构,这为千万亿次超级计算机系统体系结构设计提供了全新思路,“这代表了世界的潮流”。

“天河一号”还采用了我国自主研制的高速互连芯片,芯片性能是目前国际最佳商用产品的两倍以上,使得CPU之间的通信速度得到大幅提升;中央处理器也首次部分采用我国自主研制的“飞腾-1000”芯片。“这再次证明,只要我们找准突破口,坚持自主创新,就能够研制出具有世界领先水平的产品,变‘中国制造’为‘中国创造’。”杨学军信心满满地表示。

除了“天河一号”外,其他两台千万亿次机也熠熠生辉。“曙光6000”在超并行体系结构、高密度低功耗技术和通用CPU与GPU混合协同计算方面获得了创新成果,峰值性能每秒3000万亿次浮点运算,在去年年底的这次TOP500排名中位居第3。

此外,“神威蓝光”千万亿次高效能计算机全面采用自主研制的申威多核处理器实现,在采用国产处理器实现千万亿次高效能计算机系统方面取得了历史性的突破。

尤其可喜的是,在2010年年底的这次TOP500榜单中,中国在前十中占有两席,仅次于美国;在前500强中,我国占了41席,总体占有率8.2%,位居第二。而在2009年11月的TOP500排名中,我国还只有21台,总体占有率4.2%,位列第五。

美国《纽约时报》惊呼:中国正在由一个超级计算机领域的“后起者”向“超级大国”转变。

“这说明,我国的超级计算机研制水平是在以较快的速度发展,中国实现了整体突破。”杨学军说。

钱德沛告诉记者,“十一五”期间,863计划累计投入9.4亿元,带动投资逾10亿元,圆满完成了“高效能计算机及网格服务环境”等项目。“我们5年所投入的钱,还不如美国一个机器的价格,但我们不但造出了3台千万亿次机,更重要的是实现了众多技术突破。”

第二章 产业化是科研成果的最终目标

自主创新必须要有以弱胜强的胆识与魄力,要敢于构建自己的产业链。只有把跨越式创新也推广为大规模的市场价值,才能获得技术创新的持续动力和良性循环。——题记

用863成果成立了一家“巨头”公司

“发展高科技,实现产业化”是邓小平对863计划的殷切期望。21年来,863计划始终把高性能计算机的产业化放在首要位置。强调通过自主创新发展高科技产业,在用市场化机制满足国家战略应用需求上进行了引领性的成功探索。

今天占据国内高性能计算机市场30%份额的曙光公司,正是在863计划的推动和扶持下诞生的。

1995年,当曙光1000研制成功不久,将其进行产业化发展就已提上议事日程。这涉及到我国高性能计算机是一退到底还是积极拼搏力争占领一席之地的战略行动。

国内外的成功经验证明:没有一个企业实体来推动,光靠科研单位努力,高性能计算机产业化只是一句空话。

但钱从哪儿来?坐等国家出钱,不是办法。

曙光研发团队将目光投向市场,是否可以靠863计划的科技成果去吸引风险投资?在风险投资意识尚未蔚然成风的形势下,这样的尝试可谓勇敢。

之后,国内最权威的无形资产评估机构对曙光一号进行十分严格的评估,得出曙光一号的知识产权为2309.3万元。最终在原国家科委的大力支持下,他们以曙光一号无形资产入股,吸引到5500万元现金投资,于1995年成立曙光信息产业有限公司。

当原来的科技项目名称变为公司名字后,据曙光公司老员工回忆,当时他们做的第一件事,就是为自己的产品起一个响亮的名字,而不是以科研上的代号来称呼,“天演、天阔、天潮”等服务器名称,即由此而来。

产业化,说易行难。曙光公司的成立只意味着争取到了一张参加激烈的高技术市场竞争的入场券,能否在竞技场上取得好成绩还要付出比过去多十倍的努力。

此后,曙光公司在一步步的摸索中,建立了一套完善的市场运作机制保障、研发体系保障、科研人才激励机制保障,保证了公司技术创新的持续动力和良性循环。

作为863计划的重要科技产物,如今,曙光公司已经在天津建设了高性能计算机生产基地,完成了从研发、设计、生产和销售服务的完整产业链布局,并且实现了规模化、集团化的产业形态。

避免“靓女待嫁”的“产学研用”模式

在历军看来,今天中国市场能够形成国内品牌和国外品牌各占一半的局面,最主要的原因就是863计划持续21年的投入,不仅研发了一批核心技术,凝聚了一批优秀的技术和市场人员,最重要的是形成了一个包含技术研发、制造、市场推广、配套政策在内的完整产业链。

“科研成果不是摆着看的,是要用的。”863计划提出的产学研用的创新模式,避免了“靓女待嫁”的尴尬。

钱德沛介绍,从“十五”计划开始,863计划对高性能计算机的研制采取了“产学研用”的模式,研制团队均由企业、大学、研究所和应用单位组成,特别强调按用户需求确定研究任务。无论是早一些的曙光4000A、曙光5000A、深腾7000,还是近期的“天河一号”,在立项之初各自就有了“主人”。

这是因为以前863计划曾经研制成功一台高性能计算机,但却没有用户,863计划专家组花了近一年的时间帮忙找用户,最后一台机器一拆为三,3地的3个用户合力才把这台机器“消化”了,总算把“靓女”“嫁”了出去。吸取这一教训,从此863计划的高性能计算机研究坚守“产学研用”的模式,强调以“用”为先。

正是得益于产学研用的研发模式,不但避免了“靓女待嫁”的尴尬,更重要的是由于用户带着资金来参与项目,说明用户迫切需要这台机器,会对机器的性能指标提出具体要求,机器投入运行后自然会发挥最大效用,反过来又推动了高性能计算机的推广,有利于高性能计算产业良好生态环境的形成。

在863计划的高性能计算机项目组里,曙光、联想、浪潮等国内一流的计算机制造商都是重要成员。实践证明,高性能计算机项目的实施不仅提高了我国在该领域的技术水平,而且有效促进了国产高性能计算机的产业化。

“21年来,863计划的技术成果直接促进了我国高性能计算机产业的发展,增强了高性能计算机产品的国际竞争力,迫使国外高性能计算机在国内大幅降价,大大节省了我国应用部门购买高性能计算机的费用。”钱德沛说。

第三章 造得出还要用得好

人类对于高性能计算机的需求是没有止境的,每一个台阶都需要从基础理论到实践技术以及应用技术的重大创新和跨越。——题记 

饥渴的计算需求

曹孟起总是觉得“不解渴”。

作为东方物探地球物理公司(简称:东方物探)研究院的总工程师,曹孟起一直头疼于大量勘探数据带来的计算需求压力。

其实,东方物探拥有一个亚洲最大的处理中心,拥有近4万枚CPU核,其计算能力达到每秒350万亿次,年处理能力三维可达85000平方千米,二维200000千米。

在我国,石油勘探是国内能源行业对高性能计算机需求最大、应用最深的领域。由于具有数据量大、连接外设多、并行任务多、网络体系复杂等特点,石油勘探领域成为高性能计算机的用武之地。

“过去是算不起,现在是算不够,我们一直处于饥渴状态。”曹孟起说。

曹孟起想用上更高、更快、更强的高性能计算机的“愿望”很快得到了满足。

2010年11月,东方物探历经一年半研发,具有自主知识产权的地震成像软件GeoEast-Lightning安装在“天河一号”上,进行数据测试。

在这次计算中,“天河一号”完美的展现了自己“王者实力”。原来在256个节点规模的机群上需要做将近一个月的逆时偏移项目,在“天河一号”上只需16个小时。

在“天河一号”的帮助下,2010年12月24日,东方物探提前将这套突破了国外公司封锁,提升了我国找油找气能力的软件推向市场。

目前,GeoEast-Lightning软件系统已投入东方物理公司研究院处理中心,进行大规模试验生产。试验结果表明,该软件在解决西部复杂构造成像、特殊岩性体成像、潜山成像及盐下成像方面,效果明显优于其他偏移方法。

“原来我们用机器要隔着‘玻璃房子’,现在几乎全都是国产品牌高性能计算机。其中,70%都是曙光的。”在东方物探研究院的科研大楼里,有3层楼摆满了机柜,曹孟起指着其中的一块空地说,“我们马上还要上一批机柜,现在的计算有点跟不上了。”

曹孟起的“不解渴”,反映了一个国家对高性能计算能力的需求和应用水平,而这种应用水平也是一个国家核心竞争力和科技水平的重要标志之一。

广阔的计算前景

千里之外,李根国与曹孟起一样不解渴。只不过他的身份是上海超级计算中心副主任,“目前我们的应用已达到资源的70%—80%,这基本上已经是满负荷了。”

2000年12月,上海市政府面向全国建设了上海超级计算中心。由于地方政府以及超算中心负责人的超前意识,上海超算中心被定义成了“面向公共的计算平台”。

一开始,上海超算中心的用户比较少。“除了用户需求少的因素外,第一批服役的高性能计算机由于机器兼容的问题,限制了潜在应用领域和用户范围。”李根国说。

直到2004年,在863计划的支持下,上海超算中心迎来了开放架构的曙光4000A,曙光系列机器的架构、软件、操作系统都是开放且标准化的,这就意味着系统可以和国际上一些通用软件更好地兼容。兼容性问题解决之后,上海超算中心的用户得到了空前的发展。

用户的急剧增长使得机器很快饱和。2009年,在863计划的支持下,上海超算中心又引进了曙光5000A系列超级计算机,计算规模达230万亿次。

“上海超算中心的两次扩容,每次都是扩容之后很快就排满了应用,很多用户需要排队很久,这充分说明了高性能计算机应用的广泛性。”历军介绍说。

据李根国介绍,在国产支线飞机的研发项目中,因为有了超算中心,原先可能需要耗资10多亿元进行的几百次风洞试验,通过计算机模拟仿真,风洞试验可以大幅度减少;原先上汽集团开发一辆新车,仅进行碰撞试验,就需要消耗80多辆样车,而现在已减为只需10辆左右。

尤其是在科学计算领域,高性能计算机更能一展所长。中科院上海药物研究所利用超算中心的资源,得以在240万个药物分子中,筛选出80多个具有药理活性的子,作为进一步开发药物的基础,研发时间从2—3年缩短到几个月;

目前,上海超算中心的用户80%以上都是科研机构和大学,而其他20%都用于工业生产。

上海超算中心已经是国内运营最成功的公共计算平台之一。“每年我们的机时费能收2000多万元,基本保证了中心的电费等成本开支。”李根国自豪地说。

上海超算中心的满负荷运转让刘光明颇为羡慕,不过他很有信心,“我们的天河一号强大的计算实力,可以满足气象、石油、医药、建筑等对大计算要求高的行业需求。”

测试东方物探地震成像软件只能算是“天河一号”“小试牛刀”。“目前‘天河一号’已在石油勘探、高端装备制造、生物医药、动漫设计等方面为20多家用户提供服务。”刘光明说。

在全国织就一张计算网

高性能计算机的成败在很大程度上取决于其应用。因此,863计划在抓紧环境建设的同时,加强了网格应用的开发。

2006年启动的863计划重大项目“高效能计算机及网格服务环境”提升了中国国家网格的资源能力和服务水平,将其从试验床升级为网格服务环境,从而更好地支持应用。

“重大项目支持了生物医药、能源、航空、气象、大型流体机械等方面的大型并行应用软件的开发,强调以一个程序有效利用数千个处理器核的能力。已经有多个软件达到了有效使用数千核的水平。”钱德沛说,目前,中科院超算中心和上海超算中心目前都有三分之一左右的机时是用于千核以上的应用,这比起5年前的应用状况是很大的进步。

而新一版网格软件CNGrid GOS已经研制成功并完成了部署,它整合了分布在全国各地11个计算中心的计算资源、存储资源、软件资源和应用资源,资源能力和服务水平得到了很大提高。到2010年底,总计算能力达到8000万亿次以上,居世界同类计算环境的领先地位。环境部署了230多个应用软件和工具软件,支持了700多项国家科技计划项目和重要工程项目的研究工作,在支持我国科学研究与大型工程建设方面发挥了重要作用。

此外,基于中国国家网格服务环境、以上海超级计算中心为主要依托而构建的工业设计和仿真优化应用社区也以正式开通。该应用社区在宝钢集团、国家核电、上汽集团、奇瑞汽车等企业得到了应用,取得了初步应用成效。它帮助企业缩短产品研发周期,降低研发费用。

“‘十二五’期间,我国863计划将继续坚持自主创新,推进高性能计算机的研制等工作,大力推进高性能计算机对国民经济、社会的促进作用。”钱德沛告诉记者。

21年漫漫征程,21年激流勇进。863计划推动和见证了一个计算大国的崛起,也预示着未来中国高性能计算机必将勇立潮头!