2018超级计算机研究报告(AMiner发布)

  • A+
所属分类:学术文献 科研助手

摘要

随着计算技术的发展,科学计算对超级计算机的计算能力提出了越来越高的需求,超级计算机为解决国家经济建设、科学进步、国家安全等一系列重大挑战性问题提供了不可替代的重要作用。本研究报告对超级计算机这一课题进行了简单梳理,包括以下内容:

超级计算机概述。报告首先从多个角度对超级计算机进行定义;其次介绍了超级计算机的评价体系,包含 TOP500、Green500 与“戈登·贝尔”奖;接着对超级计算机的研究价值进行介绍,无论是在理论研究层面,还是实际应用层面,超级计算机都做出了突出贡献,并且发挥着越来越重要的作用;最后,我们对超级计算机的发展历程进行梳理,按照时间先后, 结合国家与超算技术架构的发展情况,分为了四个阶段,目前超级计算机处于多向发展阶段, 中国在超算领域的地位迅速提升。

超级计算机技术原理。将超级计算机技术分为基础层、中间层和应用层三个层次来进行介绍。基础层介绍了以异构并行为基础的超级计算机组成,按照并行计算方式是单指令多数据流(SIMD)还是多指令多数据流(MIMD),存储器是共享还是分布,对现阶段超算架构进行了详细的分类;中间层介绍了六大设备与三大网络,包括登录节点、管理节点、计算节点、异构节点、交换设备与 I/O 设备、存储设备、管理网络、计算网络和存储网络;应用层结合了相应的实例,介绍了目前超算的主要应用,包括石油气勘探、生物医药与智能医疗、工程仿真与航天器研发、天气预报与雾霾预警、海洋环境工程、建筑信息模型与基础科学研究。

超级计算机领域人才介绍。基于 AMiner 大数据,对超级计算机领域专家进行深入挖掘和介绍。包括顶尖学者的全球与中国分布、迁徙概况、h-index 分析,并依据 AMiner 评价体系,在世界与中国两个层面各选取十人进行详细介绍。

超级计算机市场统计分析。依据 TOP500 历年数值,按照运算性能与市场份额,对各国超级计算机实力进行了分析。随着 E 级超级计算机的研发,各国对市场的竞争也愈演愈烈。

超级计算机发展趋势预测。超级计算机无论是在科学领域还是工程领域、理论研究还是现实生活中,其应用十分广泛,有着极为广阔的发展前景。本文在结合当前应用的基础上, 对超级计算机未来的发展趋势作出了四点相应的预测,运算速度进一步大幅提升、与 AI 或VP 相融合、量子计算机、生物计算机是目前超级计算机发展的热门趋势。

1. 概述篇

1.1 超级计算机相关概念

(1) 什么是超级计算机?

“Supercomputer”一词最早出现于 1929 年,《纽约世界报》一则关于 IBM 为哥伦比亚大学建造大型报表机(tabulator)的报道中首次使用了它。

《计算机科学技术百科辞典》中将其解释为“具有非常高的运算速度,有非常快而容量又非常大的主存储器和辅助存储器,并充分使用并行结构软件的计算机”。

维基百科解释其为“能够执行一般个人电脑无法处理的大量资料与高速运算的计算机, 规格与性能比个人计算机强大许多。现有的超级计算机运算速度大都可以达到每秒一兆(万亿)次以上”。

通俗来讲,超级计算机又称高性能计算机、巨型计算机等,在计算速度、存储容量等方面有着普通计算机所不具备的超高性能,主要运用于尖端科研、国防军工、产业升级、重大社会问题等大科学、大工程、大系统中,是一个国家科研实力的体现,是国家科技发展水平和综合国力的重要标志。

超级计算机当前以每秒钟浮点运算速度(flops)为主要衡量单位。现有最先进的超级计算机运算速度大都可以达到每秒十亿亿次以上,目前处理速度最快的超级计算机 Summit 实测峰值可以达到 122.300 Pflops(Pflops=1015flops),理论峰值为 187.659 Pflops1;在 2016 年6 月的 TOP500 榜单中,第一名为神威·太湖之光,实测峰值为 93.015 Pflops2;在 2013 年 11月的 TOP500 榜单中,第一名为天河-2A,实测峰值为 33.862 Pflops3;在 2008 年 6 月的榜单中,第一名为 Roadrunner(走鹃),实测峰值为 1.026 Pflops4。可以看到,在 2008-2018 十年间,超算的实际峰值增加了百倍之多,可见超算的运算能力发展极为迅速。目前,超级计算机领域顶尖研究机构正在针对 E 级(Eflops=1018flops)系统的研发进行激烈竞争。

(2) 超级计算机评价体系有哪些?

⚫ TOP500

TOP500 是业界公认的超级计算机性能排行榜。1993 年以来,TOP500 组织会依据基准程序 LINPACK 测试值来评定全球超级计算机五百强,并在每年 6 月和 11 月召开的两次国际超级计算机大会(ISC 和 SC)上公布最新评选结果,其目的是促进国际超级计算机领域的交流和合作,促进超级计算机的推广应用。2010 年,中国凭借天河 1 号首次问鼎 TOP500。

⚫ Green500

如果说 TOP500 是超级计算机性能排行榜,那么 Green500 就是针对超级计算机能效的排行榜。基于 LINPACK Benchmark 模型,衡量计算机每瓦功耗可以提供的计算速率——每瓦性能(Gflops/watts)。与 TOP500 一样,Green500 也是每年发布 2 次,评选出全球能效最高的超级计算机系统五百强。2016 年起,Green500 与 TOP500 开始同时发布。

⚫ “戈登·贝尔”奖

戈登·贝尔奖被认为是超级计算应用领域的诺贝尔奖。设立于 1987 年,由美国计算机协会(Association for Computing Machinery,ACM)于每年全球超级计算大会(SC)上颁发, 象征性奖金 1 万美元,获得者主要是当年在 TOP500 排行中名列前茅的计算机系统的应用团队,例如美国“泰坦”超级计算机、日本“京”超级计算机上的应用软件都曾得奖。该奖项 自设立后,30 多年来一直由美国和日本的软件获得,直到 2016 年 11 月全球超级计算机大 会上,中国科学院软件研究所研究员杨超等人凭借在神威·太湖之光超级计算机上的“千万  核可扩展大气动力学全隐式模拟”研究成果,实现了中国人在该奖项上的首次突破。2017 年, 清华大学地学系副教授付昊桓等人,凭借基于神威·太湖之光的“非线性大地震模拟”再次获得此奖项。

(3) 超级计算机有何研究价值?

随着风险社会的来临,人类面临越来越多的极端灾害天气、能源环境危机等非传统挑战, 在太空探索、基因工程等方面的研究也不断深入。无论是理论研究还是应用问题求解,利用计算方法进行科研已经成为一种重要的手段,同时对计算机运行速度、精确度、储存能力等都提出了更高的要求,计算机能够准确高效地完成大规模问题的计算和海量数据处理成为 当务之急。

作为对时代需求的直接回应,超级计算机在天气预测、污染检测与防控、石油气勘探与地震预测、工程仿真、天体物理建模、纳米材料研发、生物制药与基因对比、大规模人类组织行为、核爆炸模拟、动画效果渲染等领域已经创造了不可估量的价值。与此同时,虚拟现实、人工智能等技术想象的实现,也离不开超级计算机的具体落实。

1.2       超级计算机发展脉络

2018超级计算机研究报告(AMiner发布)

图 1 超级计算机发展历史

(1)    国防驱动阶段(1950s——mid-1960s):军事目标下的国家资助模式图 1 超级计算机发展历史

早期的计算机科学研究有着浓厚的国防军事色彩。20 世纪 50 年代后期,美国政府主要根据国家安全需求来支持情报和核武器应用研究。国家安全是开发高性能计算技术的主要推动力。20 世纪 60 年代初的 IBM 7030 Stretch 和 Sperry Rand UNIVAC LARC 正是在这样的背景之下诞生的,因为其计算速度显著超出顶尖商用机的数量级而被视为早期的超级计算机。

军事目标驱动阶段也是奠定超级计算机技术基础的阶段。早期超级计算机系统中首创的技术,随着后来的商用计算机系统进入工业主流,例如,IBM 7030 虽然被认为并不成功, 但是它催生了许多在后续计算机中发挥巨大作用的新技术,如晶体管逻辑、多线程、存储器保护、通用中断等等;另外,军事目标的主导作用也催生了超级计算机研究的一种典型管理模式——政府资助支持、国防科研单位主导,目前多数拥有超级计算机技术的国际和地区都采取这种模式。

(2)    公司主导阶段(mid-1960s——1970s):成本降低、向量处理起步

20 世纪 60 年代中期到 70 年代末期,美国乃至全球的超级计算机行业主要由两家公司主导,即 Control Data 和 Cray Research。在这一阶段,超级计算机的成本得到有效控制,同时向量处理技术的速度得到了大幅提升,大量廉价高速的计算机走向商品市场。

2018超级计算机研究报告(AMiner发布)

图  2  CDC6600 超级计算机与系统控制台

1964 年,Control Data 的超级计算机 CDC6600 大获成功——在绝对计算能力方面, CDC6600 相比前代超级计算机有了大幅提升(IBM7030 的三倍),以 1Mflops 的运算速度成为 1964-1969 年间最快的计算机;在成本控制方面,CDC6600 以接近甚至低于主流商用机最佳性价比的价格提供超级计算能力。先后有 150 台 CDC6600 被生产出来,在欧美顶级实验室效力于高能核物理研究。

2018超级计算机研究报告(AMiner发布)

图  3  Cray-1 超级计算机及其内部结构

1972 年,超级计算机设计师 Seymour Cray 离开 Control Data 之后创办了 Cray Research, 并在 1976 年研制出具有流水结构的向量机 Cray-1。这种向量机有着较高的性价比,持续计算能力成本与当时的成本性能冠军 Apple II 微型计算机的成本相当;不仅如此,它采用向量体系结构,其中浮点数的向量可以从存储器加载到向量寄存器中,并在算术单元中以流水线方式处理,速度比 CDC6600 等前代标量运算数高得多,向量处理也成为后代超级计算机的理论基石。

(3)    蓬勃发展阶段(1980s——1990s):日本崛起、并行计算流行

从 Cray-1 诞生到 80 年代,Cray 系列超级计算机一直盘在全球计算机处理速度之首,直到 1990 年被日本超级计算机 NEC SX-3/44R 超越,超级计算机研发领域美国一家独大的局面得到改善;同时随着并行计算等技术的成熟,超级计算机速度也到达前所未有的数量级。

20 世纪 80 年代,日本政府大规模补贴计算机科研项目,同时推行排除国外竞争对手的产业政策。到了 90 年代,一批深耕半导体领域的日本计算机公司,如富士通、日立、NEC 等,成功获取 IBM 大型机技术的关键部分,并在本土推出了价格实惠的商用计算机系统。

在高性能超级计算机的研发上,日本将大型机开发技术转移到超级计算机上,使本土产品也逐渐具备了与 Cray 系列超级计算机竞争的能力,例如首次超越美国超级计算机的 NEC SX-3/44R、1994 年富士通使用 166 个向量处理器的数字风洞超级计算机、1996 年日立公司使用快速三维交叉网络连接 2048 个处理器的 SR2201 以及后来的 CP-PACS/2048,基本整个 90 年代速度最快的超级计算机都来自日本。

20 世纪 80 年代,业界开始转向大规模并行运算系统。1976 年问世的超级计算机 Cray-1 是单向量机系统,之后为了进一步提高向量机的性能,在系统中不断增加向量部件的数量, 即采用并行向量或多向量部件的技术。1982 年推出的 Cray X-MP/2 有 2 个向量处理部件,1984 年生产的 Cray X-MP/4 有 4 个向量处理部件,1988 年推出的 Cray Y-MP816 最多可有 8 个向量处理部件,而此后出现的 C90 则有 16 个向量处理部件。进入 20 世纪 90 年代后,向量部件数量已达到数百个,1993 年速度最快的 Intel Paragon 可以拥有 1000 到 4000 个不同配置的 Intel i860 处理器,1995 年的 Cray T3E 拥有 2000 多个处理器,并行计算逐渐成为超级计算机主流。

(4)    多向发展阶段(21 世纪以来):中国赶超、异构集群系统夺魁

21 世纪以来,美、日两国依旧是超级计算机研发大国但是不再具有垄断地位,超级计算机开始呈现多极化发展。MPP 系统、集群系统的应用进一步提高了超级计算机性能,每秒千万亿次的 P 级(1015)超级计算机已经相对成熟,各个国家、各个科研机构和供应商正在 E 级超级计算机的研制中激烈竞争。

从历年 TOP500 名单来看,中国在顶尖超级计算机研发上的努力已经突显出来,自 2010 年凭借天河 1 号首次问鼎 TOP500 后,2013 年到 2017 年中国连续五年盘踞榜首。2018 年 6 月,美国能源部宣布建成超级计算机 Summit,其 LINPACK 浮点运算速度为每秒 12.23 亿亿次、峰值接近每秒 18.77 亿亿次,它由 IBM 与 Nvidia 联合建造,现位于田纳西州的橡树岭国家实验室,并凭借 Summit 这一超级计算机登上 TOP500 榜首。

表  1  历年 TOP500 超级计算机排名第一

公司名称国家时间
IBMSummit美国2018.06 –今
国家并行计算机工程技术研究中心神威·太湖之光中国2016.6-2017.11
国防科技大学天河-2中国2013.06-2016.06
克雷公司(Cray)Titan美国2012.11-2013.06
IBM蓝色基因/Q美国2012.06-2012.11
理化学研究所京(超级计算机)日本2011.06-2012.06
国防科技大学天河-1中国2010.11-2011.06
Cray美洲虎(超级计算机)美国2009.11-2010.11
IBM走鹃(超级计算机)美国2008.06-2009.11
IBM蓝色基因/L美国2004.11-2008.06
日本电气(NEC)地球模拟器日本2002.06-2004.11
IBMASCI White美国2000.11-2002.06
英特尔ASCI Red美国1997.06-2000.11
日立CP-PACS日本1996.11-1997.06
日立SR2201日本1996.06-1996.11
富士通数值风洞日本1994.11-1996.06
英特尔Paragon XP/S140美国1994.06-1994.11
富士通数值风洞日本1993.11-1994.06
TMCCM-5美国1993.06-1993.11

此外,亚洲、欧洲的多个国家在超级计算机领域的相关研究也取得长足进步。根据 2018年 6 月公布的 TOP500 排名,除美国之外,中国、日本、英国、德国、法国等 5 个国家有 10 个以上排名进入 TOP500 的超级计算机,荷兰、韩国、爱尔兰等紧随其后。其中,中国是顶尖计算机数量最多的国家,有 206 台超级计算机进入 TOP500,占比 41.2%,远远超过占比24.8%的美国。尽管如此,我国在 TOP20 的超级计算机数量上依然与美国有较大差距,前 20名的超级计算机中,有 8 个来自美国,只有 2 个来自中国。

到了 21 世纪,出现了许多具有挑战性的应用问题,如气候建模、精密的气象预报、量子染色动力学、海洋环流、污染弥散、模拟核爆炸以及认知和视觉等。这些都要求计算机系统能够在适当的时间内处理更加复杂的问题。所以,必须采用更大规模的附属处理器数,研制具有低功耗、高性能的附属设备,优化编译器和并行编程语言等等。

超级计算机最早的单一处理(single processor)、单指令多数据流(SIMD)、对称多处理(SMP)已经失去竞争优势;TOP500 被群聚集(constellations)、大规模并行计算(MPP) 和集群系统(cluster)瓜分,尤其是集群系统,在 2005 年全球顶尖计算机中一般都采取了这种架构方式。

1.3 典型超级计算机简介

根据 2018 年 6 月最新的超级计算机 TOP500 排名情况5,本文选取排名前三的超级计算机进行简单介绍。

(1)    Summit

Summit,代号“OLCF-4”,是 IBM 为美国能源部旗下橡树岭国家实验室开发建造的超级计算机。机组于 2018 年 6 月 8 日落成,理论运算能力接近 200 Pflops(浮点运算速度每秒 20 亿亿次),超过峰值运算性能 125 Pflops 的神威·太湖之光,2018 年 6 月 25 日正式由TOP500 认证为全球最快的超级计算机。

Summit 一共有 4608 个运算节点,每节点是一台主机,节点内使用 CPU+GPU 异构运算体系,由两颗 POWER9 CPU 以及六块 Tesla V100 运算加速卡组成,CPU 与 GPU 之间的连接采用的是英伟达公司开发的 NVLink 总线,每个节点的 CPU 和 GPU 共用 512GiB 的一致性存储器(GPU 拥有的第二代高带宽存储器,加上 CPU 拥有的多通道 DDR4 存储器),CPU 和 GPU 可相互直接访问这个存储器空间以共用数据,另外还配备了容量高达 800GB的非易失性随机存取存储器(NVRAM)作为突发性缓存或扩展存储器容量之用。

Summit 使用液冷系统,每分钟流量高达 4000 加仑,4608 台主机连同液冷系统的整机组全速运行时的功率就高达一千五百万瓦。仅 GPGPU 部分的双精度浮点数的运算性能就高达 215 Pflops;Tesla V100 内置有用于深度学习运算的 Tensor Core,因此每颗 GPGPU 也能提供约 125 Tflops 的混合精度浮点数性能,而全机组的更高达 3.3 Eflops。

Summit 擅长人工智能、机器学习和深度学习方面的运算,将其运用于动物健康、物理、气候模式等运算,获得的运算结果也比运行同样项目的泰坦更细致。未来还会加入天体分析、超导体、新型材料等方面的研究6。

(2)    神威·太湖之光

神威·太湖之光是由中国国家并行计算机工程技术研究中心研制的超级计算机,2016 年6 月 20 日在 LINPACK 性能测试中以 93 Pflops 的测试结果超越同为中国组建的天河二号(LINPACK 成绩约为 34 Pflops),成为世界上最快的超级计算机,直到 2018 年 6 月 8 日被美国的超级计算机 Summit 超越。

目前神威·太湖之光部署在江苏省无锡市的国家超级计算无锡中心,由清华大学负责运营。它的组件均由中国自主设计生产,是中国大陆首个不使用英特尔等美国公司的核心产品而登上 TOP500 第一名宝座的超级计算机。

“神威·太湖之光”的理论浮点数运算性能为 125435.9 Tflops,在 LINPACK 测试中的实际性能为 93014.6 Tflops,有 74%的效率,相比天河二号(62%)以及排名第三的泰坦(65.8%)都要高。同时它的图形性能也较为突出,在 Graph500 排名中位列亚军。神威·太湖之光系统功耗仅 15.3 百万瓦,且每瓦性能达到 6 Gflops/W,截至 2017 年 11 月为止,在 Green500 能效比排名中排名第 20 位。

清华大学地球系统科学系与计算机系合作,利用“神威·太湖之光”首次实现了百万核规模、高分辨率的地球系统数值模拟。此前,中国大陆的地球模拟系统模式一般采用百公里网格规模的分辨率,但现在已可开展 25 公里网格分辨率的地球系统模拟工作,在海洋上可达到 10 公里分辨率。目前,三十多家用户单位在天气气候、航空航天、海洋科学、新药创制、先进制造、新材料等领域与国家超级计算机无锡中心开展了合作。2016 年,神威·太湖之光上的“千万亿次八百五十万核可扩展非静力大气动力全隐求解器”应用软件获得“戈登·贝尔”奖。2017 年,基于神威·太湖之光的“非线性大地震模拟”再次获得“戈登·贝尔” 奖7。此外,“千万核可扩展全球大气动力学全隐式模拟”、“高分辨率海浪数值模拟”、“钛合金微结构演化相场模拟”、“高分辨率大气模式”、“非线性地震模拟”与“大规模并行图计算 应用”六项应用在 2016-2018 连续三年入围年度“戈登·贝尔”奖提名。

(3)    Sierra

Sierra,代号 ATS-2,是 IBM 为美国能源部下属的劳伦斯利福摩尔国家实验室建造的超级计算机,由美国国家核安全局管理,Sierra 与前文提到的橡树岭国家实验室的 Summit 使用几乎相同的架构。Sierra 的运算节点采用 IBM 的 Witherspoon S922LC Open Power 主机, 每台主机中配备 IBM POWER9 CPU 配以 NVIDIA Tesla V100 运算加速卡,CPU 和加速卡之间使用 NVLink 连接,每颗 CPU 配以两块运算加速卡,节点之间的连接采用 EDR InfiniBand8。

2.     技术篇

超级计算机技术有三个层次:基础层、中间层和应用层。其中,基础层主要是超级计算机的基本原理与方法,应用层涉及超级计算机使用场景,而中间层则包含了数据存储、计算、管理等多重技术支持,正是有了中间层的链接,超级计算机原理才能落实到应用问题解决之中。

2018超级计算机研究报告(AMiner发布)

图 4 超级计算机技术分层

2.1 基础层:以异构并行为基础的超级计算机组成

(1) 基本原理

超级计算的基本原理是并行计算,其优点是可以节省时间、处理大型问题、提高准确度。在这种方法中,整个求解问题被分成 n 干份,然后每个部分各由一个处理机\并行计算,理论上,求解问题可以以 1/n 时间完成,但实际情况中,求解的问题通常不能很好地划分为各个独立部分,各个部分之间必须进行交互,包括计算中的数据传送和同步。因此,超级计算的性能优化之一是提高并行可扩展性。目前来看,硬件层面并行化的实现手段为:多重执行单元、连接结构、多核处理等。

(2)架构分类

按照并行计算方式是单指令多数据流(SIMD)还是多指令多数据流(MIMD),存储器是共享还是分布,可以将超级计算机系统的架构作如下划分:

2018超级计算机研究报告(AMiner发布)

图 5 超级计算机系统的架构分类

早期的超级计算机系统以 SIMD 方式工作。由于系统中的各个处理器按阵列方式排列, 所以又称为阵列处理机。阵列处理机中的存储器可以是共享式的(SM-SIMD),也可以是分 布式的(DM-SDMD)。阵列处理机的专用性较强,一般只适合于求解某类算法,工作效率往往很高。单向量机系统中只有一套向量部件,但存储器为向量部件、标量浮点部件和标量整数率往往和部件所共享,因此属于 SM-SIMD 类型。它有较强的通用性,特别是在求解向 量应用问题时,有很高的效率。

当今的超级计算机系统大多以 MIMD 方式工作。多向量机(multi vector processor,MVP)系统中有多套向量部件,但存储器是共享的,因此属于 SM-MIMD 类型。对称多处理器(symmetric multiprocessor,SMP)系统也属于这一类型。MVP 和 SMP 又称为 UMA(uniform memory access)系统,因为系统中所有处理器对任何存储单元有相同的访问时间。与 UMA 系统相对的系统称为 NUMA 系统,在 NUMA 系统中,存储器是分布的,各访问时间和处理器对同一存储单元的访问时间可能是不同的,依赖于处理器在系统中所处的具体物理位置。NUMA 系统属于 DM-MIMD 类型。需要注意的是,NUMA 系统中的处理器可对远程存储器(即非本地存储器)以 load- store 指令形式进行直接访问,因此该系统有一个统一的存储器逻辑地址空间。NUMA 并行机系统按是否对 Cache 一致性提供硬件支持可进一步分为CC-NUMA(cache-coherent)和 NCC-NUMA(non-cache-coherent)。当存储器全由 Cache 组成时就变为 COMA(cache only memory architecture)系统。

如果并行计算机系统中的处理器必须以消息传递的方式访问远程存储器,就称为NORMA(no remote memory access)系统,它也是 DM-MMD 类型。与 NUMA 系统不同, 它有多个存储器地址空间,且系统中的每个处理器是一个独立的计算机。NORMA 系统按计算机间的互连紧密程度,又分为紧耦合和松耦合两种。集群(cluster)系统是松耦合的典型代表,而 MPP 系统则是紧耦合的典型代表。MPP 系统使用大量的商品化处理节点,用定制的高带宽、低时延互连网络将它们连接起来,存储器在物理上是分布的,必须通过消息传递实现进程间的相互通信,是紧耦合的并行机系统,具有良好的可扩展性。Cray T3E 和 IBM Blue/Gene 系统是它的典型代表。

集群系统中每个节点是一个完整的计算机,可能没有某些外设,节点也可以是一台 SMP 或个人计算机(personal computer,PC)等。它采用商品化的互连网设备,节点机通过 I/O 总线与网络接口相连。每个节点机上留驻有一个完整的操作系统,并有一个附加的中间件以支持单一系统映像和高可用性。

(3)    最新发展

自 1996 年以来,由于挑战性应用问题的急切需求,以及超大规模集成电路技术和网络技术的迅速发展,加快了计算机系统结构的演变和发展进程。虽然开发指令级并行性的超标量技术日臻完善,动态预测执行、显性并行指令计算(explicitly parallel instruction computing,EPIC)等方法也已成功应用到商品化产品中,但随之而来的超标量处理器的设计越来越复杂,以至于进一步开发指令级并行性已变得相当困难。另一方面,为了提高性能,微处理器芯片的时钟频率越来越高,导致功耗的急剧增加和组件装配密度的下降。显然,单纯依赖提升单处理器时钟频率和一味开发指令级并行性以提高计算机性能的方法已不再经济有效, 必须加强对线程级和数据级并行性的开发才能大幅提高计算机性能。

进入 21 世纪之后,多线程、多核技术应运而生,将异构并行计算架构引入超级计算机中,采用专用处理器或者附属加速处理器的方式加以实现。异构并行技术,需要有效开发计算任务的并行性,与机器不同部件支持的计算类型最佳匹配,以充分利用各种计算机资源, 神威·太湖之光、天河二号与天河 2A、红杉等顶尖超级计算机都采取异构并行的处理器架构。

异构并行计算的基本工作原理是,首先析取求解任务的并行性类型,其次将具有相同类型的代码段划分到同一个子任务中,然后根据不同的并行性类型将各子任务分配到最适合执行它的计算资源上加以执行,达到使计算任务总的执行时间为最小的目的。一个异构计算系统通常由以下三部分组成:①一组异构机器,如向量机、MIMD 机、集群、图形处理机等;②将各种异构机互连起来的高速网,可以是商品化网络,也可以是用户定制的网络;③相应的异构计算的支撑软件。

2.2       中间层:六类设备+三大网络

当前 HPC 的主要架构包括 Cluster 集群和 MPP(大规模并行处理)两种,2018 年 6 月发布的 TOP500 中 437 个超级计算机系统为集群架构、占比 87.4%,其余 63 个均为 MPP 架构。典型的 HPC 集群系统主要由五类计算(或网络)设备和三类网络组成。五类设备主要是指管理节点及登录节点、计算节点、交换设备、I/O 设备和存储设备。当前有很多高性能服务器都采用 CPU+加速处理器异构的方式,因此有些集群系统还包括加速节点。

(1)    六类设备:

  • 登录节点,相当于用户访问集群系统的网关,用户通常登录到这个节点上编译并提交作业,是外部访问的唯一入口,需要保证用户节点的高可用性和数据安全性,但是对计算性能要求不高。
  • 管理节点,是集群系统各种管理措施的控制节点,负责监控各个节点和网络运行状况, 运行相应的管理软件。管理节点需要有硬件冗余保护,但是对计算性能要求不高。
  • 计算节点,用于执行计算,一般可以分为瘦节点和胖节点,前者主要用于执行并行运算, 成本相对较低,还可以节约能耗、节省空间,刀片服务器已成为主流;后者用于数据划分困难或者内容需求特别大的特殊应用运算等,价格较高。
  • 异构节点,即加速节点,目前的异构节点通常同时使用 CPU 以及加速器设备(GPU、

MIC 等),或者直接采用异构处理器,以此提升并行运算效率。异构节点也可以是计算节点。

  • 交换设备,集群节点之间需要通过网络连接在一起,节点之间的信息和数据的交换需要使用交换设备,大型集群中,计算网络的交换设备往往采用大型交换机。
  • I/O 设备和存储设备,为了使任务并行执行,每台执行任务的计算节点必须能够访问同样的数据,同时计算产生的大量数据需要有较大的存储空间,用来确保数据访问的同步;另外,高性能计算机的存储系统还起到提高读写带宽的作用。

(2)    三类网络:

  • 管理网络,用于管理节点和各个计算节点、I/O 节点的互联,管理网络连接的机器就是集群内部的本地机器,所以高带宽和低延迟都不需要,同时可以容忍一定的过预定率。
  • 计算网络,用于各计算节点之间的互联,是并行任务执行时进程间通信的专用网络,并行计算机的核心就是它和集群内的其他节点交换信息的能力,通常称为 IPC(Inter- process Communication)。它需要高性能的网络来进行快速交换,才能够发挥出单节点的最大性能;此外,它还决定了系统架构、性能和适合的应用等。计算网络一般采用千兆或万兆以太网、InfiniBand 网络等。
  • 存储网络,需要向高性能计算机的节点提供数据访问服务。

高性能计算机节点规模庞大、硬件设备繁多,软件配置复杂。随着用户数量和作业数量的增加、作业队列数目和长度的增加,有必要对高性能计算机进行更加专业系统的管理和维护以充分发挥其性能。

2018超级计算机研究报告(AMiner发布)

图 6 浪潮集团建构的超级计算机生态结构图

超级计算涉及的关键技术非常多,包括适用于超级计算的多/众核处理器技术、高速大容量的数据缓存技术、能够处理大量并发请求的低延迟高带宽的互联网络技术、低能耗的降温散热技术、任务调度技术、大规模并行文件访问技术等等。

2.3    应用层:解决方案

2018超级计算机研究报告(AMiner发布)

图  7  超级计算机应用示意图

随着计算机科学的成熟,越来越多的科研创新和应用问题解决离不开海量数据、高速计算,超级计算机成为了诸多领域不可或缺的技术手段。

2.3.1        石油气勘探

石油勘探,尤其是石油地球物理勘探,一直是高性能计算技术的传统和主要应用领域。长期以来,油气地球物理勘探技术的发展与应用高度依赖于包括高性能计算技术在内的信息技术的发展,尤其是近年来“两宽一高”(宽方位、宽频带、高密度)勘探技术的普及,和逆时偏移、全波形反演等一系列处理解释手段的应用,使得石油勘探对超级计算机的需求进一步增加。

国家超级计算天津中心基于“天河一号”开展的石油勘探数据处理程序,实现了复杂 地质条件下上千平方公里数据的逆时偏移处理,支持中石油、中石化等单位大规模高精度三维成像处理软件的开发。解决方案与服务内容包括:

①大规模地震数据处理软件的测试服务;②石油地震勘探数据的偏移处理服务,在“天河一号”平台部署了 GeoEast 地震数据处理解释一体化系统和 GeoEast-Lightning 波动方程深度偏移模块,可为用户提供叠前时间偏移、单程波叠前深度偏移和逆时偏移等偏移处理的计算平台服务;③石油应用并行优化开发服务,涉及处理新方法新技术研究、应用软件高性能计算开发与优化、行业信息系统开发等方面的开发服务。

2.3.2        生物医药与智能医疗

超级计算机在探究基因奥秘、蛋白质结构、生物信息以及药物设计等方面已经成为不可或缺的工具,生物医药与智能医疗也就成为了活跃度较高的应用领域之一。依托高性能计算、云计算、大数据及人工智能等技术的高度发展,生物医药、智能医疗技术必将推动医疗事业的繁荣发展,使国民健康行业走向真正意义上的智能化。

生物医药(Biological Medicine)综合应用生命科学与工程科学的原理和方法,从工程学角度,在分子、细胞、组织、器官乃至整个人体系统,多层次认识人体的结构、功能和其他生命现象,研究用于防病、治病、人体功能辅助及卫生保健的人工材料、制品、装置和系统技术。生物医药产业具有创新成本高、投资风险大、研发周期长等特点。而依托高性能计算、云计算及大数据平台开展相关科学研究和项目合作,可以大大缩短研发周期、降低创新成本、整体提高行业和企业的竞争力。

智能医疗(Intelligent Medical)通过打造医疗信息平台、智能诊断系统等,结合大数据、高性能计算和人工智能三大关键技术,结合循证医学和经验医学两大模型,将人工智能技术应用于医疗行业,核心算法融合一系列人工智能算法,白日辅助医生看病,夜间把最新的病例和手册等数据传输回超级计算机中心,进行机器学习,学习与诊断相互结合,显著提高临床疾病的诊断效率和精度。

案例:大规模基因数据处理分析。“天河一号”支持华大基因开展大规模生物基因处理及数据存储:①开发了基于 GPU 的高效基因测序处理软件,并利用该软件进行了 3000 株水稻的基因组重测序分析,短序列比对程序相对于之前应用的 CPU 版本速度提高 15 倍,且输出格式不需要再次进行转换,降低了 I/O 消耗;②构建 Hadoop 平台,将原来华大拥有的 100 个节点规模的计算平台扩展至数千节点,大幅度缩短项目的计算时间;③构建华大基因北方基因库,基因数据规模已经超过 1PB;④开发完成了基于天河系统的群体基因型高分辨率分析软件,使用“天河一号”的 Gaea 软件 15 个小时便能完成人类 64X 的 WGS 数据所有分析过程。

2018超级计算机研究报告(AMiner发布)

图  8  全基因组测序成果

美国能源部和美国国家癌症研究院的联合项目 CANDLE(CANcer Distributed Learning

Environment)旨在实现面向疾病精准医疗职能的 E 级深度学习和模拟。目前此项目正在评估顶级社区开发的深度学习系统(Argonne 的 Theta,Oak Ridge 的 Summit 早期访问系统和LLNL 的 Sierra 早期访问系统),并在此基础上解决癌症的三个问题:RAS 途径问题——是了解在 30%的癌症中存在的 RAS/RAF 途径中关键蛋白质相互作用的分子基础;药物反应问题——开发用于药物反应的预测模型,可用于优化临床前药物筛查并推动针对癌症患者的精确医学治疗;治疗策略问题——自动分析和提取数百万癌症患者记录中的信息,以确定一系列患者生活方式、环境因素、癌症类型和医疗保健系统的最佳癌症治疗策略9。

由 ORNL(橡树岭国家实验室)计算生物学家 Dan Jacobson 领导的一个研究小组利用ORNL 的 Summit 发现植物细胞壁的关键调节基因,这些基因可被操作以增强生物燃料和生物产品。该团队的研究结果发表于 2018 年 5 月的《Frontiers in Energy Research》(能源研究前沿)。

ORNL 用时也与美国退伍军人事务部之间展开战略合作项目,该项目的目标是将临床和基因组数据与机器学习和 Summit 的先进架构相结合,以更好地了解导致心血管疾病、前列腺癌、自杀心理、阿尔茨海默病、药物成瘾等疾病的遗传因素10。

2.3.3        工程仿真与航天器研发

工程仿真 CAE(Computer Aided Engineering),即计算机辅助工程技术,是计算机和工程分析相结合形成的新兴技术,利用计算机辅助求解力学性能的分析计算结果、进行结构性能优化设计,是一种近似数值分析方法。其核心思想是结构离散化,将实际结构离散为有限数目的规则单元组合体,通过对离散体进行分析求解,得出满足工程精度的近似结果,替代对实际结构的分析,可以解决很多实际工程需要解决,而理论分析和实验验证又无法解决的复杂问题。

案例:在航空发动机研制中,气动稳定性是最重要的技术标准之一,需使用工程仿真技术对气压机以及涡轮的效率、涡轮叶片冷却效果等进行分析模拟,通过编制包含稳态及动态过程在内的程序,输入初始参数后,计算得到发动机各截面的气动参数和性能参数,透过航空发动机复杂的设计,直接模拟和观察到其工作特性和结构特性,进行结构设计优化。为达到航空发动机研发的精度要求,需要进行 500-3000 万网格以上的精细计算。通过超级计算机,可避免航空发动机台架试验的难度和危险性,将设计效果验证深度、广度增加,产品设计周期缩短(单个部件的分析时间可从一周缩短为 5 小时),大幅降低设计及试验验证成本,快速提升航空发动机整体创新水平。

2018超级计算机研究报告(AMiner发布)

图 9 某型航空发动机内部三维流动工程仿真效果图

基于“神威·太湖之光”的超级计算机,对“天宫一号”飞行器两舱简化外形(长度 10余米、横截面直径接近 3.5 米)陨落飞行(H=65km、62km、Ma=13)绕流状态进行大规模并行模拟,使用 16,384 个处理器在 20 天内便完成常规需要 12 个月的计算任务,计算结果与风洞试验结果吻合较好,为“天宫一号”飞行试验提供重要数据支持。

2018超级计算机研究报告(AMiner发布)

图 10 大规模并行模拟“天宫一号”两舱绕流状态

2.3.4        天气预报与雾霾预警

数值天气预报(Numerical Weather Prediction)是用数学方法构建方程,将气象数据和边界参数导入方程求解,从而预测大气变化和状态的科学。业务流程大致为:气象数据收集和预处理、数值天气预报流程、综合数值天气预报、天气学与统计学等输出预报结果。它是典型的计算密集型应用(Computing-Intensive),要求建立一个较好的反映预报时段的(短期的、中期的)数值预报模式和误差较小、计算稳定并相对运算较快的计算方法;其次,由于数值天气预报要利用各种手段(常规观测、雷达观测、船舶观测、卫星观测等)获取气象资料, 因此必须恰当地对气象资料做调整、处理和客观分析;再者,由于数值天气预报的计算数据量非常之大,很难用手工或小型计算机去完成,因此,开展数值天气预报必须依赖超级计算机极强的计算能力。

案例:国家超级计算长沙中心为中部某省气象局提供了数值天气预报计算的平台支持, 以提高天气预报、气候预测的及时性、准确性、可靠性和精细化,更早的对灾害性天气进行预警,更好地分析灾害天气情况的规律,更有效地形成防御灾害天气的对策。业务化运营后, 该气象局数值预报能力大幅提升,WRF 模式最高水平分辨率从 20 公里提升为 4 公里,覆盖包括该省在内的 10*10 区域;AREM 暴雨模式水平分辨率从 37 公里提升为 15 公里;该气象局内部原有计算平台对中小尺度系统和强对流发展演变情况无法清晰模拟,但提高模式 分辨率又难以满足时效性要求,超级计算平台解决了该省数值模式业务运算能力不足的问 题,为省级数值模式预报业务发展创造了良好的运算环境,并进一步提高了天气预报预警服务质量和水平。

2018超级计算机研究报告(AMiner发布)

图 11 2015 年 4 月 2 日 08 时~3 日 08 时暴雨过程模式预报图

2018超级计算机研究报告(AMiner发布)

图 12 2015 年 4 月 2 日 08 时-4 月 3 日 08 时暴雨过程实况图

2016 年,“神威·太湖之光”的“千万亿次八百五十万核可扩展非静力大气动力全隐求解器”,由中科院软件所、清华大学、北京师范大学等单位共同研发。项目发展了适应异构众核体架构的隐式求解算法与优化技术,使模拟的性能达到 0.8 亿亿次,与相同优化的显式求解算法相比计算速度提升近两个数量级,可支持 500 米大气动力模拟,是国际上领先的研究成果,将其嵌入到大气模式中,对我国解决高精度气象问题具有重要作用。

2018超级计算机研究报告(AMiner发布)

图  13  大气模拟中不同 kernel 的数据划分和任务调度

2.3.5        海洋环境工程

从海洋环流数值模拟到空气质量实时监测,再到海洋灾害预报等,高性能计算正在以强大计算力帮助人类实现对环境生态的深入洞察,实现海洋环境数值预报的精确性,为我国海洋资源开发以及海洋环境保护提供技术保障。

广州市香港科大霍英东研究院建立的 CMOMS 数值模拟系统,对中国近海环流、生态及碳循环动力系统的调控机理等前沿科学问题进行数值模拟,并在气候变化、全球变暖的背景下,对未来 100 年西太平洋-中国海区域的碳收支、循环及其变异等进行数值预测,为应对中国海域及其附近海域的气候变化提供参考与支持。

“神威·太湖之光”超级计算机实现了 MASNUM 海浪数值模拟的(1/60)°高分辨率的全球海洋模式,通过众核加速以及负载均衡、通信重叠和指令流水等优化手段,模式成功扩展到 8,519,680 核数,达到最高 30.07 Pflops 的峰值性能。该模式基于波数谱空间下能量平衡方程,以海浪谱直接模拟为目标。“神威·太湖之光”使其获得了优异的扩展性与并行效率。

2018超级计算机研究报告(AMiner发布)

图 14 利用“神威·太湖之光“模拟的全球(a)与区域(b)重要海浪高度分布

2.3.6        建筑信息模型

建筑信息模型(Building Information Modeling,简称 BIM)是一项将建筑与信息相结合的综合技术,通过高性能计算机系统对建筑过程中产生的主要数据进行存储处理,可对建筑的规划、设计、施工、运营管理的全生命周期进行信息化管理,优化设计、控制成本、协助管理、提高工程效率与质量,为推动智慧城市的建设与发展起到重要作用。

2018超级计算机研究报告(AMiner发布)

图 15 远程可视化建模

案例:天津滨海新区天河建筑云产业园的建设就是以天河 BIM 云平台为基础的工程项 目。天河 BIM 云平台以工程仿真系统、大数据平台和云平台为依托,为产业园建设提供四类服务:

①BIM 远程可视化建模平台,用户本地无需采购高性能图形工作站、无需安装 BIM 建模软件,只需使用普通配置的主机连接到天河 BIM 云平台提供的桌面或应用程序,即可进行 BIM 远程可视化建模。

②BIM 协同设计服务,以业主为核心,有效管控设计过程,减少设计风险,提高管控质量和效率,实现不同参与方、不同专业的多地点、实时协同工作。

③BIM 仿真模拟,基于天河工程仿真设计平台,为建筑设计提供结构力学分析、流体力学分析和有限元分析等基础环境,如为建筑结构的强度及抗震分析,建筑单体与整体园区的室内外空气流通性等。

④BIM 协同施工管理平台,支持多平台的 BIM 模型浏览。通过二维码实现 BIM 数据与现场信息高效而有序地交互和材料跟踪管理,记录状态信息并同步至 BIM 模型中。现场问题可即时在移动端以照片、文字记录至云平台,方便现场质量管理。计划任务、采集的完成时间与 BIM 结合,形成真实的可视化 4D 进度模拟,辅助进度管理。项目资料(图纸、文档、图片、视频等)分类管理,可与 BIM 构建关联,形成 BIM 资料库。

2.3.7        基础科学研究

随着计算机技术和应用的迅猛发展,利用高性能计算模拟已经成为基础科学研究中不可缺少的重要手段。

在过去几十年中,科研人员在化学、材料科学、生命科学、固体物理、生物物理、生物化学、药物研究等微观领域的研究中,基于量子力学方法发展了大量而可靠的非相对论薛定谔方程和相对论迪拉克方程的近似解法,用来模拟微观世界中原子和分子的相互作用和行为。

例如,①使用并行程序进行密度泛函理论(DFT)计算已经成为材料科学、固体物理、计算化学、计算生物学等领域内必不可少的研究手段之一;②并行实现的高精度耦合簇理论

(CC)和组态相互作用(CI)方法被许多量子化学计算程序采用,成为计算化学的主要工具;③基于牛顿力学并结合了量子力学的分子动力学计算的并行实现,是生命科学、生物物理、生物化学、药物研究等领域的主要模拟手段。

江苏无锡的国家超级计算中心已利用新研发的“神威·太湖之光”超算进行算法库swDNN的深度学习。基于“神威·太湖之光”的异构众核处理器,已开发出针对卷积、矩阵乘等深度学习核心计算模块的算法库 swDNN,通过采用计算任务划分、计算通信重叠、寄存器通信等优化技术,计算模块的计算效率可达到 60%。相比于 K40m 图形处理器(graphics processing unit,GPU)上的 cuDNN 算法库,swDNN 具有 1.91-9.75 倍的双精度浮点数性能优势。这一算法库可为人工智能开发开辟道路,目前国家无锡超算中心与中国电子学会、北京邮电大学合作,开展了以深度学习为核心的围棋人工智能项目。目前已完成软件开发优化, 开始进入训练阶段,目标是利用“神威·太湖之光”这一超算平台,实现中国自己的专业级 围棋人工智能11。

随着具备更强大计算能力的超级计算机的出现,人们可以模拟越来越大规模的微观系统、越来越长时间的微观过程、越来越精细的微观现象,从而极大地增强了对自然的认知能力。时至今日,高性能计算已在基础科学研究、工业工程、公益事业、国防安全等各个领域广泛应用,解决了一些重大、关键、具有挑战性的重要科学和工程问题,对支持科技创新、推动经济发展起到了重要作用。

3.     人才篇

3.1       学者概况

AMiner 基于发表于国际期刊会议的学术论文,对超级计算机领域 h-index 排名全球TOP1000 的学者进行计算分析,绘制了该领域学者全球分布地图。

2018超级计算机研究报告(AMiner发布)

图 16 超级计算机全球学者分布图

上图是以“supercomputer”为关键词,在 AMiner 数据库中得到的全球超级计算领域人才分布图。由图可见,美国在这一领域人才最多、最为集中,中国紧随其后,西欧的英国、荷兰、德国、意大利、瑞士,亚洲的日本、印度等也有不少超级计算机人才,南美洲、非洲和大洋洲则人才比较匮乏。这与国家超级计算机发展水平呈正相关。

2018超级计算机研究报告(AMiner发布)

图  17 超级计算机全球学者迁徙图

2018超级计算机研究报告(AMiner发布)

AMiner 选取超级计算机领域 h-index 排名 TOP1000 的专家学者,对其迁徙路径做了分析。由上图可以看出,各国超级计算机领域人才的流失和引进是相对比较均衡的,其中美国是超级计算机领域人才流动大国,人才输入和输出幅度都大幅度领先,且从数据来看人才流入略大于流出。英国、德国、中国和加拿大等国人才流动量落后于美国,英国和中国的人才流入量大于流出量,德国和加拿大有轻微的人才流失现象。

图  18  全球超级计算机领域 TOP 学者 h-index 分布图

全球超级计算机领域 TOP 学者 h-index≤10 的人数最多,占比 67.17%,h-index 在 10-19 之间的学者人数次之,占比 16.52%,h-index≥60 和在 50-59 之间的学者人数最少,前者占比 1.21%,后者占比 0.71%。

2018超级计算机研究报告(AMiner发布)

图 19 全球超级计算机领域 TOP 学者性别比例

全球超级计算机 TOP 学者男性占 97%,女性占 3%,男女人数相差悬殊。

2018超级计算机研究报告(AMiner发布)

图  20  超级计算机学者中国分布图

我们以“supercomputer”为关键字在 AMiner 数据库中对国内超级计算机人才进行挖掘,得到了国内超级计算机人才(全球 TOP1000 中分布于中国的学者)分布图。超级计算机学者在中国集中于北京及广州等有计算机基础的地方。

AMiner 基于发表于国际期刊会议的学术论文,对超级计算机领域内的专家进行深入挖掘,并按照相关度和影响力等对专家进行排序和分类,排序和分类规则主要参考专家的 h-index、paper、citation、专家所获得的荣誉、任职机构排名、专家 Activity、Sociability 以及Diversity 等。我们按照 AMiner 提供的数据选取国内外 10 位学者做简单介绍。由于本报告篇幅有限,只列出部分学者信息,如有更多相关学者信息需求,请与作者联系。

3.2       国外学者

⚫Jack Dongarra

2018超级计算机研究报告(AMiner发布)

Jack Dongarra,田纳西大学电子工程与计算科学系教授、橡树岭国家实验室高级研究人员、全球超级计算机排行榜 TOP500 发起人,该排名中的基准程序 LINPACK 的作者。

求学工作经历:1980 年,Jack Dongarra 在新墨西哥大学获得应用数学专业博士学位, 后在阿贡国家实验室工作到 1989 年,目前担任曼彻斯特大学图灵研究员、莱斯大学计算机科学系兼职教授、得克萨斯 A&M 大学高级研究所的教职研究员。

研究领域:Jack Dongarra 擅长线性代数中的数值算法、并行计算、高级计算机体系结构的使用,编程方法以及并行计算机的工具,研究包括高质量数学软件的开发,测试和文档编制。他为 EISPACK、LINPACK、BLAS、LAPACK、ScaLAPACK、Netlib、PVM、MPI、NetSolve、Top500、ATLAS 和 PAPI 等开源软件包及系统的设计和实现做出了突出贡献。

获奖情况:他是美国科学促进会、ACM、SIAM 和 IEEE 的会士,俄罗斯科学院的外国 成员和美国国家工程院院士。此外,2004 年因其在使用创新方法应用高性能计算机方面的 贡献,获得 IEEE Sid Fernbach 奖;2008 年获得了 IEEE 可扩展计算卓越奖;2010 年成为 SIAM 特别兴趣小组第一位获得超级计算职业成就奖的人;2011 年获得 IEEE 计算机学会 Charles Babbage 奖;2013 年因设计和推广用于解决高性能计算常见数字问题的数学软件标 准而领导 ACM IEEE Ken Kennedy 奖。

2018超级计算机研究报告(AMiner发布)

⚫ Ian T.Foster

Ian T.Foster,芝加哥大学教授、贡国家实验室联合研究所计算研究所所长、资深科学家和杰出研究员。

求学工作经历:Ian T.Foster 在英国帝国理工学院获得计算机科学博士学位,于 2006 年至 2016 年间担任芝加哥大学和阿贡国家实验室联合项目计算研究所(CI)主任。

研究领域:Ian T.Foster 擅长分布式、并行和数据密集型计算技术以及这些技术在气候变化和生物医学等领域的科学问题的创新应用。由他领导开发的算法和软件为许多大型国家和国际网络基础设施奠定了基础。

获奖情况:他是美国科学促进会、计算机协会、英国计算机协会的资深会员,还是云计算公司 Univa UD Inc.的联合创始人。同时,2001 年获得“戈登·贝尔”奖;2011 年获得 IEEE Tsutomu Kanai 奖;2012 年获得 ACM 首批高性能计算和分布式计算成就者荣誉;2017 年获得 Euro-Par 成就奖。此外他还获得过全球信息基础设施(GII)下一代奖、英国计算机协会的 Lovelace 奖章、R&D 杂志的年度创新奖等。

2018超级计算机研究报告(AMiner发布)

⚫ Marc Snir

Marc Snir,以色列裔美国计算机科学家、伊利诺伊大学香槟分校计算机科学系教授、美国阿贡国家实验室数学与计算科学部门主任、P 级超级计算机 Blue Waters 的首席研究员、英特尔和微软资助的通用并行计算研究中心(UPCRC)联合主任。

求学工作经历:1979 年,Marc Snir 在耶路撒冷希伯来大学数学系学习获得博士学位,

1980 年至 1982 年在纽约大学负责 Ultra Computer 项目工作,1982 年至 1986 年回希伯来大学工作,之后加入 IBM,担任 IBM TJ Watson 研究中心的高级经理。他领导的可扩展并行系统研究小组对 IBM SP 可扩展并行系统、IBM Blue Gene 超级计算机做出突出贡献。2001 年至 2007 年在伊利诺伊大学香槟分校担任计算机科学部主任,2011 年至 2016 年担任阿贡国家实验室数学和计算机科学部主任。

研究领域:Marc Snir 擅长计算复杂性、并行算法、并行体系结构、互连网络、并行语言和库以及并行编程环境等细分领域。

获奖情况:Marc Snir 是美国科学促进会(AAAS)会士(Fellow)、美国计算机协会(ACM)资深会员和美国电子电气工程师协会(IEEE)会士、获得 IEEE 可扩展计算卓越奖和 IEEE Seymour Cray 计算机工程奖。

⚫  Bronis R.De Supinski

2018超级计算机研究报告(AMiner发布)

Bronis R. De Supinski,劳伦斯利弗莫尔国家实验室(LLNL)Livermore Computing 项目的首席技术官(CTO),负责制定 LLNL 的大规模计算战略并监督其实施。

求学工作经历:1998 年,Bronis R. De Supinski 在弗吉尼亚大学获得计算机科学专业博士学位,并于 1998 年 7 月加入 LLNL 应用科学计算中心(CASC)。目前,主要领导 Exascale计算技术(ExaCT)项目,探讨与未来大规模系统相关的编程模型、算法、性能、代码正确性、弹性等几个相关的课题。并且领导高级仿真和计算(ASC)计划下属的应用程序开发环境和性能团队(ADEPT),负责 LLNL 大型系统的开发环境,包括编译器、工具和运行系统。

研究领域:主要包括数据挖掘技术及其在性能分析和建模上的应用,包括通过非线性回归技术进行性能建模(即人工神经网络和分段多项式回归),研究机制和工具以改善记忆性能,MPI 的各种优化技术和工具,以及 OpenMP 的几个问题,包括其内存模型和工具支持。

获奖情况:他是 ACM 和 IEEE 计算机学会的资深成员。此外,其于 2005 年、2006 年两次获得“戈登·贝尔”奖,凭借在新型可扩展调试工具的团队中的领导能力获得 R&D100。

⚫ Satoshi Matsuoka

2018超级计算机研究报告(AMiner发布)

Satoshi Matsuoka,日本东京工业大学教授,日本理化学研究所带头人,2018 年 4 月被任命为日本最大的超级计算机中心 RIKEN 的计算科学中心负责人。他曾是 TSUBAME 超级计算机项目的首席研发专家,将继续负责监督 K-computer 的后续研究 Post-K 的研发进展。

求学工作经历:1986 年,Satoshi Matsuoka 从东京大学毕业,学生时代在日本视频游戏公司 HAL Laboratory 工作,并与后来的任天堂 CEO Satoru Iwata 共同开发任天堂和滚球的弹球,1989 年 Matsuoka 成为东京大学的研究助理和讲师,1993 年提交了题为“可扩展性和在并发面向对象语言中重用的语言特征”的论文,并获得博士学位,1996 年成为东京工业大学的助理教授并于 2001 年成为正教授,领导了东工大 TSUBAME 系列超级计算机的建设。现入职日本理化研究所。此外他还是日本国家信息学研究所的客座教授、美国计算机协会(ACM)会士。

研究领域:主要是大型超级计算机和类似基础设施的系统软件,例如用于 HPC 的云计算,大数据/人工智能与 HPC 的融合,以及调查后摩尔技术。参与并领导了许多大型协作项目,对超级计算机基本元素如容错、低功耗、强可扩展性、可编程性以及大规模的 I/O 等有深入研究。

获奖情况:他是超级计算机大会(SC)委员会委员、国际超级计算机大会(ISC)会士,“戈登·贝尔”奖评奖委员会主席。此外,他曾获 1999 年获得日本 Sakai 奖,2005 年获得日本科学促进会奖,2011 年获得“戈登·贝尔”奖,2014 年获得 Sidney Fernbach 奖。

3.3       国内学者

  • 杨广文
2018超级计算机研究报告(AMiner发布)

杨广文,清华大学计算机科学与技术系教授、高性能计算研究所所长、地球系统数值模拟教育部重点实验室主任、国家超级计算无锡中心主任。

求学工作经历:1996 年,他在哈尔滨工业大学获得计算机系统结构专业工学博士学位。 现担任“国家 863 高效能计算机及网格服务环境”重大项目总体组专家、国家超级计算无锡中心主任。

研究领域:他擅长分布式信息服务与集成技术、网格关键技术、网格应用支撑与网格应用、高性能计算技术等方面,并取得了一些创新性成果。主持参加了多项 863、973、国家自 然科学基金等重点项目的研究。

获奖情况:他曾获 2016 年和 2017 年“戈登·贝尔”奖。在国内外杂志和学术会议发表 学术论文上百篇,获国家科技进步二等奖 2 项、部级科技进步二等奖 1 项、中创软件人才 奖、清华大学青年教师教学优秀奖。

  • 廖湘科
2018超级计算机研究报告(AMiner发布)

廖湘科,现任国防科技大学计算机学院院长、天河二号总设计师。

求学工作经历:1985 年,他获得清华大学计算机系学士学位,1988年于国防科技大学计算机学院获得硕士学位。现任国防科技大学计算机学院院长,研究员。

研究领域:他长期从事高性能计算机系统软件与通用操作系统的科研工作,参加了银河二号到银河 Y 四代高性能计算机的研制,主持了天河一号、天河二号高性能计算机的研制, 主持了麒麟操作系统的研制。

获奖情况:廖湘科 2015 年当选中国工程院院士。获国家科技进步特等奖 1 项、一等奖3 项,部委级科技进步一等奖 8 项,为我国高性能计算机系统研制跻身世界领先行列、为国产基础软件的安全可靠发展做出重要贡献。此外,其曾获光华工程科技奖、中国青年科技奖、“求是”奖、中国计算机学会王选奖等。

  • 钱德沛
2018超级计算机研究报告(AMiner发布)

求学工作经历:1977 年,他毕业于西安交通大学计算机专业,1984 年获得美国德克萨斯州北德州立大学硕士学位,1991 年 6 月至 92 年 3 月作为高级访问学者,在德国汉诺威大学计算机系统结构与操作系统研究所进修工作,1992 年起任北京航空航天大学教授。自 1996年起任国家 863 计划专家组专家,现任国家 863 计划“高效能计算机及应用服务环境”重大项目总体组组长、国家 973 计划信息领域咨询专家组成员、国家基金委重大研究计划“高性能科学计算的基础算法预科计算建模”指导专家组成员、CNGI 专家委员会委员。

研究领域:主要包括高性能计算机体系结构、分布式系统、众核处理器并行编程等。获奖情况:他曾主持完成国家自然科学基金、863 计划、973 计划、国际合作计划等多项课题的研究工作,发表论文 300 余篇,获国家科技进步二等奖一项,北京市科技进步一等奖一项。

  • 王恩东
2018超级计算机研究报告(AMiner发布)

王恩东,中国工程院院士,高效能服务器和存储技术国家重点实验室主任,浪潮集团首席科学家。

求学工作经历:1991 年,他在清华大学获得硕士学位,2015 年当选中国工程院院士,2016 年 1 月 19 日,被评为“2015 中国科学年度新闻人物”。浪潮集团首席科学家、浪潮 K1 的研发者,曾担任高效能服务器和存储技术国家重点实验室主任,主机系统国家工程实验室主任,863 计划信息领域专家,中国计算机学会副理事长等职。发表论文 22 篇、出版专著 3 部,授权中国和美国发明专利 26 项。2017 年 5 月,获得全国创新争先奖。

研究成果:王恩东和他的技术团队打破了高端容错计算机、人工智能超级计算机等前沿技术长期被国外垄断的局面。自主研发的云计算服务器、云数据中心操作系统、模块化数据中心、人工专用平台等前沿技术和装备,融合架构云服务器系列产品,在开放计算领域都达到了国际领先水平。

  • 杨 超
    2018超级计算机研究报告(AMiner发布)

杨超,中国科学院软件研究所研究员(2018年.2为北京大学教授),荣获 2016 年“戈登·贝尔”奖。

研究成果:自 2007 年起,杨超就带领团队在面向大气动力学模拟的全隐式求解器算法和软件研究方面辛勤耕耘。历经了“蓝色基因/L”、“曙光 5000A”、“深腾 7000”、“天河一号”以及“天河二号”等国内外多代超级计算机系统的考验后,杨超团队最终在国产“神威·太湖之光”这一配备了国产众核处理器的世界顶级超级计算机系统上取得了突破。 研究团队重新设计了基于区域分解、多重网格和不完全矩阵分解技术的新型求解器算法,在国际上首次研制出一套具有千万核扩展能力、适应于“神威·太湖之光”等众核体系结构特 征的全隐式求解器软件,并在非静力大气动力全隐求解中取得良好的应用效果。

4.     市场篇

表 2 各国排名进入 TOP500 的计算机数量情况(2018 年 6 月)

排名国家和地区排名进入 TOP500 的计算机数量所占百分比处理器总数
1中国20641.2%25,107,680
2美国12424.8%15,829,720
3日本367.2%7,170,408
4英国224.4%1,678,220
5德国214.2%1,422,814
6法国183.6%1,816,720
7荷兰91.8%424,800
8韩国71.4%843,300
9爱尔兰71.4%334,824

作为世界高性能计算领域规模最大的权威会议之一,国际高性能计算大会每半年公布一次全球超级计算机 TOP500 榜单。根据超级计算机 TOP500 最新榜单,中国已经成为全球拥有最多超级计算机的国家,全球 TOP500 的超级计算机中,有 206 台是中国研制的,美国则拥有 124 台。

表 3 2018 年 6 月超级计算机 TOP500 前十

排名名称国家场所供应商
1Summit美国橡树岭国家实验室国际商业机器公司
 2神威·太湖之光中国国家超级计算无锡中心国家并行计算机工程技术研究中心
3Sierra美国劳伦斯利福摩尔国家实验室国际商业机器公司
 4天河-2A中国国家超级计算广州中心中国人民解放军国防科学技术大学
5ABCI日本国家先进工业科学技术研究所富士通株式会社
6代恩特峰瑞士瑞士国家超级计算中心克雷公司
7泰坦美国橡树岭国家实验室克雷公司
8红杉美国劳伦斯利福摩尔国家实验室国际商业机器公司
9Trinity美国洛斯阿拉莫斯国家实验室克雷公司
10Cori美国国家能源研究科学计算中心国际商业机器公司

上表对 2018 年 6 月超级计算机 TOP500 的前十名做了列举。由 TOP500 的排名可以发现,除了排名第二的神威·太湖之光,前五名中的其余四个都是新建或是大幅升级过的系统。在一年没有进入前三以后,美国两台新系统机器此次分别占据第一和第三的位置,中国的顶级超级计算机系统占据第二和第四的位置,日本的超级计算机系统占据第五的位置,欧洲的超级计算机(瑞士)占据第六的位置。美国能源部橡树岭国家实验室(ORNL)的最大系统Titan 现在位列第七。前十中,第一的 Summit、第三的 Sierra 及第五的 ABCI 系统均使用NVIDIA Volta GPU 实现其性能。第六的 Piz Daint 和第七的 Titan 系统则使用其他的 NVIDIA GPU 进行加速计算。

目前超级计算机厂商排名前五的分别是联想、惠普、浪潮、Cray 和曙光,中国占三家, 美国占两家;市场份额依次为 23.8%、15.8%、13.6%、11.2%、11%。

尽管中国在拥有超级计算机的数量上占优势,但目前全球速度最快的超级计算机为美国所拥有。在美国橡树岭国家实验室的 Summit 超级计算机发布后,美国劳伦斯利弗莫尔国家实验室的 Sierra 和日本的 ABCI(AI Bridging Cloud Infrastructure)也紧随其后。目前,研究人员已经开始着手解决下一代计算机的挑战——研制 E 级超级计算机(1Eflops=1018flops, 百亿亿级)的超级计算机,中国、欧盟、日本在超级计算机领域的持续发力,或许也会对

Summit  榜首的宝座构成威胁。此前凭借“神威·太湖之光”,中国已经两度拿下国际高性能计算应用领域的最高奖项“戈登·贝尔”奖。超级计算机市场竞争进入了白热化的阶段。

5.    趋势篇

2018超级计算机研究报告(AMiner发布)

图 21 超级计算机相关研究近期热点关键词及其走势

AMiner 通过挖掘 1980-2017 年间超级计算机领域论文信息,计算出超级计算机近期热点。图中每个彩色分支表示一个关键词领域,其宽度表示该关键词的研究热度,各关键词在每一年份(纵轴)的位置是按照这一时间点上所有关键词的热度高低进行排序。分析发现:

80 年代到 90 年代中后期,超级计算机相关研究中热度较高的关键词为“并行处理(parallel

processing)”、“高性能计算(high performance computing)”等技术基础;1996 年到 2004年期间,评价类关键词如基准问题测试(instruction sets)、热度提高等部分后续研究热点陆续出现;2004 年以来,超级计算机整体热度大幅提升,其中能源效率(energy efficient)、程序设计模型(programming model)、图形处理器(graphics processing units)等应用类方向成为研究重点。

根据专家提供的资料和相关新闻报道,未来超级计算的发展趋势包括但不止于以下几点:

(1)    速度大幅提升

当前,世界 TOP500 的超级计算机,基本都可以达到 P 级(1Pflops=1015flops)运算速度,各个国家正在 E 级超级计算机的研制中激烈竞争。未来超级计算机研究不仅要在高性能计算系统、网络架构、系统软件、应用支撑等关键技术上取得突破,更要面临生态环境、可靠性、应用编程、多领域应用融合等多方面的挑战。

根据历年来超级计算机速度提升情况,TOP500 组织预计 E 级(1Eflops=1018flops)超级计算机将有望于 2020 年出现。美国“国家战略计算项目(NSCI)”计划在 2023 年底将开发完成 2 套 E 级超级计算机系统。

(2)    与 AI、VP 融合

随着全球移动互联网、物联网等快速发展,人类可获取利用的数据正以爆炸式的状态增长,预计 2020 年全球数据量将超过 4 万亿 GB,这些海量的大数据通过最新的深度学习技术将为人类社会创造难以估量的价值。在新的技术阶段,高性能计算云计算与大数据相互融合的趋势会更加明显,并将在人工智能、虚拟现实、高性能数据分析等新领域得到更广泛的应用。面向应用优化的高性能计算系统研发、智能化的系统管理调度等将成为发展趋势。

(3)    量子计算机

2017 年年底,IBM 宣布成功建成并测试全球首台 50 个量子比特的量子计算原型机,一度被媒体认为秒杀当时最快超级计算机“神威·太湖之光”。量子计算机(Quantum Computer) 是一类遵循量子力学规律进行高速数学和逻辑运算、存储及处理量子信息的物理装置,当某个装置处理和计算的是量子信息,运行的是量子算法时,它就是量子计算机。从可计算的问题来看,量子计算机擅长解决几类传统计算机难以解决问题,从计算的效率上,由于量子力学叠加性的存在,目前某些已知的量子算法在处理问题时速度要快于传统的通用计算机。目前量子计算机还处于发展的初级阶段,但其研制吸引了多家重要的互联网厂商。

(4)    生物计算机

生物计算机也称仿生计算机,主要原材料是生物工程技术产生的蛋白质分子,并以此作为生物芯片来替代半导体硅片,利用有机化合物存储数据,具有生物体的一些特点,如能发挥生物本身的调节机能,自动修复芯片上发生的故障,还能模仿人脑的机制等。生物计算机的运算速度要比当今最新一代计算机快 10 万倍,它具有很强的抗电磁干扰能力,并能彻底消除电路间的干扰,能量消耗仅相当于普通计算机的十亿分之一,且具有巨大的存储能力。量子计算机和生物计算机既是超级计算机的竞争对手,也是重要的融合发展方向。

参考文献

  • Graham S,Snir M,Patterson C. Getting Up to Speed: The Future of Supercomputing [J] National Academies Press Washington Dc,2004
  • 国家超级计算机天津中心 HPC 应用领域 http://www.nscc-tj.gov.cn
  • 湖南大学国家超级计算机长沙中心应用领域 http://nscc.hnu.edu.cn/info/1071/1093.htm
  • 国家超级计算无锡中心 .http://www. cn/introduction.php?word=introduction&i=34
  • 李硕,唐胜男 高性能计算机体系结构综述 [J] 北京邮电大学网络与交换技术国家重点实验室
  • 葛蔚,郭力,李静海,陈左宁,胡苏太,刘鑫 [J] 关于超级计算发展战略方向的思考中国科学院院刊,2016
  • 顾蓓蓓,迟学斌,武虹,赵青 [J] 国内大型超算中心系统及应用发展态势比较分析,2017
  • 钱德沛 国家高性能计算发展状况 [J] 科研信息化研究与发展,2014
  • 赵毅,朱鹏,迟学斌,牛铁,曹宗雁 浅析高性能计算应用的需求与发展 [J] 计算机研究与发展,2007
  • 迟学斌,朱鹏,武虹等 世界各地超级计算中心的发展概况 [J] 中国计算机学会通讯,2008
  • 陈左宁 进入新时代的超级计算机 [J] 九三论坛,2017
  • top500.org
weinxin
我的微信公共号
我的微信公招扫一扫

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: