第604期【齐悦读—线上共读—透视新科技】 “齐悦读”[线上共读] 《天河二号》
(通讯员 邓辉)
讲座题目:透视新科技——天河二号
主 持 人:胜 春
做客嘉宾:李 琼,国防科技大学教授。
菅晓东,国家超级计算天津中心高级工程师。
讲座时间:2024年10月14日~10月20日
(备注:讲座视频可循环播放)
透视新科技——天河二号
讲座内容:
各位好,欢迎收看我们今天的《透视新科技》节目,我是主持人胜春。在超级计算机领域当中,国际上有一个赛事,相当于体育界的奥运会,在这项赛事当中,我们国家的超级计算机天河二号连续六届取得了冠军,那这到底是一项什么样的赛事?天河二号又“牛”在哪里呢?通过短片来进入我们今天的节目,数字化技术的应用让社会变成了一个数据的海洋。数据的处理和运算速度影响着各个行业的正常运转和发展,也正因为如此,超级计算机诞生了。为了检验超算的能力,1993年世界超级计算机TOP500排行榜诞生,它是用统一的软件测试出超算的运算速度,以此为基准,每年两次发布世界上运算能力最强的500台超级计算机排名。由于参与这一榜单,没有国籍等条件限制,世界任何国家的所有超算都能参赛,因此,这就成为了世界上最权威的超算榜单,堪称超算领域的奥运会。2010年,国防科技大学研制的天河一号打破美日两国对冠军的垄断,在榜首位置留下中国超算的名字,改写了超算行业格局。在此之后,我国科研工作者再接再厉,研制出天河二号超级计算机。自2013年起,天河二号连续六次摘得“全球超级计算机500强”冠军,创造了超算行业,至今无人能够打破的记录,那么这台“冠军”计算机和普通计算机有哪些区别?这个“冠军”头衔与普通人又有什么关系呢?
首先,我们给大家介绍一下我们今天请来的两位嘉宾,一位是国防科技大学的教授李琼,欢迎您!另外一位是国家超级计算天津中心的高级工程师菅晓东,欢迎您!当我们在超级计算机领域获得世界冠军的时候,那是什么心情?我看到台下的所有的这个外国学者全都站起来鼓掌,因为之前都是美国、日本拿TOP500全球超级计算机排行榜,突然有一个中国人,当时是我们卢院长,我看他是热泪盈眶。去领奖的时候,标志着我们中国继美国、日本之后,超级计算机研制能力跨进了世界前列,在超级计算机研制技术方面,上了一个台阶。天河二号获奖的意义是什么?排名去拿个奖还不是最终的目的,超级计算机主要是要用于科技创新和产业革命,我们知道科学研究是有四种手段。以前传统是三种手段,一个是理论推导,二是物理实验、实验验证,三是基于计算机做模拟计算。现在又多了一种手段,是大数据分析,也是基于超级计算机来进行大数据分析,所以说超级计算机就提供了科学研究的重要手段。对普通人来讲,对超级计算机是没有概念的,两位能给我们解释一下?什么是超级计算机?到底超级在哪里了?
其实超级计算机与普通计算机的组成方面,差别并不是很大,但是超级计算机并不是一个把这个硬件简单地堆砌在一起就可以了,它是通过集群管理系统,把一个个服务器统一地协调管控起来。打个比方说,假如说每一个计算节点是一个战士的话。我们把一堆战士聚集在一起,如果没有一个高速指挥控制系统,如果没有一个高速指挥控制系统,那这些战士还是散兵,就是一盘散沙,通过集群管理软件统一发号施令,就相当于一个指挥部,这样就使战士汇聚在一起,以少胜多就具有超超强的战斗力。这样就使超级计算机发生了质变,具有不同于普通计算机的三个技术特点,一个是速度超级快,二是容量超级足,三是体积超级大,速度超级快,天河二号,我们升级以后的天河二号达到了10亿亿次。打个比方就是天河超级计算机一分钟的计算速度,全球72亿人要算25年,这是速度超级快,容量超级足。像天河二号它的存储容量是普通计算机的百万倍以上,一本图书假如说是10万字,那可以存储1000亿册这样的图书。然后就是体积超级大,天河二号有170个机柜,整个占了720平方米,一般就是超算中心都是一栋楼。广州超算中心、天津超算中心都是一栋很大的楼,因为还有供电、散热配套设备,所以这个体积是超级大。天河二号为什么有这么强的性能?它到底采用了哪些技术?我们通过短片去了解一下。
天河二号超级计算机由170个机柜、16000个计算节点构成。它的集群管理软件可以控制超算中的上万颗处理器,共同协作完成任务。当这些处理器全力工作时,功率接近18000千瓦,与两列动车组的功率相仿。一台超级计算机需要有三方面的核心技术,除了高效的集群系统管理软件和先进的处理器外,还需要高速互联网络。天河二号的光电混合高速互联网络,可以成为上万个计算节点间的信息高速公路,使超算内部海量数据交换畅通无阻。我国在系统结构和高速互联网络方面,均具有世界最顶级水平,但是我国的中央处理器制造技术与国际先进水平还有一定差距。为此,国防科技大学采用中央处理器和图形加速器组合模式共同组成一个运算节点,从而极大地提高了运算效率,使天河二号成为世界最强大的超算。目前每天有近千个课题组,使用天河二号完成各种数据计算任务,并且所有工作可以在云端远程操作完成。那么天河二号究竟能在哪些领域发挥作用?这些工作又能给我们的生活带来哪些改变呢?超级计算机它到底能干吗?
实际超级计算机的应用,我们为了让老百姓能通俗地明白我们到底能干啥,就把它比喻成叫算天、算地、算人。实际上这个算天,我们主要指的是航空航天,天气预报,还有宇宙演化模拟等等这些领域,它都需要接触到超计算机,比如咱们老百姓每天看的天气预报,实际上它是依托两个主要的技术手段,一个就是卫星云图,一个就是数值模拟计算。这个数值模拟计算,就需要用到超级计算机,实际我们的天气预报,主要它是在解方程,就是通过一系列的微积分或者偏微分方程来得到,一些具体的数值解,通过这些数值的结果,来预测未来的天气。说到天气预报,可能很多观众都有切身的体会,前些年的时候,这天气预报是有误差的,比如说明天下雨,等了半天带着伞出去,穿着雨衣出去,回来没下,白带了,这天气预报不准。但这些年你会发现越来越准了,而且精确到几点,我们很多人手机上有天气预报软件的,它会告诉你到几点钟可能下雨,到几点能晴,结果到那个时候误差很小。这就是超级计算机的功劳,2016年广州气象局的天气预报开始部署在天河二号上,刚才说更准了,计算的这个精度更准,为什么会呢?就是以前我们网格,划分网格的计算密度是3公里乘3公里这样来算,现在划分得更细了,就是把它划分成1公里乘1公里,你的一个区里边的每个街巷下雨的时间都不一样,你就隔着一个人民桥,东边日出西边雨都能够算出来,网格划分精度提高27倍,计算量也提高了27倍。量大了,这就要用天河二号这样的超算平台了,通过超算及时的预报,可以减少自然灾难,比如说台风的影响,提前预警。
像2015年10月,广东的台风“彩虹”,对老百姓的财产损失,造成了230多个亿。2016年的时候,又有一个台风是“海马”。当时广州气象局,已经把这一套天气预报的台风预防程序,已经部署到了天河二号上。天河二号提前10小时,就已经预报了“海马”台风的登陆点,这样就提前发布,告知老百姓提前做好防御措施,这样那一次“海马”台风的损失就降到了47亿,“海马”的威力实际上是之前“彩虹”的1.5倍,比2015年的“彩虹”威力更大,但是财产损失,却只有它的1/5,这就是超算的功劳。我们每到重大节日的时候,比如说国庆大典的时候,我们完全可以通过超级计算机来算出来那一天的天气情况到底是什么样的?有没有雨,如果有雨的话,什么时间是有雨的,什么时间可以放晴?是可以做到的。对,是的。而且实际上超级计算机在天气预报里面还发挥的一个重要作用,就是原来的预报,可能它的预报时效可能也就是能预报一天或者几天,但现在有了更快的超级计算机以后,它的预报时效可以延长,延长到比方一周甚至两周,甚至更长的时间,它都是可以的。说到这个算天,超级计算机还可以算些什么?
天河超级计算机还可以用于航空航天、飞行器的设计,数值模拟分析。像以前飞机的设计都是用风洞做实验,那么这个过程很长,成本也很贵,因为采用风洞要给你设计一个飞机的模型的话,它要等比缩放,做一个缩放的模型还要配套的设备。你设计一个机型了,就要做一个模型,配套设备成本昂贵,另外就是风洞一般都在边远的地区,飞机的设计公司、设计单位就要出差,跑到那儿去做实验,一个实验要做好几个月,就一种机型。你改变一次参数,改变一个形状,你又要做这样的一个实验,来回做,通过现在先进的超算平台计算流体力学这种技术的话,就可以通过数字模拟,把飞机的模型,用网格的形状切分来模拟计算。你改一个参数,我基于原有的模型,只要几天完成以前可能一年才能做的工作量,像我们国家C919国产飞机的设计就离不开超算的功劳。刚才李老师提到的这个,算天里面是指的航空航天里面的航空领域,算的是大气层以内范围,实际在大气层以外的区域,超级计算机也发挥了很大的功劳。当时怎么把神舟飞船的载人返回舱安全落回到地球表面,这个物理过程,先是在我们天河超级计算机上模拟计算,就是验证它能安全可靠地落回到地球表面,然后再拿到实际的载人飞船装置上进行设计跟生产的。
算地能算些什么呢?算地应用也很多了,比方说咱们石油地震勘探数据处理,就需要用到超级计算机。像我们在2010年的时候,就为中石油做了一个,当时咱们中国最大的一个1060平方公里的这么一个勘探资料的处理。在我们系统上面用了整机的7100个节点,时间是用了短短16个小时就把这个项目处理完了。中石油实际他们也有自己的超算中心,他们的超算中心的算力如果加在一起的话,实际上比我们天河一号的算力还要强。但是在他们自己的超算上面做这个项目,是用了30天的时间,我们只是16个小时。这是为什么?就是因为我们是一个相当于是整体聚合能力,就是我们天河一号它整体的计算能力是达到了千万亿次。它的计算系统能力比我们还强?它的能力强是散落在全国的各个地方的处理中心的机器,就是叠加起来的,比方说河北涿州它有一台机器,它可能是100万亿次的,它在别的地区它又有好几台机器,可能也都是几百万亿次的,没有这种千万亿次的这种量级的超级计算机,像我们给它做这个项目,直接就是把这个项目放到我们千万亿次的超计算机上,整机地来算,而不是像他们那种把这个项目拆到不同的这种小型的计算机上来算。这个速度的提高对于石油勘探来说意味着什么?
这个对他们来说是很重要的,因为他们石油勘探也需要快速找到石油,因为像中石油的话,也是去承接一些国际上的找油项目,他们也需要去投标,就像我们通过超计算机,给他(们)把地震资料处理完,计算完,很快就能得出这个结果,他们拿着这结果直接去投标去了,很快他们这个标就可以拿到。但如果你没有这个计算结果,可能他们这个标没有什么结论,他们肯定是连标都参加不了。不仅有开采资源的价值,同时也有从企业的角度也有商业价值,巨大的商业价值。算地里面除了石油地震勘探数据处理以外,它还可以应用到抗震模拟分析,像咱们中国的白鹤滩大坝,总装机容量有1600万千瓦,它是仅次于三峡的中国第二大的水电站,也是世界第三大水电站。这个大坝它的拱高坝肩的稳定性,对整个坝体的抗震是有很高的要求,中国水利水电科学院,基于他们自主的高性能计算软件,在天河上进行了这种大坝,它的坝肩的抗震模拟分析,它的计算结果,就应用于实际的大坝的坝肩的设计。超级计算机还可以用于大坝材料研发设计,用超计算机可以研发更轻质的材料和更稳固的材料放到大坝上面,像咱们国内的乌东德大坝,它的坝里面的材料就用到了超计算机进行的模拟设计。超级计算机还可以算人,这个是怎么算人的?
这个算人只是一个通俗的说法,我们主要说算人是跟人们的生命健康密切相关的,比如说疫情防控,基因测序,还有一些老科学这方面的。像我们天津中心的天河超级计算机,就在咱们去年新冠疫情暴发期间,就在国内上线了一个新冠AI的辅助诊断系统,这个可能是在国内来说,也是最早上线的一套AI辅助诊断系统。这套系统就是通过手机或者是电脑,把潜在患者他的片子拍下照片,然后上传到手机上面,后台通过我们这种超级计算机进行快速预测分析,就可以得出结论。就是到底他有没有得新冠,或者是不是一个潜在的新冠患者,而且我们还借助像天河一(号)天河二(号)这样的超级计算机,我们做了抗新冠的药物研发。比方说就为中山大学,他们有一支团队,在新冠刚暴发期间,从很多种的这种虚拟化合物中,筛选出了抗新冠活性的化合物,这个化合物是已经咱们市面上治疗另外病症的药物,这个药物它对新冠治疗也是有效果的,这个都是借助于我们超级计算机来完成这些工作的。基于天河二号做的药物筛选效率很高,像以前两到三个月,把这个药物筛选出来,现在只要两到三天就可以筛选了,在天河二号筛选了六种新的药,可以用于新冠病毒的预防。
像新药研发的话,它有一个通俗的说法叫三个十,研发周期需要十年,研发成本需要10亿美金。还有它的成功率只有十分之一,但是通过超级计算机这种高通量的虚拟药物筛选的,它能把整个的研发成本,以及它的实验周期明显地下降,超级计算机也可以用到基因测序研究上面。就像我们天河超级计算机上面,搭建了这种基因数据处理平台,专门就在为像基因的产前诊断筛查,还有新生儿的遗传病筛查,以及这些妇女的两癌筛查等等,这些都在做这种基因测序方面的工作。比方说产前诊断,传统的方式它是用羊水穿刺,这种方式是比较有破坏性的。但现在就可以不用羊水穿刺这种方式,就是用我们向孕妇体内抽取这种5毫升的外周血。从血液中提取出,游离DNA(脱氧核糖核酸),然后把这个DNA,放到测序仪上进行测序。测序完以后的基因数据,传到我们天河超级计算机上面,进行快速处理分析,分析完以后就可以得出报告和结论反馈给医院,从测序公司到超级计算中心,以及到医院完整的一个产业链就已经形成了。
我们的超级计算机算天、算地还是算人,其实跟我们普通人生活都是息息相关的,所以我们就特别关注,我们已经拿了6次冠军,那我们国家超级计算机的发展未来还可能保持这样的优势吗?实际上我们一直在研究自己的自主知识产权的微处理器、加速器,高速互联网络芯片,我们的自主操作系统、系统软件,我们的新一代的天河超级计算机也正在天津超算中心部署的过程中,目前的性能还不宜公布。但是可以肯定的是,我们已经做到了刚才说到的硬件芯片迈出了新的台阶。另外一个方面,就是我们在能耗控制方面也做了新的尝试。一个是在从芯片的研制上来降低能耗,另一个就是主机系统,通过水冷散热的方式来降低系统的能耗。另外,对主机系统和制冷系统,通过智能化的能耗管理技术来降低整个超算中心的能耗,使超算中心发挥更大的作用,更加实用、好用。作为天河新一代超级计算机的应用方,我们也是在基于超级计算机在开展很多的应用适配的工作,以及性能调优的工作,未来超级计算机的趋势肯定是要达到E级,就是E级计算,百亿亿次的这种浮点计算能力。我们现在比天河二号又提高了十倍。对,天河二号刚才说的是十亿亿次,这个百亿亿次,那就是一百亿亿次,就这个性能峰值,现在是超算界在国际上竞相争逐的下一个皇冠。接下来我们来看看我们国家的超算,是如何在国际竞争当中脱颖而出的?我们通过短片去了解一下。
20世纪70年代,超级计算机出现后,各国就发现了超算的巨大应用价值,纷纷投入资源开始研制。国际超级计算机竞争由此拉开序幕。1983年,国防科技大学研制成功银河1超级计算机,它每秒钟运算速度达到亿次以上,使我国成为世界上少数几个能够研制巨型计算机的国家之一,但这个性能距离当时顶尖超算还有差距。1993年,世界超级计算机TOP500排行榜诞生,世界超算竞争进入白热化,榜首位置被美日两国轮番占据。但是,让业界没有想到的是,中国超算厚积薄发,异军突起。先是天河一号2010年首次问鼎TOP500冠军宝座,接着天河二号连续6次夺冠,到2016年神威太湖之光又接过接力棒,连续4次位居榜首,并且中国超算不但屡屡夺冠,而且到2020年TOP500排行榜上,45%都是中国超算,中国超算终于实现了数量和质量上的双重赶超,那么在未来激烈竞争中,我国的新一代超算将如何发展?未来我们的发展会是一个什么样的方向?我觉得智能计算,也是一个新的发展方向,自动驾驶感觉是近在咫尺了,信息量越来越大,一个城市的路上万条。那么对超算平台,因为要自动驾驶,图计算能力提出了更多的需求,我们在2021年6月在天津超算中心天河平台上,获得了一个图计算的排行榜(第一)。
这个图指的是什么呢?这个图计算它可以做很多工作,就比方说你有知识图谱,你可以做图的分析和挖掘检索,这里面就需要用到这种超级计算机。这个图计算的领域,既用到像刚才基于位置的服务,还可以用到金融的风险分析,还有可以用到咱们的导航的定位等等,这些都可以用到。随着我们的超级计算机不断发展,我们如果还能保持这种世界领先的地位的话,未来会给普通民众带来什么好处呢?智慧城市、智慧医疗,这些大家已经开始在享受了,通过云计算、智能计算这些平台,大家其实已经搞不清楚,哪些是超算的功劳了,就是渗透在生活中的方方面面了。实际像信号灯的控制,实际上后台它很多就借助到了超级计算机的支撑,就怎么来让交通的出行更加地方便快捷,不造成堵塞,它后面都是依托于这种超级计算机来进行这种数据分析,来给咱们指导到底是哪条交通线路它会拥堵,就提前预知,你就可以避开这条交通线路。智慧领域的各个方面,实际都渗透着超级计算机。其实超级计算机在我们的生活当中早已经无处不在了,也相信未来随着我们超级计算机的发展,也会给我们的生活带来更多的变化。好在这里非常感谢您收看我们这一期的《透视新科技》节目。如果你想了解我们更多的节目内容,可以下载央视频收看我们过往的节目,今天的节目就到这儿了,我是胜春,咱们下期节目再见。