新闻公告
探索校级超算更合理的运转模式
更新日期:2019年06月19日 08:42

转载:《中国科学报》 (2019-06-06 第7版 信息技术)

■记者 赵广立 

 

近日,上海交通大学网络信息中心新一代超算系统π2.0实现了“点亮”(装机后实现开机运行)。升级后,该中心超算整机计算性能超过2PFlops(每秒千万亿次浮点计算),实现了近10倍的提升。

5月31日,该中心计算部主任林新华接受了《中国科学报》专访,就校级超算中心的运维、服务能力建设、后备超算人才培养等话题进行了分享。

超算升级让师生有更多“获得感”

《中国科学报》:你曾分享过一件非常有意思的事:一位物理系老师写的一个计算程序,在没有任何源代码改动的情况下,在π2.0上的测试显示,单节点性能提高4.5倍,跨节点性能提升4.7倍,几乎是无缝接入实现性能提升。这是个例还是对所有计算程序都适用?

林新华:我认为不是个例,我们最近又测了3个计算程序,分别是天文、海洋和材料基因组方面的计算需求,得到了和之前类似的结果,因此认为很可能会兼容所有程序实现这样的性能提升。

《中国科学报》:这背后的支撑因素是什么?

林新华:CPU性能的提升。我们这次升级选用的是英特尔Cascade Lake6248,同此前的CPU相比,它的主频、分配的内存带宽等指标几乎不变,但核数增加了——以前是8核,Cascade Lake6248是20核。同样的程序,在其他条件不变的情况下,一下获得了计算上的扩展。就好比还是原来那些东西,搬到“新家”之后,空间一下子变大了。

《中国科学报》:很多人不喜欢“搬家”,“搬家”一次要更改很多东西。

林新华:这是因为,体系结构发生变化后,许多计算程序要去改动源代码,去重新兼容计算架构,这对于老师们而言是一种负担。但我们的升级就好比你什么都不用搬动,人来了马上可以住,而且“地方”比原来“宽敞”好几倍。

《中国科学报》:用户可能更看重这个。

林新华:是的,我觉得这是升级到π2.0之后,最让老师们得到“获得感”的地方。

一举三得的超算中心运维模式

《中国科学报》:高校超算中心要怎么管?怎么建?你们有什么经验?

林新华:过去几年(2012~2018)我们一直在探索适合国内校级超算中心的运维体系。

《中国科学报》:你在校级超算建设方面有个“开飞机理论”:如果个人电脑好比是汽车,那么超算就好比飞机,不需要每个人都会开,只需要飞行员开得好,让更多人搭乘,这其中“飞行员”是关键。

林新华:超算比一般电脑快很多,当然用起来是很复杂的,需要很多专业知识。但不是每个需要它的人都要搞得很清楚。我们的理念就是要有一个好的团队,专门做超算平台的建设和运维,帮助师生做定制化开发、优化程序。这样我们就不是单纯地提供计算资源,还要提供计算上的支持。

《中国科学报》:这样的人才好找吗?

林新华:我们的团队以自主培养为主。我2012年从计算机系来到网络中心,之前在计算机系的7年一直在做高性能计算方向。从系里调到中心的时候,我向学校提出,来中心管理超算的同时,继续带学生做一些相关的研究,得到了学校的批准。当时单纯想让自己的研究工作有一定延续,现在发现,这对超算中心的管理、运维乃至后备人才培养,都很有帮助。

《中国科学报》:你们有一支十几人组成的团队在做这些事。你们是怎么分工的?

林新华:14人。其中1/3做系统运维,1/3做用户支持,还有1/3帮助用户去改代码。最后这1/3一般自己还会带学生去做。学生会做一些课题,帮助需要计算的老师们做程序优化等等,我们的学生对超算中心也有很多贡献。

《中国科学报》:既服务了用户,又锻炼了队伍。

林新华:可以说是一举三得。除了你说的,对学校也是有好处的。学校超算的机时是固定的,如果程序算得慢,通过我们的优化能算得更快了,就相当于帮助学校省钱了。

另外,我们培养出来的学生确实很有特色:既懂硬件、性能,又对应用了解。有一个重要的风向标,人工智能快要热起来的那两年,我突然发现我们的学生几乎全跑到公司工作了。商汤科技有个异构计算部门,据说一半都是我们的学生。后来我和这个部门的主管聊后,他说一般高校院所出来的学生,毕业后就能“上手”的很少,“你们这里的来了就能用”。

《中国科学报》:一般来讲,超算中心或网络中心,能吸引很多学生,还是很少见的。

林新华:的确。网络中心或超算中心一旦与院系脱节之后,就难以吸引学生。我们学校有这样的环境和政策,有些机缘巧合。

我们也会请一些一线专家给学生上课,以讲座的形式讲一些课堂之外新的东西。比如会分享一些工具的最新版本,讲解怎么用。很多学生很感兴趣。

前代超算“退而不休”

《中国科学报》:π2.0“点亮”之后,意味着π1.0即将“退居二线”。π1.0“服役”多久?

林新华:π1.0是2012年开始酝酿,2013年4月1日正式“点亮”,到2018年底这台机器已经运行了5年左右。按照国际标准,一般超算服役4年半可以“退休”。π1.0此前升级过一次,包括几次小规模的升级,所以最后这半年还能用。不过,整体性能的确下降得厉害,所以在2018年我们酝酿建设π2.0。

《中国科学报》:“退役”的π1.0将作何用?

林新华:π1.0还在用,其实它们就在同一个机房里,被一个玻璃板隔开——事实上它们都是由浪潮部署的。未来π1.0和π2.0会并行应用一段时间,之后它还有好几种发挥余热的途径:一种是开放给学生教学用(上海交大有计算化学、计算物理学、计算材料学等专业),一种是作为应用代码的测试环境,另外还有一些其他用途,可以把π1.0继续利用起来。