聚焦南科大之前沿科技 | 科学与工程计算中心:“启明”+“太乙”,以计算与大数据分析构筑科研强助推力
2020年11月25日 科研新闻

近日,南科大材料科学与工程系教授梁永晔、化学系副教授王阳刚联合国际合作团队在电催化还原二氧化碳(CO2)的研究方面取得重要进展,成果发表在《自然-能源》上。和学校许多科研成果一样,该研究中的计算模拟得到了南科大科学与工程计算中心(下称“计算中心”)的支持。

图片1.png

超级计算机是计算机中功能最强、运算速度最快、存储容量最大的一类计算机。南科大作为新型研究型大学,许多不同专业的师生在科学研究中都有使用超级计算机的需求。为了更好地支持学校的教学和科研发展,2018年10月,学校正式成立计算中心,负责管理南科大校级超算公共科研平台,大力发展和有效管理南科大高性能计算和大数据分析设备,积极开拓超算应用研究与服务。那么。目前南科大校级超算公共科研平台建设情况如何?为学校在数学、物理、化学、生物、材料等基础学科的研究中提供了怎样的技术支撑?为此,我们采访了计算中心主任、力学与航空航天工程系讲席教授王连平。

科学与工程计算中心宣传片



高标准建设:从“启明”到“太乙”

2018年11月,被称为全球超级计算产业“奥斯卡”的SC2018全球超算大会公布了当年的全球Top 500超算集群排名。计算中心彼时刚刚安装完毕的二期高性能集群(TaiYi,太乙)名列第127位,太乙GPU排名207位,在国内高校中除国防军事类院校外位居第一。“太乙”拥有820个计算节点,约4万个计算核心,4.0PB存储空间,理论计算峰值2500万亿次,实测计算能力为1690万亿次。

图片2.png

二期“太乙”集群

作为校级公共科研平台,计算中心将管理和规划好全校超算公共平台,为全校超算用户提供良好的服务放在了第一位。除了“太乙”外,早在2016年,学校引进了一期集群(启明,Qi-Ming)。“启明”拥有243个计算节点,6672个计算核心,389TB存储空间,总浮点性能超过300万亿次。

图片3.png

一期启明集群

为什么需要建立两套设备呢?王连平介绍,超算设备更新迭代非常快,根据摩尔定律,CPU性能一般每两年会翻一倍。所以一般每二、三年要更新一次。随着南科大师生人数不断增长,一期建设的“启明”计算和存储资源很快就无法完全满足校内科研项目的需求。计算中心通过全面调研师生在做实验方面的计算需求,对二期“太乙”的建设进行综合考量:材料系要做原子量级、电子量级的计算,对计算量的要求会非常巨大;计算机系更多关注的是人工智能,对算法的运算力是不是足够高十分关注;生物系要求的计算性能不是特别快,但对存储的性能要求很高。从“启明”到“太乙”的更新,实现了一个大的飞跃。

图片4.png

王连平接受采访

“超算在科学研究的过程中发挥着非常重要的作用,就像实验设备一样不可或缺。”王连平介绍道,“启明”的命名灵感来源于“启明星”,古代指日出前出现在东方天空的金星,是南科大首套高性能集群,是南科大高性能计算发展的开始。“太乙”命名灵感来自北极星,“太乙”为北极星的别名,古代哲学的意思是元气、宇宙本源,又是宇宙法则“道”及“万物起源”。王连平说:“希望‘启明’和‘太乙’在推动源头创新方面发挥越来越大的作用。”


高效率使用:开发多套系统优化管理

从集群结构和用途来看,“太乙”和“启明”都是高性能集群;主要差别表现在文件存储系统及采用的计算网络上,“启明”采用的是传统的InfiniBand,“太乙”采用的Omni-Path;“太乙”集群的系统峰值及持续性能上更高,整体时延更低,并行读写效率上,“太乙”是启明的数倍,能够更好的满足当今高性能科学计算越来越高的计算量的要求,为科研产出提供更强计算力。

在目前的使用上,“启明”和“太乙”两套集群发挥作用是一致的,根据用户对数据处理实时性能的需求,可以分别选择“启明”或者“太乙”;目前“太乙”的利用率更高一些,“启明”也在持续工作,为学校物理、化学、材料、地空、力学、海洋等方向提供高性能计算支撑。目前中心用户数已达到579个,覆盖全校19个院系的129个课题组。应该说除了人文社科外,几乎达到学科全覆盖。

图片5.png

图1 高性能集群用户管理系统登录界面

计算中心自主设计了一套南科大高性能计算用户管理系统(图1)。现在,全校师生足不出实验室,只需通过实验室电脑连接“启明”或者“太乙”,即可方便地实现高性能计算。

图片6.png

图2 高性能集群资源监控系统统计数据

王连平介绍,计算中心还设计开发了南科大超算集群资源监控及数据统计系统(图2),有效掌握设备使用率及用户分布,同时也将使用数据统计信息定期反馈给师生用户,使师生可以更有效地使用集群资源。此外,该系统可统计和监控高性能集群队列资源分布、队列作业分布、队列资源使用率、队列用户分布、作业等待时间、作业规模分布等,为调整和优化高性能集群管理策略提供有效的数据基础。

计算中心还根据大、中、小等多种不同计算资源池,制定了灵活多变的资源分配策略,配合数据统计系统,定期调整分配策略,既保证了集群使用率,又保证了不同用户的计算需求。计算中心还组织对重点代码进行调优与测试(DHIT,VASP),有效提高南科大超算系统使用效率。

在科研支撑服务方面,截至2020年11月,致谢中提及学校计算中心超算设备的论文总数达133篇,其中Nature Index收录论文42篇。在教学支撑方面,计算中心还支撑两门教学课程(计算材料学和环境科学研究中的计算与编程),总共108人学时。另外,今年以南科大计算中心为单位发表了多篇高水平论文。中心还承担多项国家级项目。

 

高起点培养:为学子打开超算大门

虽然性能优越,但由于资源的限制,很多大学生还不能接触使用超级计算机,即使是研究生也仅限于会用超算。在超算结构、并行程序调优上缺乏系统的学习和训练,不利于学子更精准地利用超算这一工具开展更深入的研究。

针对这种情况,计算中心充分发挥硬件和师资优势,建立了学生超算团队的超算俱乐部,为学子打造超算学习和交流平台。同时也方便组队去参加国内外的超算比赛,通过比赛来提升学生的经验和技能,以此形成良性机制。在俱乐部中,学生不仅仅能了解厂商的硬件和软件是怎样配合运行的,同时也让他们看到像英特尔、联想这样的公司是怎么运作的,这些公司在关注哪些前沿的科技,比如,芯片、人工智能、VR、自动驾驶等等。这样学生学习起来更有目的性。

在2019年的ASC世界大学生超级计算机竞赛(ASC19)中,我校派出的3支大学生队伍以优异的成绩取得了我校自参赛以来的最好成绩。一支队伍入围全球前20强,排名第二,进入总决赛。另外两支队伍均获得全球二等奖。

11月16日, ASC20-21 预赛正式开始。超过300支高校队伍,将在接下来近两个月的时间里,挑战多项科学前沿的超算尖端应用赛题。最终从预赛中成功晋级的20支队伍将参加明年5月8日-12日在位于中国深圳的南方科技大学举行的现场总决赛。计算中心将会作为总协调部门,在全校各单位的合作下,共同努力实现此国际性大赛的完美举办。

图片7.png

学生团队与计算中心工程师合影

参赛团队在我校科学与工程计算中心的“太乙”超级计算平台上成功实现了AI图像超分辨率SR(Super-Resolution)算法,并对研究全球气候变化的地球系统模式CESM进行移植与优化,可在两天时间之内推演出工业革命开始前十年以及二十一世纪前十年全球气候变化的过程。

随着ASC19比赛中南科大学生团队取得了突破性的成绩,计算中心顺势成立了南科大学生超算俱乐部,引导学生把超算学习作为一项课余爱好,一直钻研下去。目前学生超算俱乐部的模式是学生自治、计算中心进行监督,中心对超算俱乐部提供一定的经费支持,鼓励学生积极参加ISC,ASC等赛事。此外,俱乐部还持续进行用户培训,定期邀请各领域内专家学者开展讲座,开展交流;组织跟高性能计算相关的深度学习、人工智能等方面的培训……

图片8.png

王连平在检查设备

超算俱乐部的指导老师在指导学生方面也颇有心得。中心还组织了超算经验丰富和具有一定组织管理能力的学生担任学生超算队队长,管理和组织学生参加各项超算竞赛。队长组织面对面或线上会议,推动团队内部加强交流,及时跟踪反馈学生在遇到的问题及提出的优化建议。

对于计算中心未来的规划,王连平表示,计算中心将朝着一流超算中心的目标奋进,将围绕平台管理和优化、用户服务、人才培养、对外交流四个方面进一步开展工作,帮助师生提高他们代码的计算效率,为师生的教学和科研提供更强有力的支持和保障。

 

 

采写:程雯璟

摄影:李田恬

视频来源:科学与工程计算中心

编辑:劳湘雯

 

推荐阅读
查看更多 >>
FOLLOW US @SOCIAL MEDIA
关注社交媒体上的我们
  • 国家安全部官方微信

  • 南方科技大学微信

  • 南方科技大学视频号

  • 南方科技大学抖音号

  • 南方科技大学快手号

  • 南方科技大学头条号

  • 南方科技大学南方+