中心动态

当前位置 新闻资讯 > 中心动态

科学与工程计算中心2021年9月用户交流会

       科学与工程计算中心于2021年9月23日下午如期举行每月例行用户交流会。用户交流会意在加强计算中心服务人员与用户之间的交流,了解用户实际困难,寻找解决方案,以此提高中心服务质量。


       图1、计算中心谢作扬工程师介绍参会人员

        本次会议由科学与工程计算中心谢作扬工程师主持,地球与空间科学系、力学与航空航天工程系和前沿与交叉科学研究院3个院系的5名用户参加此次会议。首先,谢作扬工程师发言。他介绍了计算中心以及此次参会人员情况,说明了计算中心开展用户交流会的背景和目的,之后对此次会议内容做了简要介绍。

       


       图2、地空系杨迪琨老师课题组博士后做分享报告

       随后,来自地空系杨迪琨助理教授课题组博士生程铭、王科做了“大规模并行计算支撑下的地球物理电磁数据交互式解释技术”的报告,提出了一种新的地球物理电磁勘探数据人机交互式定量解释方法。用户在终端设计地球物理模型,上传至集群计算其电磁场响应,最后下载计算结果查看并与实测数据对比。为满足交互过程对计算的时效性要求,杨迪琨老师课题组开发了一个新的并行化分解技术。该技术将原本需要计算数小时的单个庞大问题分解为成百上千个互不相关的微小子问题,每个子问题在一个节点上计算仅需要十几秒的时间。课题组将这一技术在太乙集群上进行了实现,基本验证了实时人机交互的可行性。下一步有待完善优化流程,压缩非计算耗时,达到真正的秒级反馈交互。:

       在用户交流环节,主要讨论了用户在使用太乙集群过程中遇到的问题。例如,由于作业数量多,作业系统调度所需要的时间开销累积,影响了业务的实时性;部分课题组作业并行度较高,单作业所需核心数较多,因此对计算资源的需求量也较大。经过现场研究讨论,计算中心工程师给出了一些可行性建议。例如,针对作业数量多,影响作业管理系统工作的问题,计算中心谢作扬工程师建议可通过将多个作业打包成一个作业的方式,进而将多个作业调度所花费的时间减少到一个作业调度所花费的时间。对于大规模并行计算任务(上万核心),目前计算平台“太乙”系统总核心数在三万二千核左右,并且集群负载持续保持在85%以上,万核作业需要寻找合适时机才能运行。并且,我们正在与学校积极沟通,期望学校可以尽快启动计算平台扩容事宜,以满足学校各院系课题组不断增长的计算资源需求。此外,为了提高计算中心服务质量,我们近期将推出了一系列用户服务举措。例如,1)9月份我们推出了计算中心自主研发的南科大用户管理系统(http://172.18.6.195:18090)的用户工单子模块,方便计算中心工程师快速了解、处理和跟踪管理用户问题,并给以用户评价和反馈中心工程师服务质量的渠道,在使用工单管理系统中遇到任何问题都可以联系计算中心杨期垚工程师(yangqy@sustech.edu.cn,0755-88015834);2)为了提高用户集群使用水平,避免因不合理提交作业导致机时浪费或等待时间延长,计算中心计划对新用户采取先培训后上机策略,有培训需求的用户可以联系计算中心谢作扬工程师(xiezy@sustech.edu.cn,0755-88015831)。计算中心全体员工将竭诚为全体用户服务。欢迎大家使用计算中心高性能计算平台,积极参加用户交流会,进行相关研究和集群使用心得讨论,并提出宝贵意见,以便帮助我们不断提高南科大计算中心的用户服务质量。

撰稿人:胡晗、程铭、王科

审核人:王连平、范靖


公告信息