作业调度软件在气象模式中的应用
引言
气象业务需要处理大量的数据,对计算机的计算能力等方面有着较高要求[1]。西北区域气象中心高性能计算集群中计算节点CPU总核数832个,峰值处理能力为25 TFlops,存储空间72 TB。为了实现作业提交、调度和资源管理,西北区域气象中心高性能计算集群使用作业调度软件LoadLeveler来管理集群作业。LoadLeveler可以根据业务模式优先级、资源需求和资源的可用性对作业进行调度,并处理作业相关的管理、执行和记账,它为集群资源的最优化利用提供了动态调度和工作负载均衡的功能[2]。陈晓霞等指出LoadLeveler允许系统管理员对批处理环境进行完全控制并与操作系统紧密耦合集成以实现资源管理、抢占式调度、和记账等功能[3]。马骁等提出提高整个系统的资源利用率是高性能计算集群管理的核心,通过合理的使用调度算法协调各节点间的资源分配,提高系统的使用率和吞吐率[4]。
系统运行至今,较未采用调度软件LoadLeveler来管理集群作业前的月平均作业数、CPU利用率等指标有了大幅提升:月平均作业数2万余个,系统月 CPU 平均利用率达到40%左右,业务模式运行正点率满足国家局考核要求。随着模式预报精度的提高,模式规模也越来越大,所需资源迅速增加,如何利用LoadLeveler加强气象部门高性能计算资源管理,充分发挥气象部门高性能计算集群资源效益成为系统管理员要解决的重要问题。
1 技术思路
LoadLeveler集群由配置文件来定义,采用关键字格式。在配置文件LoadL_config中可以指定使用的admin文件的位置、定义cluster范围的配置参数、指定管理员、指定安装目录以及相关文件的存放位置、配置记账相关参数、包含调度器的调节参数等。在配置文件LoadL_admin中可以定义Machine的角色及相关配置参数、定义用户、组、队列、集群等。
系统管理员结合区域气象中心高性能计算资源总量和资源需求配置LoadLeveler文件关键字定义队列、设置调度算法和调度器调节参数等。除此以外,管理员通过编辑JCF(作业定义文件)指定作业运行参数、定义资源需求,利用命令行、脚本及API接口管理集群资源及运行的作业,将作业的处理需求与可用资源进行匹配。
2 LoadLeveler的作业管理
2.1 队列设置
气象模式可以为不同区域尺度的天气变化研究提供数据支撑[5],因此在天气预报中应用极为广泛。西北区域气象中心高性能计算机系统管理员在 LoadLeveler 中使用队列来对模式作业在资源上进行调度。队列是LoadLeveler用来决定程序该被分派到哪些节点(Node)运行,以及可使用多少CPU 时间的重要依据[6]。根据作业性质和优先级的不同,西北区域气象中心高性能计算机集群中队列的设置如表1所示。
表1 西北区域气象中心高性能计算机集群中队列划分队列名称优先级可使用节点CPU核数说明normal高业务作业队列normal1 低 普通作业队列normal2中准业务作业队列serial高264串行作业队列
管理员在满足区域级的数值预报业务/准业务需求的基础上,对业务研发/科研任务的资源需求进行统筹安排,对数值预报业务/准业务所需的计算资源按运行时段分配所需CPU核资源。西北区域气象中心现有6个业务/准业务模式(表2),业务应用峰值所需CPU核数512个,核算每天需要的计算资源量为 8864 CPU 核小时。
2.2 设置作业调度算法
LoadLeveler使用不同的调度器,由管理员在配置文件中指定。
(1)LL_DEFAULT调度器(默认调度器)。LL_DEFAULT调度器将作业在空闲资源上进行调度,根据任务负载情况启动、挂起或恢复作业。在调度并行作业时,节点在变为可用状态时都会被保留,所保留节点会一直保持空闲状态,直到有足够节点可以用来运行这个并行作业。这种机制在调度大型作业时,会导致系统总体利用率很低,造成资源浪费。
(2)API调度器。通过使用LoadLeveler API(应用程序编程接口)可以编写自己的API调度程序管理作业的资源分配和分派作业,API调度程序任务的主要接口是:ll_query、ll_get_data、ll_start_job_ext等。
表2 西北区域气象中心高性能计算机系统业务/准业务模式单位业务模式系统名称队列启动时间(国际时)结束时间(国际时)计算资源(CPU核)兰州中心气象台西北区域中尺度业务模式normal04:0016:0001:0004:0007:0005:3017:3002:3005:3008:兰州中心气象台西北区域快速更新循环同化预报系统normal10:0013:0016:0019:0022:3511:3014:3017:3020:3023:中尺度数值模式预报系统normal100:3003:干旱所中尺度数值模式智能网格预报系统normal112:3015:00192中尺度数值模式沙尘预报系统serial22:0001:00串行气象服务中心中尺度数值模式新能源预报系统normal116:0018:00192
上一篇:钙镁质磷矿选矿尾矿综合利用技术现状及展望
下一篇:没有了