Run jobs in a cluster [Advanced]
0) Introduction of cluster
我们提供的另一种解决方案是不在本地机器上运行程序,而是登录到安装linux系统远程服务器,在服务器上完成操作。
生物信息学中的很多数据处理任务比日常工作中需要更多的计算能力,所以在实际工作中,计算量比较大的任务我们通常都是在远程服务器上完成的。集群(cluster)是一组相互独立的远程服务器,通过高速的网络组成一个计算机系统。集群对外表现为单一的系统,协同起来向用户提供系统资源和系统服务。
在使用者的角度,集群中的节点可以分为登录节点和计算节点。通常情况下,使用者可以像登录普通linux服务器一样登录到集群的登录节点上,再利用集群上安装的作业管理系统向计算节点提交任务。常见的作业管理系统有PBS (Portable Batch System), LSF (loading share facility)和slurm等,不同作业管理系统提交任务的方式有所区别,但是大同小异。
注意 用户需要通过作业管理系统向计算节点提交任务,登录节点计算资源非常有限,所以在登录节点一般只是用来进行任务提交和简单的脚本编辑等,不要在登录集群后后直接运行大的运算任务,否则将直接影响其他用户的正常使用。
下面以清华大学生物计算平台用slurm实现作业管理的生物信息计算集群(P/T cluster) 为例,介绍服务器和集群的具体使用。
1) 服务器远程登录
在不同的操作系统上,我们通常都是利用ssh协议远程登录linux服务器。
-p后为端口号,默认为22,但是很多服务器出于安全考虑会设成别的值。
输入
exit
回车即可退出登录
1a) Mac用户:
从“/Applications/Utilities” 中打开 "Terminal" 软件,用上述命令远程登录。
1b) Windows用户:
windows的各种终端,如默认的terminal(按windows+R回车,再输入cmd回车可调出)或powershell(在docker配置部分有介绍)等都可以用于ssh登录。也可以选择其他一些工具,例如:
Xshell,选择家庭/学校免费版下载。
2)文件传输
常见的方式有如下两种:
ftp/sftp客户端: 开源软件FileZilla是一个比较流行的ftp/sftp客户端。在FileZilla的图形界面输入服务器ip地址和端口号(sftp的端口号和ssh的端口号相同)及用户名密码即可实现远程登录。
命令行工具:
scp
(用于远程的文件复制)和rsync
(用于远程的文件复制和增量同步/备份等)。
注意 在我们的P集群上,/home
目录存储有限,请大家在/data
目录下建立自己的目录用于数据存储。
3) 环境配置
如前文所述,学习生物信息分析除了需要在linux环境下进行操作,还需要使用很多前人开发的软件工具。
我们在集群上为大家预装了一些需要用到的软件,有些是直接安装在服务器上的,有些是安装在sigularity镜像中。
配置环境变量
以下脚本将安装在服务器上的工具添加到环境变量
$PATH
中,方便直接调用。所以大家在登录集群后需要先运行这一行命令:
用
which
命令可以看到目前在$PATH
环境变量的软件的具体安装位置,例如
使用singularity镜像
singularity是和Docker类似的一种容器(container)技术。利用这种技术可以方便的将一台机器的软件环境打包到另外一台机器上运行,这对于配置一些依赖比较复杂的工具非常有用。
不同于Docker,使用者在运行在singularity时不需要root权限,所以部署安装应用的时候更加灵活,适合在公共的cluster上提供给非root的用户使用。
本机无法配置Docker的同学可以使用cluster上的singularity。
和docker类似,我们可以通过交互式或非交互式的方式来使用singularity镜像。
(1) 交互式运行singularity容器
进入容器:
输入
exit
即可退出容器演示动画如下:
singularity和docker一样支持容器和宿主器的文件同步。
与docker不同,singularity默认就会把宿主机的家目录
~
挂载到容器的家目录~
,所以在singularity容器内在家目录进行读写等同于对宿主机的家目录进行读写。如果我们想在singularity容器内部读写
/data
目录下的内容,可以通过如下两种方式实现:
singularity的文档对于文件系统的挂载给出了详尽的介绍,如果希望进一步了解请参考https://sylabs.io/guides/3.1/user-guide/bind_paths_and_mounts.html。
(2) 非交互式运行singularity容器
在宿主机直接调用singularity镜像内部安装的软件
4) How to use cluster
集群上安装的作业管理系统会通过排队的方式为不同用户提交的任务分配计算资源。
注意 重申一下,每个用户需要通过slurm向CN_BIOT
队列提交计算任务,登录节点计算资源非常有限,不要在登录进cluster后直接运行大的运算任务,否则将直接影响其他用户的正常使用。
(1) Example 1. submit a mapping job
在第一个例子中,我们提交一个用直接安装在服务器上的tophat软件进行reads mapping的任务。
(1.1) 准备任务提交脚本 test1.sh
test1.sh
我们通过在脚本开头添加以#SBATCH
开头的几行配置向slurm指定作业提交的相关参数:
Name | mean |
---|---|
#SBATCH -J tophat_test | 命名job name为“tophat_test” |
#SBATCH -p CN_BIOT | 使用CN_BIOT这个queue(在slurm中被称为partition) |
#SBATCH --nodes=1 | 使用一个节点。多数生物信息软件不支持跨节点的并行计算,所以通常会把任务限制在单节点上 |
#SBATCH --ntasks=4 | task数为4。slurm默认为一个task分配一个核,所以会有4个核分配给当前提交的脚本 |
#SBATCH --output=%j.out | 运行日志输出到当前目录中,以 .out 结尾 |
#SBATCH --error=%j.err | 运行错误日志输出到当前目录中,以 .err 结尾 |
(1.2) 使用sbatch命令提交 test1.sh
test1.sh
(2) Alternative ways
我们可以将脚本中指定的参数拿到脚本外面:
除此之外,我们还可以利用--wrap
参数直接提交一个命令,而不一定要将其放在一个脚本中:
(3) Example 3. submit a RNAediting job
在第二个例子中,我们提交一个用安装在singularity镜像中的工具RNAeditor进行RNA编辑分析的任务。 这个工具依赖比较复杂,所以使用singularity是一个比较好的选择。 该例子一共需要准备3个文件,具体见(2.1)-(2.3)。
(3.1) RNAeditor配置文件RNAeditor.config
RNAeditor.config
(3.2) RNAeditor运行脚本run-RNAeditor.sh
run-RNAeditor.sh
假设配置文件保存在
/data/{username}/test-RNA-editing
目录下
(3.3) 提交任务脚本submit-RNAeditor.sh
submit-RNAeditor.sh
准备好这三个文件后,用sbatch
提交即可
(4) Monitor and manage jobs
查看队列信息
查看特定一个job的信息
查看节点信息
取消任务
(5) Tips
有的时候个别计算节点会出现故障,但slurm仍会向这些节点分配任务,导致出错。还有的时候我们需要长时间大量的运行任务,又不想把节点全部占用以至于其他同学完全无法使用。这两种情况下我们都可以利用sbatch提供的
--exclude
参数。例如如果biot03和biot04出现了故障,或者我们想把这两个节点留给其他同学,我们可以将提交任务的命令改成:
任务要尽量小而多。可以用bash等脚本的for循环产生多个提交脚本, 然后在用for命令在命令行里一次性的将这些脚本提交;也可以利用前面提到的
--wrap
参数在for循环中直接提交命令。要尽可能把大的任务拆分成小的,建议一次提交的任务数是总核数的5-10倍,比如一个集群容许每个用户最多跑50个jobs,那么可以一次提交250-500个jobs的脚本。但是每个脚本的时间要尽可能短(建议每个大约~10min - 2hour)。每个节点之间的内存是独立的,绝大多数生物信息学工具没有MPI的支持,这就意味着它们只能同时利用同一个节点上的多个核。所以我们通常都会加上
--nodes=1
参数,将同一个任务的cpu分配限制到一个节点上。对于大内存软件要注意多分配一些核数。如前所述,绝大多数生物信息学工具没有MPI的支持,因而在计算中无法同时使用多个节点的内存。在1个节点上同时运行多个大内存开销的程序时,容易因为内存不够导致程序异常退出。 例如, 用STAR mapping人类基因组时,一个人类基因组的index大约要占用30G内存。 运行STAR时,推荐为每个mapping的任务分配6个核,这样的话, 如果1个node有128G memory、20 core,一次用6 core,不仅可以加速计算,而且每个任务都可以占用40G以上的内存, 应该不太容易内存溢出了 (如果还是溢出就增加 core=8,10,12...)。
对于P集群,一个node有64G, 16 core, 运行star这样的程序时,我们推荐独占一个node,1个node上运行1-2个程序(--ntasks
设成8或16):
5) Teaching Videos
see Videos in the Files needed
Last updated