使用Parallel_Cluster提升CRISPA效率
如有问题,请及时反馈
准备cas-Offinder 镜像
推荐使用ubuntu或者centos,不推荐使用amazon linux(在2019年10月份测试的时候,发现amazon linux 2安装不上opencl,不确定现在是否修复),本文以 ubuntu 16.04为例
在EC2上,安装opencl,opencl可以在intel官网下载.
在EC2上,下载安装 cas-offinder 软件,可以直接下载编译好的二进制包,无需使用源码编译。
准备参考基因组和GuideRNA数据
以人类参考基因组为例,数据包大概3GB,下载地址:wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_genomic.fna.gz
准备guideRNA,路径/data/GCF_000001405.38_GRCh38.p12_genomic.fna: https://github.com/liualexiang/learninguide/blob/master/CRISPR/input_sgRNA_ngg_aid_5000.txt
cas-offinder单机使用方法
cas-offinder input_sgRNA_ngg_aid_500.txt C /tmp/ 第一个参数input_sgRNA_ngg_aid_500.txt 为输入文件,第二个参数C为指定使用CPU计算(如果用GPU计算的话,指定为G),第三个参数 /tmp/为输出路径 计算时常与guideRNA大小有关系,以500行的guideRNA为例,在c4.8xlarge机器上需要花费十来分钟完成。
可以将guideRNA拆分成更小的文件,用更多的EC2进行计算.
Cas-offinder 软件说明: https://github.com/snugel/cas-offinder
创建pcluster集群
测试好上述环境之后,安装pcluster: https://docs.aws.amazon.com/zh_cn/parallelcluster/latest/ug/install.html
配置AWS AK/SK,配置Pcluster: https://docs.aws.amazon.com/zh_cn/parallelcluster/latest/ug/getting-started-configuring-parallelcluster.html
示例Pcluster配置文件(在 ~/.parallelcluster/config这个文件中)
创建集群命令
pcluster create casoffinder
创建之后可以ssh到master node上
使用slurm 提交job
在创建pcluster的时候,我们的调度器为slumr,可以通过slurm来提交作业。我们可以将之前的5000行guideRNA单个文件拆分成10个,以文件名为 input_sgRNA_ngg_aid_5000.txt1, input_sgRNA_ngg_aid_5000.txt2 为例. 拆分文件的python脚本
提交作业
常用的几个监控命令
对slurm启用accounting功能
启用accounting功能:
创建 acct 和 jobcomp 文件,并将权限修改为777 sudo touch /opt/slurm/jobcomp sudo chmod 777 /opt/slurm/jobcomp sudo touch /opt/slurm/acct sudo chmod 777 /opt/slurm/acct
找到slurmctld进程id,将其终止 sudo ps -ef | grep slurmctld sudo kill -9 17707
重启slurmctld 服务 sudo /opt/slurm/sbin/slurmctld
确认 slurmctld 服务已经启动 sudo ps -ef | grep slurmctld
最后更新于