使用Parallel_Cluster提升CRISPA效率

如有问题,请及时反馈

准备cas-Offinder 镜像

  • 推荐使用ubuntu或者centos,不推荐使用amazon linux(在2019年10月份测试的时候,发现amazon linux 2安装不上opencl,不确定现在是否修复),本文以 ubuntu 16.04为例

  • 在EC2上,安装opencl,opencl可以在intel官网下载.

  • 在EC2上,下载安装 cas-offinder 软件,可以直接下载编译好的二进制包,无需使用源码编译。

准备参考基因组和GuideRNA数据

  • 以人类参考基因组为例,数据包大概3GB,下载地址:wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_genomic.fna.gz

  • 准备guideRNA,路径/data/GCF_000001405.38_GRCh38.p12_genomic.fna: https://github.com/liualexiang/learninguide/blob/master/CRISPR/input_sgRNA_ngg_aid_5000.txt

cas-offinder单机使用方法

cas-offinder input_sgRNA_ngg_aid_500.txt C /tmp/ 第一个参数input_sgRNA_ngg_aid_500.txt 为输入文件,第二个参数C为指定使用CPU计算(如果用GPU计算的话,指定为G),第三个参数 /tmp/为输出路径 计算时常与guideRNA大小有关系,以500行的guideRNA为例,在c4.8xlarge机器上需要花费十来分钟完成。

  • 可以将guideRNA拆分成更小的文件,用更多的EC2进行计算.

  • Cas-offinder 软件说明: https://github.com/snugel/cas-offinder

创建pcluster集群

  • 测试好上述环境之后,安装pcluster: https://docs.aws.amazon.com/zh_cn/parallelcluster/latest/ug/install.html

  • 配置AWS AK/SK,配置Pcluster: https://docs.aws.amazon.com/zh_cn/parallelcluster/latest/ug/getting-started-configuring-parallelcluster.html

  • 示例Pcluster配置文件(在 ~/.parallelcluster/config这个文件中)

  • 创建集群命令 pcluster create casoffinder

  • 创建之后可以ssh到master node上

使用slurm 提交job

  • 在创建pcluster的时候,我们的调度器为slumr,可以通过slurm来提交作业。我们可以将之前的5000行guideRNA单个文件拆分成10个,以文件名为 input_sgRNA_ngg_aid_5000.txt1, input_sgRNA_ngg_aid_5000.txt2 为例. 拆分文件的python脚本

  • 提交作业

  • 常用的几个监控命令

对slurm启用accounting功能

  • 启用accounting功能:

  • 创建 acct 和 jobcomp 文件,并将权限修改为777 sudo touch /opt/slurm/jobcomp sudo chmod 777 /opt/slurm/jobcomp sudo touch /opt/slurm/acct sudo chmod 777 /opt/slurm/acct

  • 找到slurmctld进程id,将其终止 sudo ps -ef | grep slurmctld sudo kill -9 17707

  • 重启slurmctld 服务 sudo /opt/slurm/sbin/slurmctld

  • 确认 slurmctld 服务已经启动 sudo ps -ef | grep slurmctld

Last updated