不然一年花掉2T的分析数据量还是vnsc5858威尼斯城官网有难度

当前位置:威尼斯vns1860an > vnsc5858威尼斯城官网 > 不然一年花掉2T的分析数据量还是vnsc5858威尼斯城官网有难度
作者: 威尼斯vns1860an|来源: http://www.hengshundk.com|栏目:vnsc5858威尼斯城官网

文章关键词:威尼斯vns1860an,程序变异

  这是一篇工具介绍贴,考虑这个工具是要钱的,那些动不动就说别人忘了初心的用户肯定认为我写的是软文,所以这些人就不要继续往下看了。

  变异检测的软件目前虽然有很多,SAMtools/BCFtools, GATK, FreeBayes等,但是我看到的大部分文章都是用GATK UG/HC。GATK的速度是有目共睹的慢,不过我平时就分析几个重测序样品,基本上过个两天就能出结果,所以速度不是我的刚需。

  如果想要追求速度的话,一种思路是可以将参考基因组进行分割,然后分别并行运算加速,或者搭建Spark环境,用GATK4的Spark模式。还有一种就是根据GATK的算法思想,用C/C++重新写软件。去年的时候我看到了一个软件叫做sentieon,用C/C++实现了GATK的算法,瞬间速度就上来了,这是一个商业公司的收费软件,目前国内用的比较少。

  我原本以为这个速度已经够快的,直到我最近去demo了另一个软件,edico公司开发的DRAGEN,这个效率简直是丧心病狂。它从硬件和软件上同时进行加速

  需要购买他们公司的硬件,128G内存,56线T固态硬盘,以及一个FPGA芯片

  为啥我要去demo这个工具呢,主要因为最近服务器资源紧缺(因为之前用的服务器要么是合租的,要么是蹭别人的),而老板又在催进度,而要买的服务器还在路上。就在这走投无路的情况下,我突然想起2个月之前和这个设备的负责人说要去测试一下(换句话说,我放了他两个月的鸽子。。)

  看完软件说明书,我就坐着地铁揣着硬盘,vnsc5858威尼斯城官网硬盘里装着一个260M的基因组和230个GBS测序的数据(80G)跑到仁科生物公司以测试软件之名实为蹭别人的服务器。

  接着我现场写了一个shell脚本用来批量分析,命名为 run_dragen.sh

  按照我的估算,每个样本至少得要花个20分钟得到GVCF文件吧,毕竟我用BWA-MEM10个线min呀。事实证明我还是低估了程序猿的能力值,每个GBS样品得到GVCF文件居然只要不到1min。。

  得到的GVCF可以进行合并,但是有一个问题,就是超过200样本就会出错,而且Join calling运行也不需要combine,所以后续的代码就删掉了merge这一步

  虽然软件运行速度是很快,但是写出上面的代码并且调试却花了我好久时间,于是这两天时间我就在公司里敲代码。除了GBS数据,第二天我还带着另一个260M基因组(Canu初步组装和arrow polish后到版本)和一个100X重测序数据(压缩后10G数据)去测试,分别在固态硬盘和我的移动硬盘里测试,结果如下:

  是比对的IO对速度影响非常大,也就是要一定要在固态硬盘里发挥它最大的威力。

  重测序样本与参考基因组的差异程序影响variant calling这一步。

  从上面的测试而言,DRAGEN的运算速度的确是非常快的。虽然你需要先把拷贝数据这一步会花点时间,但是你从公司拿到的数据其实也要拷贝到服务器才行,所以拷贝数据是不可避免的。

  对于公司而言,vnsc5858威尼斯城官网原本需要两天才能跑完的分析可能现在2小时或者1小时不到就能搞定了,那么业务速度就快了,此外也不需要搭建spark或者自己搞一套对GATK进行并行,更何况GATK商用是要钱的,国内很多公司都是偷偷的在用吧。对于医院而言,嗯,他们不差钱。对于科研机构而言,除非专门搞一个平台管理,不然一年花掉2T的分析数据量还是有难度。

  当然都是比对,所以这个软件也能用于分析RNA-seq,ChIP-seq,ATAC-seq等illumina高通量测序数据,但是三代测序数据目前搞不定,不知道未来会不会支持。

网友评论

我的2016年度评论盘点
还没有评论,快来抢沙发吧!