Rss & SiteMap
生物器材论坛 http://www.bio-equip.com/
随着测序通量持续攀升和测序成本直线下降,测序所产出的数据也出现了激增。这样的海量数据不仅为人们带来了前所未有的机遇,还在数据储存、数据传输和数据分析方面提出了新的挑战。
以往研究者们需要建立计算机集群来储存和分析大数据集,同时运行几十台甚至几百台计算机。然而许多人都没有这样的条件,因此越来越多的研究者们选择通过“云计算”来解决问题。
尽管你可能对它还不熟悉,但云计算可以很好的为中小型实验室服务,为他们解决高通量测序的数据分析难题。为此,NathanBlow博士在Biotechniques上撰文对这一技术进行了详细的介绍。
走向云端
2010年,多伦多大学的分子遗传学教授LincolnStein在GenomeBiology杂志上发表文章,首次提出将基因组信息移到“云端”。Stein领导着国际癌症基因组联盟(ICGC)的数据协调中心,该中心的任务是确保所有研究者都能使用ICGC的数据集。据Stein介绍,这些数据现在已经达到了1PB(petabyte,相当于GB的百万倍),而且在2018年将会接近10PB。“早在2010年我就清楚,储存和分享基因组数据的传统方式将无法适应时代的发展,”Stein回忆道。
他当时担心,到2014年只有少数高配置的计算生物学团队,才能使用ICGC的完全数据集进行分析。而越来越快的测序数据产出,将最终让人无法在本地服务器上进行必要的数据储存。
Stein提出的解决方法很直接:将商业化的云计算服务器利用起来,长时间租用其硬件和储存空间。云供应商为用户提供了建立“虚拟主机”的能力,利用极大的服务器和节点集群,实现基因组分析所需的PB级存储空间。
Stein写这篇文章的时候,测序系统平均每次所生成的数据还算是比较少的。自那以后,测序的数据产出又有了显著的提高,而且随着测序成本的下降,这一技术的使用也越来越广泛。那么数据分析和储存方式有没有迎头赶上呢?又有多少数据储存和分析已经进入了云端呢?
云中的主机
初次使用云计算有点像是在选购台式电脑,你得根据自己的需要,确定自己“虚拟主机”的配置。比如需要多少内存?速度要多快?储存容量要多少?对于许多实验室来说,购置大型计算机基础设施既昂贵又费时,这时云计算就成为了一个很有吸引力的选择。“绝大多数计算生物学家和生物信息学家对云计算都不熟悉,它的操作和本地计算机集群
有些不同,需要一些时间来适应,”Stein指出,不过随着越来越多的研究者试水云计算,这种状况应该很快就会改变。亚马逊网络服务是云计算解决方案的先行者之一,它的EC2(ElasticComputeCloud)为研究者们提供了专门的基因组工具和大型数据集。事实上,云计算中最有价值的部分,就是能够立即获得并且快速使用大规模的数据(比如GenBank或者千人基因组计划的数据库)。
千人基因组计划首批发布的数据集就达到了两百多TB(terabyte),远远大于绝大多数本地计算机环境。于是研究团队将这些数据放到了亚马逊EC2上,以便不同地区的研究人员能够同时进行复杂的数据分析。云技术的一个主要优势就是,一旦数据集上传到EC2,所有人都可以在那里使用它。人们只需要在EC2上简单设立自己的“虚拟主机”,就可以获得强大的计算能力。近来,测序仪生产商正在加紧向云端进军,为用户提供各种各样的云计算解决方案。测序巨头Illumina(MiSeq、HiSeq和NextSeq测序系统的制造者),已经建立了一个称为BaseSpace的云平台。该平台为Illumina用户提供了数据储存服务和一系列的分析工具,包括基因组浏览器、比对工具、变异检出工具等等,这些都已经整合在Illumina测序系统的标准工作流程中。
其他公司也不甘示弱,开发了各种基于云端的测序分析解决方案,DNANexus就是其中之一。该公司除了数据管理和储存服务以外,还向用户提供各种通量水平的数据分析方案。
为了用上更加便利的工具,研究者们开始自己自足。
2011年,FlorianFricke及其同事设计了一个开放源代码工具,这个被称为CloVR的虚拟机主要用于分析二代测序生成的数据集。CloVR既可以在家用电脑上分析本地的测序序列,也适用于多个云平台的虚拟计算。这种两用软件的优势在于,能够根据用户的实际需要量体裁衣,把较大的数据集放到云端,较小规模的数据集放在本地进行分析。
云计算的其他虚拟环境还包括Galaxy和CloudBioLinux。CloudBioLinux在亚马逊EC2上运行,用户需要承担一定的使用费。CloudBioLinux里面预装了一些生物信息学工具,主要针对开发人员和生物信息学家,旨在帮助他们以最小成本完成生物信息学工作。
来源:Ebiotrade