Rss & SiteMap
生物器材论坛 http://www.bio-equip.com/
哈佛-麻省理工学院Broad研究所4月6日宣布,与亚马逊网络服务、IBM和微软达成合作关系,计划在今年下半年在它们各自的云平台上运行当前版本的GATK 3.5软件。GATK(全称The GenomeAnalysis Toolkit)是Broad研究所开发的用于二代重测序数据分析的一款软件,里面包含了很多有用的工具。
GATK软件云服务
Broad研究所去年夏天和Google合作,在Google公司的云平台提供GATK云服务并发布了一个alpha版本的测试系统。目前Broad研究所又与其他云供应商签订了新的合作协议,但仍将继续为那些想在本地运行GATK软件的客户提供下载服务。Broad研究所同样和Illumina合作,将在2016年末在Illumina的云计算平台BaseSpace上提供GATK。
在不同云平台上提供GATK服务可以让用户除了选择进行本地安装外,还能选择其中任一计算平台进行项目分析。
Broad研究所数据科学与数据工程的高级主管EricBanks说:“Broad研究所开发的GATK软件目前已经有超过3.1万的注册用户。绝大部分人建立了本地计算和储存的基础设施来处理大量的信息进行基因组分析。这些合作将为我们提供更多新选择,消除在数据规模上的传统障碍,同时提供同样高质量的数据。”
Broad研究所表示,用户在今年下半年就可以访问这些云平台,但具体发布时间还不确定。第一批发布的内容将包括用于生殖系全基因组分析的现有工具,他们最终将向云端添加更多在当前迭代的软件中使用的pipelines,包括处理阵列、外显子组、RNA序列和体细胞变异识别的pipelines。
到目前为止,合作者已经完成了在Google云平台上的GATK安装启用,从去年开始已向白名单用户提供alpha测试版,但是尚不清楚何时大规模推出该软件。Broad研究所已开始在Google的GATK软件平台上进行一些分析工作,并计划在本月内将所有的分析项目转移到这个云平台上进行。Google的GATK云服务得到了极大的关注,除了Broad研究所,其他机构的研究人员也在使用这项云服务。Google基因组(Google Genomics)主管David Glazer在一份声明中说,“通过这个pipeline我们已经为不同用户分析了数千份样本。我们还在不断地对该pipeline进行优化,使它更经济。”
Broad研究所还与其他云服务供应商合作,在它们的云平台上安装启用GATK软件。Broad的首席通信官Lee McGuire说:“我们还处于这种新事物的起始阶段,我们创建了一个可适用于不同类型云服务的平台,但未来可能会出现不同的产品,而这正是我们现在努力去做的事。”
定价细节还在讨论中,具体的价格会取决于云供应商。Broad研究所仍将继续为已有用户和新用户提供可用于本地部署(on-premise)的GATK软件,以便于他们在本地基础设施上下载GATK并安装该系统。本地版GATK软件免费提供给学术机构用户,但是商业客户需要支付一定费用。目前尚不清楚云客户是否需要支付软件许可证费用。McGuire说,Broad研究所不希望云客户支付许可证费用,因为这些用户实际上并不会下载或者本地安装GATK,但是这一切细节还需要讨论。
共同开发GATK4
Broad研究所还与Cloudera、Intel和Google一起合作,开发新的软件版本GATK4,开发完成后同样将在云端提供。值得注意的是,他们将开发两个版本,其中一个版本基于Apache Spark的分布式计算框架,由Cloudera公司开发,该版本将使用户更加简单地进行并行基因组分析任务。Broad研究所的Banks说:“我们研究了很多其他基础设施搭建的框架,Spark的确是好的选择,它是拓展性和并行性最好的一个。”
Broad研究所是Cloudera公司Enterprise软件平台的客户,此次合作是现有关系的延伸。
Banks说,计划在GATK4中增加识别癌症的结构变异和拷贝数变异,及生殖系细胞的单核苷酸多态性(SNP)、插入、缺失的新功能。他们还开发了一个识别体细胞外显子序列中拷贝数变异的工具,正在开发一种识别体细胞全基因组中拷贝数变异的工具。除此之外,合作者们还在开发一种识别结构变异拷贝数的工具和一种识别倒位的工具。
Intel公司生命科学部总经理KetanParanjape说,除了促进Spark版本的GATK开发外,Intel公司还与Broad合作对GATK4软件性能进行优化。他在波士顿举办的Bio-IT国际会议上展示了一系列与Broad共同研发的工具。
Intel公司去年与Broad合作发布了一个现有版本GATK的优化版,优化版GATK在Intel仪器上运行速度比以前快了40~50倍。他还提到,Intel公司还在帮助Broad在不同云平台上运行当前版本的GATK软件。
为了简化在不同云平台上运行GATK的任务,Broad和Intel共同努力拓展Broad的工作流执行引擎的功能,这个引擎称作Cromwell,它可以帮助研究人员以一种便携和可再现的方式在私有云或公共云上发布基因组pipelines。新功能包括支持多种工作流语言,同时在多个平台上运行不同分析工作。该引擎还能挑选最佳路径执行指定分析任务,挑选最合适硬件资源运行这些任务而避免了多余步骤。
Paranjape说:“我们必须理解不同的工作流语言并对它们进行改进,从而创建可以在不同云平台上无缝运行任务的框架。”同时他还补充说,合作者们已经开发出一个标准的应用程序接口,可用于不同云平台间的交流。“从用户角度看,命令行看上去是相同的,因此用户可以在任何云平台上执行该过程。”
Broad和Intel同时还研发出了一种用于变异数据存储和处理的改良方法,称为GenomicsDB。这种方法是TileDB系统的一个补充工具,TileDB是由MIT和Intel公司共同开发的一个阵列数据库系统,以一种易于分析的形式储存稀疏的数据集。Paranjape说,TileDB最初用于人工智能界,但是开发者们看到了它在基因组研究领域的应用前景。
Paranjape说:“我们把TileDB技术引进到Broad研究所,然后运行一些他们的变异识别pipelines。”在某个案例中,研究人员尝试同时对8000个样本进行变异识别分析,以前这种任务需要几天时间才能完成,而利用GenomicsDB几分钟就可以完成。
Banks说,经过Intel公司优化的工具可以帮助研究所的研究人员更好的组织和处理生殖系变异数据。“以前没有GenomicsDB时,我们需要把文件和数据跨网络移到内存中,这是一个漫长而艰巨的过程。Intel设计的这个数据库可以让内存中的数据管理变得更好、更智能、更高效”。
Paranjape介绍,Intel公司不久后会把TileDB、GenomicsDB和Cromwell作为开源软件向公众发布。协作式癌症云(Collaborative Cancer Cloud)的研究人员已经在使用TileDB和Cromwell软件,协作式癌症云是由Intel公司和俄勒冈卫生科技大学开发的一个系统,用来帮助医院和临床中心安全地分享它们的肿瘤数据。丹娜法伯癌症研究院和安大略癌症研究所已经签约试验计划,参加对该系统的有效性测试。
来源:测序中国