技术开发 频道

用英特尔新架构 基因组分析GATK4开源

  【IT168 资讯】麻省理工学院的布罗德研究所和哈佛大学将根据开源软件许可证(MIT)发布基因组分析工具包版本4(Genome Analysis Toolkit 4,简称GATK4),包含新工具和重建的架构。目前,它可以在罗德研究所的GATK网站上进行Alpha预览,预计在6月中旬发布测试版。并做出将该工具作为开源产品发布的决定。

用英特尔新架构 基因组分析GATK4开源

  新版本建立在新架构上,可以显著简化单个工具,并带来性能提升的技术,如Apache SparkTM。这个新框架带来了并行化的改进,利用了云部署,并且使得分析大量基因组数据的过程更容易,更快速,更有效率。

  GATK原始软件包的创始人之一,布罗德研究所的数据科学和数据工程高级总监Eric Banks表示:“我们希望消除传统的规模壁垒,同时提供用户期望的高数据质量。由于云计算的迅速采用,研究人员终于可以摆脱阻碍进步的许多基础设施相关问题,特别对于GATK4感兴趣的较小的机构和初创公司。”

  今天,全球超过45000名学术和商业用户依赖GATK,运行数百万份分析。GATK是识别种系DNA和RNAseq数据中的SNP和indel的行业标准。除了提高这些已建立的工具的性能之外,GATK4扩展了这一范围的分析,包括种系和体细胞研究应用的拷贝数和结构变化。

  GATK4将完全开源

  GATK4将作为完全开源的产品发布,部分原因是布罗德研究所与英特尔之间的合作推动了高性能分析,从而使研究人员能够从全球各种来源研究大量的基因组数据。

  在英特尔广泛的基因组数据工程中心,软件工程师和研究人员花费了近几个月来建立,优化和广泛分享新的工具和基础设施,帮助科学家整合和处理基因组数据。GATK4从这一协作中获益匪浅,帮助工程师优化了基因组分析硬件和软件的非常好的实践,使其可以组合和使用驻留在私有云,公有云和混合云上的研究数据集。

  布罗德研究所数据科学与数据工程组的外联与通信副总监Geraldine Van der Auwera表示:“发布GATK4作为开源是我们团队的下一步。“我们相信,这是支持社区的最有效方式,我们希望继续发展,创新,帮助研究人员做出对未来人类健康突破至关重要的见解。”

  EMBL-EBI和全球基因组与健康联盟(GA4GH)主席Ewan Birney说:“生物医学进展至关重要,我们用于分析数百万人群基因组的软件是强大而且很好理解的。通过MIT发布GATK软件直接支持全球生物医药界的开放创新,数据重用和数据重新分析。”

  芝加哥大学医学系生物医学信息学专家Robert L.Grossman表示:“GATK工具对种系和癌症分析至关重要,发布GATK4作为开源软件包将会增加采用率,并使社区受益。”

  Chan Zuckerberg计划(CZI)计算生物学经理Jeremy Freeman说:“开放GATK是开放基因组学和开放科学研究的一大特色。不仅使这个关键工具尽可能广泛地覆盖使用,重用,检查和贡献的受众,同时为社区提供了一个强大的示例,以便现有项目拥抱开源。”

  英特尔、谷歌、微软、阿里云都支持

  Cloudera的数据科学家和Apache Hadoop PMC的成员Tom White说:“Cloudera一直是开源代码的支持者和信仰者。我们很高兴为GATK代码库做出贡献,使其在Apache Spark和Cloudera上顺利运行。GATK的下一阶段由Spark和开源软件提供支持,将扩大访问并改善基因组数据科学家之间的协作。”

  英特尔数据中心解决方案公司副总裁兼总经理Jason Waxman表示:“GATK4的开源是基因组学的重要一步,可以将研发,生物技术和制药领域的可扩展性和性能提升公开。GATK4在英特尔新的参考架构上运行时,与早期版本的软件相比可以实现5倍的加速。”

  Google Cloud Healthcare工程负责人Ilia Tulchinsky表示:“Google很高兴看到这个新版本。过去三年来,我们一直在与布罗德研究所进行合作,以加强Google Cloud Platform的基因组处理,作为开放源码技术的强力支持者,我们认为,通过这种方式,GATK的使用将有助于各地的基因组学家的使用。作为与英特尔的合作伙伴,我们特别期待研究人员能够使用即将推出的英特尔至强处理器升级版系列,在Google Cloud上运行GATK4。

  微软AI&Research总监Geralyn Miller说:“GATK是生命科学领域最广泛使用的软件包之一,我们的团队非常有效地与布罗德研究所合作,加速在Azure上的使用。这个新模式将大大促进这项工作的进行,我们很高兴继续并扩大我们在Azure上的GATK工作。

  阿里巴巴集团云计算部门阿里巴巴云首席架构师洪唐说:“随着GATK4的开源启动,有机会创建一个可以协同合作,促进生物信息学领域的全球社区。我们期待与布罗德研究所密切合作,将基于云的GATK服务纳入中国的基因组学用户,以及正在进行的GATK研究与开发。”

  除了提供GATK4作为开源工具包外,布罗德研究所还将继续在其受欢迎的用户支持论坛上提供用户支持,培训和扩展。GATK4与许多布罗德研究所的基因组分析工具一样,将通过布罗德研究所的云分析平台FireCloud提供。

0
相关文章