技术开发 频道

CUDA平台下的复杂疾病全基因组基因计算

  【IT168 案例】目前对复杂疾病的致病基因扫描,主要集中在全基因组关联分析(genome-wide association study,简称GWAS)

  和全基因组基因相互作用(gene-gene interaction)分析。前者解析的是单个基因位点对疾病易感性的贡献,

  后者解析的是多个基因相互作用关系对疾病易感性的贡献,在特定情况下,为某些基因位点。

  复杂疾病的致病基因通常不止一个,因此基因互作是研究必不可少的手段之一。但是在全基因水平对其扫描,计算量惊人。

  以Affymetrix500K芯片为例,每个案例就有50万个单核苷酸变异(Single Nucleotide Polymorphism, SNP)位点,两两扫描共有

  (500K *(500K-1))/2≈125G种可能组合,每种可能的候选组合都需进行case组和control组的统计记数,以WTCCC提供的七种疾病为例,

  case组和control组共约5,000个样例,总数据量高达625T,使用传统的CPU进行计算非常耗时,须使用多台机器分散作业方可完成

  (20台机器,约需2星期可分析完一个疾病)。

  注意到每个候选组合之间并无直接联系,完全可以独立并行地分别进行运算,且计算过程中涉及大量浮点操作,

  因此考虑把该项计算移植到GPU上。由后文的加速比测试可以看到,使用GPU加速的算法在保证正确性的前提下,极大幅度地提升了运算速度

  (经测试,一台机器26小时即可分析完一个疾病,Release版本的加速比为300~350)。

  点此下载

  由于原始数据量庞大,压缩包内只提供测试用的一部分文件,具体可参见作品说明文档。

0
相关文章