技术开发 频道

微软亚洲研究院推出新冠数据分析网站COVID Insights

持续数月的新冠疫情一路肆虐、席卷全球,世界各地的科研人员都在为此奋战,希望通过非常先进的技术逐步揭开新冠病毒的神秘面纱。近日,微软亚洲研究院的研究人员基于在计算生物学、数据分析等领域的专业知识和研究经验,构建了新冠数据分析网站COVID Insights (covid.msra.cn),该网站以学术研究和科普为目的,希望透过数字表面,更深入、多角度地分析COVID-192019冠状病毒病)相关数据

COVID Insights网站主要包含感染数据分析、基因组和蛋白质结构、研究趋势三大板块,以可视化和互动的方式直观展现了疫情在不同国家和地区的传播特性、引起疫情的病毒SARS-CoV-2的病毒学分析结果,以及全球最新的相关研究热点。网站使用的所有数据均来自约翰霍普金斯大学、美国疾病控制与预防中心、GISAID等机构的官方发布。基于这些公开数据,研究员们利用先进的技术挖掘疫情数据背后隐藏的规律和洞察,为进一步拓展对疫情的思考提供有价值的参考。

 

哪两个地区的疫情发展最相似?

感染数据分析页面通过对COVID-19数据的深度分析,呈现了跨国家和地区间传播动态比较。例如,通过分析我们发现德国从227日到314的数据趋势曲线与韩国从218日到35日的数据趋势曲线很相近。因此韩国在35日以后开展的各项疾控措施对3月中旬的德国来说可能具有更为精准的借鉴作用。

在这里,研究员们将COVID-19时间序列数据在低维欧式空间中进行表示。对于一个给定的地区和时间片段,在这个空间中使用一个向量来反映其数据的趋势。这样就可以有效地发现哪些国家或地区、在哪些时间段的数据发展相似,找到合适的参考对象。

此外,该页面基于四个不同地区的开源数据,为与感染相关的高风险活动提供了一个统一的数据分析视角,方便对比地区间传播数据的差异。例如,对法国来说,许多感染是通过群众聚集发生的,而对新加坡来说,国际旅行是造成感染的最主要原因。

由于各地区的数据差异较大,有效信息或展现在不同的尺度上,或隐含在冗长的病例通报中。研究员们将非结构化的病例描述映射到统一的高风险活动分布中进行可视化,很好地解决了这个挑战。对于高风险活动的归因分析,尤其是不同地区的不同归因结果,可以为预防感染提供个性化参考。

 

SARS-CoV-2在全球哪些地区发生了变异?

COVID Insights网站的基因组和蛋白质结构页面展示了SARS-CoV-2的最新病毒学分析结果。新型冠状病毒SARS-CoV-2演变至今,已发生很多处基因组变异,用户可以通过交互探究病毒序列中发生变异的氨基酸及其位置,该变异发生的地理位置以及相应的蛋白质结构。

研究员们从全球流感序列数据库 GISAID 上下载新型冠状病毒 SARS-CoV-2 基因组数据。然后,以病毒株Wuhan-Hu-1(GenBank MN908947.3)作为参考序列,确定出各病毒序列中发生变异的氨基酸及其位置。对每一个存在变异的位置,研究员们通过计算熵显示该位置氨基酸的多样性及其在各地区的分布和时间线。

研究员们还将SARS-CoV-2病毒核酸序列转化成蛋白质序列,并将整个序列按照不同区域进行分割,最终呈现出蛋白质三维结构。此外,用户还可以看到SARS-CoV-2与包括SARSMERS在内的四种冠状病毒的基因组比较分析,了解它们之间的异同。

 

关于疫情和病毒的最新研究热点有哪些?

在研究趋势页面,用户可以通过可视化信息了解当前新冠相关主题的热门论文和主题变化趋势。研究员们通过自动聚类技术,对于热词进行聚合形成词云,并且通过每周更新展示时间粒度上的变化趋势,希望可以给研究者们带来更多启示。

我们希望COVID Insights网站能够通过深度分析和挖掘疫情数据背后的洞察,为用户科学地理解疫情数据提供参考。未来,我们会通过该网站分享更多关于新冠病毒数据的深度洞察,为抗击疫情提供持续的支持。与此同时,我们也希望更多的AI研究者、数据科学家、计算生物学家加入到研究行列中来,共同加速科研进展,早日战胜疫情。



特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
1
相关文章