近日,南方科技大学计算机科学与工程系助理教授唐博领导的数据库研究团队,与澳门大学智慧城市物联网国家重点实验室数据科学研究中心主任余亮豪教授团队联合,紧急研发新型冠状病毒知识图谱模式挖掘系统。该系统可实现关于新型冠状病毒不同知识图谱的前K频繁模式的高效挖掘,为专业人士分析病毒相关问题提供决策依据等。
随着疫情形势不断变化,有关疫情的各类信息不断发布、更新迭代,如何利用知识图谱从大量相关信息中高效挖掘相关频繁模式(如病毒的宿主、传播途径等)成为辅助专业人士迅速掌握病毒来源、有效提高临床治疗效果等问题的关键因素。
图1:新冠图谱挖掘系统架构
新冠图谱挖掘系统架构如图1所示,数据层首先预处理大量新冠病毒图谱数据,如清洗、整合等,随后建立图谱索引结构以支撑计算层进行高效频繁模式挖掘,通过用户层输入模式挖掘需求到图谱挖掘系统,通过计算层挖掘频繁模式并返回用户进行可视分析。计算层的核心技术来源项目团队的科研课题与技术积累,得到国家自然科学基金青年项目和深圳市基础研究自由探索项目的支持。根据初步研究结果显示,计算效率较目前学术界最优算法提高10倍到20倍,研究成果能有效提升系统对大量复杂知识图谱查找及实时数据处理的需求。
图2:新型冠状病毒知识图谱挖掘系统
该系统可用于分析各类新冠图谱。如图2所示,基于新冠科研图谱数据(详见文末链接1),该系统挖掘毒株的变异模式可得到以下几个信息:挖掘结果包含了新冠病毒变异分支,产生城市,病毒载体等相关信息,系统通过出现次数不同进行排序。图中排序第二的模式揭示了2019-nCOV毒株的发现城市与变异分支的具体情况:2019-nCOV毒株来源城市有武汉(21株)、深圳(8株),巴黎(4株),杭州(4株),悉尼(3株)等。不同城市毒株的变异分支不同,如武汉的部分毒株变异于分支036,巴黎的部分毒株变异于分支043。这些分析结果能帮助领域专家快速了解不同城市的2019-nCOV病毒毒株特征,从而快速检测毒株种类、辅助病例治疗等。
唐博介绍:“现有技术很难满足领域专家高效查询海量复杂新冠图谱的需求。因此我们开发了这个系统,旨在帮助专家高效查询和分析新冠图谱,比如分析不同城市毒株之间的特征,寻找病毒的宿主源头和传播途径等。”
新冠图谱挖掘系统中图谱数据来自中文开放知识图谱新冠专题(见文末链接2),新冠知识图谱基于统一的命名规范和语义格式,采用 CC-by SA 相似署名开放许可协议。新冠图谱挖掘系统的主要贡献者是南方科技大学2018级博士生曾剑、2016级本科生唐千栋和杨川。本项目开发团队将联手更多领域专家增强系统分析功能与使用范围。
(1)http://openkg.cn/dataset/covid-19-research
(2)http://openkg.cn/group/coronavirus
供稿:计算机科学与工程系
通讯员:刘萍
文字:南方科技大学数据库课题组
编辑:童小晋