技术成果简介
将计算机自然语言处理方法和生物本体学方法结合起来,发展一套面向生物医学文献的数据挖掘技术,建立了一个文献挖掘平台。该平台可以对生物医学文献进行数据挖掘,发现隐含在文献中的生物学实体及其联系,发现深层次的生物医学知识,自动获取大量的第一手生物医学数据。例如,挖掘与人类基因相关的信息,挖掘蛋白质相关信息,发现基因的功能,发现基因与疾病之间,发现蛋白质之间的相互作用等。
对于一组给定的文献,该平台首先进行句法分析和生物学术语标定,然后进行语义分析,提炼每条语句的生物学含义,提取文献中的生物医学关联特性,以发现文献中的基因、蛋白质、疾病以及它们的关系。
利用该平台,我们分析1万篇生物医学文献,重点挖掘其中的基因相关信息,包括基因的功能、基因与疾病的关系、基因之间的相互作用等,并由此建立了一个基因与疾病关系数据库GDRM。该数据库将不同文献的精华集成在一个数据库中,提供基因及疾病相关信息查询,并可以进行深层次基因相关信息发掘。
生物医学文献挖掘软件及基因与疾病关系数据库GDRM
技术成熟程度
研制阶段
成果所属领域
电子信息
意向合作方式
合作开发