大数据的巨大价值已得到全世界公认。2012年3月,美国政府将“大数据战略”上升为最高国策,认为大数据是“未来的新石油”,将对数据的占有和控制作为陆权、海权、空权之外的另一种国家核心能力。发展大数据技术也已成为我国国家战略,是我们在科技上超越发达国家的契机。这其中,非结构化数据占人类所有数据的70~80%,而文本是非结构化数据的主要形式之一。如何从文本中自动提取知识是解决大数据热点问题的关键点。
生物化学反应网络是一种非常复杂的网络,如果能从文本中自动构建生化网络,那么同样的方法对于帮助计算机自动理解文本、进而推动大数据问题的解决是非常关键的技术。BioNLP是一项举办了十年的国际比赛,每年都吸引了来自剑桥大学、麻省理工学院等国际一流大学的科研人员参加。比赛的任务就是看哪个团队研发的算法模型能够精准智能地从文本中自动提取出复杂的生化反应网络。今年(2016年)西安交通大学电信学院李辰教授领导的团队研发的LitWay系统在BioNLP的SeeDev任务中获得第一名的成绩[1]。
李辰教授带领的生物医学文本挖掘研究组现依托陕西省天地网技术重点实验室。长年以来,他的团队专注于与语义网络提取相关的数据标准和模型算法研究。他主导开发的BioModels的数据标准和系统曾被成功应用于系统生物学领域,并被评为该领域最重要资源[2],《自然》出版社也在2014年就该标准进行过专访。该标准目前得到多家顶级国际学术出版机构中超过200多个期刊的支持。2014年,欧盟在其提出的欧洲生物信息架构计划(ISBE)的详细方案书中将该标准作为一个成功案例进行了分析。
[1] http://2016.bionlp-st.org/tasks/seedev/seedev-evaluation
[2] E. Klipp, et al., Nature Biotechnology, 2007