雷锋网 AI 科技评论按:近日,清华大学副教授、Arnetminer 创始人唐杰博士在微博上公开了开放学术组织(Open Academic Society)发布的亿级学术图谱——Open Academic Graph。据唐杰博士介绍,该图谱目前集成了两个最大的公开学术图谱:微软学术图谱(MAG)和AMiner学术图谱。具体来说,团队通过集成MAG中1.66亿学术论文和AMiner中1.55亿学术论文的元数据信息,生成了这两个学术图谱之间近 6500 万对链接(匹配)关系。
雷锋网 AI 科技评论第一时间采访了唐杰博士,详细了解到这个亿级学术图谱和与之相关的研究难点以及技术突破。
亿级数据,筹备半年
目前这个学术图谱中的数据集主要是论文,包括论文中的题目、作者、会议、年份、摘要等元数据。不同于国内大的学术数据库知网、万方等以中文为主,Open Academic Graph中的论文主要是英文。根据唐杰博士的介绍,如此庞大的数据集,团队前后花了半年时间筹备。
耗费如此多的时间和精力,做这个数据集目的何在?唐杰博士告诉雷锋网AI科技评论,他们想要集成全球不同学术知识图谱,并公开共享学术图谱数据和相关学术搜索与挖掘服务。具体包括如下三点:
一是集成丰富的学术知识数据。目前开放学术图谱的核心数据来自微软学术图谱和AMiner学术图谱,下一步将集成更多其他学术图谱数据,包括扩充不同类型实体(如作者、论文等)的语义数据。通过数据集成和数据挖掘算法将链接更多实体更精准和丰富的“画像”数据,包括论文的元数据、概念网络、研究领域、全文等和作者的基本信息(如:职位、单位、联系信息、国别、性别等)、研究兴趣以及论文列表等。
二是数据共享。通过共享不同的学术知识图谱以及它们的链接关系,我们希望能够造福学术界对知识图谱、学者合作关系、学术主题挖掘以及大规模学术图谱连接等领域的研究。同时,欢迎更多来自学术社区的贡献来进一步增强开放学术图谱。
三是服务共享。我们希望设计更加智能的学术图谱连接系统,并提供相关的服务(如API),以方便更多人使用服务以及加入开放学术社区。
精准匹配,挑战颇多
庞大的数据量,要实现精准匹配势必会存在各种各样的问题。唐杰博士坦言,在实际的研究过程中,由于学术数据在不同图谱中的分布异构特点,同名异义和异名同义问题严重。对于出现的问题,他也举了几个实例来具体说明。
一是数据异构问题。由于数据分布在不同数据源,可能面临数据异构的问题。比如论文作者可能存在不同的格式,如Quoc Le 和Le, Quoc。又如,论文所发表的期刊或会议有全称或缩写等多种形式。
二是同名消歧问题。同一名字可以表示多个实体,这也给图谱连接带来了很大困难。比如常见姓名通常是匹配的难点。在2016 年,中国重名最多的30 个姓名中,每个姓名重名人次达到20 万以上。对于论文来说,不同论文也可能有相同的题目,如:Data, data everywhere 在数据库中可对应多篇文章。
除了前面提到的两个问题,要想实现亿级数据的集成,如何进行高效计算也是另一个重要挑战。唐杰博士提到,以AMiner为例,已经公布的论文数据就有1.55亿,而微软学术图谱的公开数据也达1.6亿,计算两个图谱匹配关系的算法复杂度一般来说是O(n2),这需要大量计算。
精进算法,不断突破
那么团队究竟如何处理这些问题?他们设计了一个折衷方法,同时考虑精度和效率。据介绍,他们的方法能将算法复杂度降低到O(nlogn)到O(n2)之间,目前每天能够完成约2千万篇论文的匹配,基本完成了合计3亿篇论文的自动匹配,并保证了高匹配精度。
该算法是在RiMOM算法的基础上进行了改进。
具体来说,我们设计了一个针对大规模论文匹配的异步搜索框架。对于AMiner中的每篇论文,我们根据题目在MAG中搜索可能匹配的论文,每次搜索的时间在几百毫秒到几秒不等。通过异步搜索的策略,可以做到平均每秒搜索到20余篇论文,使得大规模的图谱链接可以达到较快的速度。
为进一步提高自动集成速度,他们还尝试了两个新的匹配算法MHash和MCNN。
MHash是利用哈希算法,将每篇论文转化为一串二值编码,计算两篇论文之间的汉明距离。由于使用了哈希,该算法速度很快,但同时精度也有所降低,大概能保持93+%的匹配准确率。MCNN是基于卷积神经网络的深度学习方法,MCNN基于单词之间的相似度构造两篇论文的相似矩阵,然后利用卷积神经网络来捕捉文本之间的相似模式。
采访过程中,唐杰博士还提到在实际的操作过程中,该方法可以缓解数据异构的问题。如:对于作者Quoc Le 和Le, Quoc,它们对应位置上的单词是不相似的,但是在相似矩阵中可以捕捉不对应位置上单词的相似度。该方法可以达到非常高的匹配准确率(98%+)。两个论文匹配算法均结合了论文的多个属性,如题目、作者等减轻同名消歧问题。
总结
唐杰博士团队与微软联合发布的Open Academic Graph,不管对学界还是对业界来说都有极大的意义。一方面能助力大家当前的研究,另一方面也能吸引更多人来进行学术知识图谱相关的研究。
在未来,他们还将研究如何集成大规模异构学术图谱中不同类型的实体(如作者、会议等),公布更多学术图谱连接数据(如作者连接数据),设计更加智能的学术图谱连接系统并提供相应的服务。
最快今年年底,我们可能就会看到更大的数据集。雷锋网 AI 科技评论也将持续关注。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。