本文共 1529 字,大约阅读时间需要 5 分钟。
知识图谱中知识的来源有两类,一类是互联网上分布、异构海量资源;一类是已有的结构化的异构语义资源。从第一类资源中构建知识图谱的方法根据获取知识的类型分为概念层次学习、事实学习、事件学习等,而第二类资源进行的工作是异构资源的语义集成。
概念层次学习
概念是人们理解客观世界的线索,是人们对客观世界中的事物在不同层次上的概念化描述,概念层次是知识图谱的“骨骼”。概念层次学习就是通过合理的技术,抽取知识表示中的概念,并确定其上下位关系。概念层次学习多采用基于启发式规则的方法,其基本思路是根据上下位概念的陈述模式,从大规模资源中找出可能具有上下位关系的概念对,并对上下位关系进行归纳。另一类是基于统计的概念层次学习方法[27] ,假设相同概念出现的上下文也相似,利用词语或实体分布的相似性,通过定义计算特征学习概率模型来得到概念结构。事实学习
知识图谱中事实以三元组的形式表示,事实的数量决定了知识图谱的丰富程度。按照知识图谱构建时采用的机器学习方法可以分为有监督、半有监督及无监督的知识图谱构建方法。有监督的事实知识获取方法需要有已标注文档作为训练集,可以分为基于规则学习、基于分类标注和基于序列标注方法等。基于规则学习的语义标注方法从带语义标注的语料中自动学习标注规则,利用规则对数据资源进行语义标志,适合对具有比较规范出现的资源的知识获取;基于分类的知识获取方法将知识获取方法转化为分类算法,根据确定的标注特征从标注语料中学习标注模型;基于序列模式标注的方法同时考虑多个语义标志之间的关系,可以提高标注的准确率。另外还包括其他如考虑层次关系的语义标注的方法等。
半有监督的知识获取方法主要包括自扩展方法和弱监督方法。自扩展方法[28-30]需要初始的种子实体对,根据这些种子实体对,发现新的语义模板,再对语料进行迭代抽取以发现新的实体对,这种方法的主要问题是语义漂移;弱监督方法使用知识库中的关系启发式地标注文本,它的问题主要在于训练实例中本身带有大量噪音。
无监督的知识获取方法主要是开放信息抽取,使用自然语言处理方法,无需预先给定要抽取的关系类别,自动将自然语言句子转换为命题,这种方法在处理复杂句子时效果会受到影响。代表性的系统有之前提到的 KnowItAll,该系统具有领域无关特性,可以使用自扩展的方式从大规模互联网信息中抽取语义信息,同时会自动地对抽取信息进行评审。
语义集成
知识库间的异构性阻碍了知识在整个语义网上的共享。语义集成,就是在异构知识库之间,发现实体间的等价关系,从而实现知识共享。由于知识库多以本体的形式描述,因此语义集成中的主要环节是本体映射。主要方法包括:● 基于文本的方法主要利用本体中实体的文本信息,例如实体的标签和摘要。通过计算两个实体字符串之间的相似度来确定实体之间是否具有匹配关系。
● 基于结构的方法主要利用本体的图结构信息对本体进行匹配。其中较为代表性的方法有SimRank [31] 和相似度传播[32] , 这些方法利用本体的图结构,对实体间的相似度进行传播,从而提高对齐的效果。
● 基于背景知识的方法一般使用 DBPedia 或WordNet 等已有的大规模领域无关知识库作为背景知识来提高匹配效果。例如,Aleksovski 等人利用DICE 本体 ( 医学领域的本体 ) 来匹配结构信息缺失的两个与医学相关的本体[33] 。
● 基于机器学习的方法将本体匹配问题视为一个机器学习中的分类或优化问题,从而采取机器学习方法获得匹配结果。例如,Niepert 等人将本体匹配转换为一个马尔可夫逻辑网络问题,将本体中的各种信息转化为各种约束条件,并求出最优解[34] 。
转载地址:http://yqbel.baihongyu.com/