关于实体解析基本方法的研究和述评

中文标题:关于实体解析基本方法的研究和述评

英文标题:Reviewing Basic Methods of Entity Resolution

发布平台:数据分析与知识发现

数据分析与知识发现

发布日期:2019

引用量(非实时):0

DOI:10.11925/infotech.2096-3467.2018.1388

作者:高广尚

关键字: #实体解析 #综述

文章类型:国内期刊论文

品读时间:2022-02-17 11:33

1 文章萃取

1.1 核心观点

【目的】探讨实体解析理论中经典的实体解析方法及逻辑思路。 【文献范围】在Google Scholar和CNKI中分别以检索词“Entity Resolution”、“Collective Analysis”、“Crowdsourced”、“Active Learning”、“Privacy-Preserving”和“实体解析”进行文献检索, 再结合主题筛选, 精读并使用追溯法获得实体解析研究的代表性文献共86篇。 【方法】针对每种实体解析方法, 归纳分析该方法的基本思想, 并通过图示直观地呈现其中的解析过程; 重点分析梳理方法实现过程中, 现有研究所采用的关键策略、算法或技术等。 【结果】实体解析是数据质量管理的基本操作, 也是发现数据价值的关键步骤。 【局限】未深入分析各实体解析方法的评价指标和应用情况。 【结论】尽管现有实体解析方法能在一定程度上满足大部分应用的需求, 但在大数据环境下其仍然面临着数据混杂性、隐私保护和分布式环境等方面的挑战。

1.2 综合评价

  • 行文逻辑清晰,覆盖全面
  • 很适合作为实体解析的入门论文

1.3 主观评分:⭐⭐⭐⭐

2 精读笔记

实体解析:识别出数据集(或数据库)中那些描述同一实体的数据对象, 以实现数据清洗和集成

接下来围绕实体解析的7个主要研究方向进行方法的概述

2.1 基于概率决策的实体解析 (Probabilistic Entity Resolution)

主要思想:通过计算对应属性值之间的相似度, 并结合阈值, 决定两条记录是否匹配。

此方向的探索主要围绕相似度的计算方式展开,比如Jaccard相似度、TF-IDF相似度和q-grams相似度,又或者Levenshtein距离算法和Jaro距离算法。

2.2 基于通用扩展的实体解析 (Generic Entity Resolution)

主要思想:从可扩展层面设计算法角度, 尽量避免算法中的不必要比较。

此方向的探索主要借助策略的4种性质: 幂等性(Idempotence)、交换性(Commutativity)、结合性(Associativity)和代表性(Representativity),以避免的不必要记录与属性比较。此类探索的主要意义在于降低计算成本(内存缓冲)和提高计算效率(分布式计算、并行计算)。

2.3 基于协同分析的实体解析 (Collective Entity Resolution)

主要思想:以迭代的方式对共同出现的多种类型或同种类型的数据对象协同而非独立地进行解析

这类方法一般会优先解析高置信度的实体关系,并通过聚类算法或者关联分析的方式从已解析的实体关系中抽取相关信息,作为后续协同解析的依据。

2.4 基于众包模式的实体解析 (Crowdsourced Entity Resolution)

主要思想:通过整合计算机和互联网大众, 完成计算机难以单独完成的人类智能任务 (Human Intelligence Tasks, HIT), 从而有效提高实体解析准确率

这类方法一般都会先通过算法生成初步的候选匹配,然后按照可信度提交至众包平台,并最终确定匹配结果。常见的研究主要围绕处理和验证众包匹配结果,以及平衡众包的质量与成本等方向。

2.5 基于主动学习的实体解析 (Entity Resolution Using Active Learning)

主要思想:通过主动学习器(Active Learner)从未标注数据对象集中有策略性地选出某些数据对象以让专家进行标注, 标注后的数据对象有助于以最快的速度加强分类器

这类方法主要依靠传统的机器学习,如决策树、支持向量机、马尔可夫模型等。采样策略制定和分类规则学习将是其中的两个关键点。

2.6 基于实时应用的实体解析

主要思想:在亚秒级的响应时间内,实现数据集子集的选取和查询记录的解析过程

这类方法与网络搜索引擎有很多相似之处,都需要实现接近实时的信息匹配和结果排序。实际应用中,为了追求运行效率,会涉及很多关于索引(Indexing)、Meta-Blocking、迭代缓存(Iterative Caching)等相关的技术

2.7 基于隐私保护的实体解析

主要思想:在进行重复实体的消除时,尽量避免产生信息的泄露

此类方法主要包含三个常见方向。数据扰乱主要采用k-匿名(k-Anonymity)和差分隐私(Differential Privacy)等方法为原始数据添加噪声;数据重构主要通过布隆过滤器(Bloom Filter)、安全合计(Secure Sum)与Dice相似度函数(Dice Coefficient Similarity)等方法在隐藏真实数据的同时保留某些统计学特征;数据加密的常见方法则与安全多方计算(Secure Multiparty Computation, SMC)、零知识(Zero Knowledge)概念密切相关。

展望方向:借助深度学习处理混杂型数据、隐私保护与数据共享的矛盾化解、分布式环境下的高效计算

相关资源

往年同期文章