基于可信网络解析图像

中文标题:基于可信网络的图像解析

英文标题:Learning to Parse Images

发布平台:NIPS

NeurIPS

发布日期:1999-11

引用量(非实时):72

DOI:缺失

作者:Geoffrey E Hinton, Zoubin Ghahramani, Yee Whye Teh

关键字: #EM #Hinton

文章类型:journalArticle

品读时间:2022-03-29 16:21

1 文章萃取

1.1 核心观点

使用解析树作为图像的内部表示(简单举例理解:脸是由鼻子、眼睛、嘴组成,眼睛由眼珠、眼皮、眼睫毛组成),建立名为可信网络(credibility networks)的概率模型。可信网络能够在识别图像的同时自动进行分割处理,在手写数字分割问题上取得了很好的效果。

1.2 综合评价

  • 考虑到视觉识别的层次结构,并充分利用结构与概率
  • 在识别建模的同时实现了效果优秀的启发式的图像分割
  • 基于EM的概率算法过于依赖数据量,收敛困难,相对计算成本高
  • 论文算法细节描述不够清晰,实验部分较为单调,缺乏多场景验证

1.3 主观评分:⭐⭐⭐⭐

本论文作为Hinton的早期作品,从中可以一窥capsule结构的影子,此时的Hinton已经非常关注于增强模型对于图像的层次理解与局部抽象,只不过这时的可信网络还是生成式概率模型+图结构(解析树),如果把这种思想融入到深度学习的网络结构中时,Capsule也就应运而生了

2 精读笔记

2.1 模型起源

在很多图像识别的研究过程中,都需要进行单独的图像分割预处理过程。这个过程包含两个问题:1. 待识别物体的形状信息缺失导致分割困难;2.图像分割过程舍弃了物体周边的信息。

物体本身就存在局部和整体的描述,而结构与概率的共存效果(结构语言学的启发)也已经证明是有效的。因此本文提出了一种依赖于图像解析树的图像解释模型,借助潜在变量关联像素信息和类别信息,进而实现图像的自动化分割。

2.2 模型结构

本文构建的可信网络尺寸为$256-64-4$,其中模型输入为$16\times 16$的图像像素点展开,第二层为$64$个潜在变量用于描述图像的特征分布,最后一层的$4$个变量对于输出类别的编码(推测是$0-1$编码,这样$2^4>10$)。

不同层之间存在类似于神经网络的边关系,边的取值只能选择0或1,用于描述两个节点间是否存在关联关系。底层的特征分布本质上是浅层特征的条件分布,模型追求的是最大似然估计

个人理解,图像是多个分布的叠加,假设输入数据是人脸图像,则原始分布人脸分布,而人脸分布其实是多个分布的叠加,每一个潜在变量都在尝试寻找一种潜在分布,比如鼻分布、眼分布、嘴分布、毛发分布,而最后一层的变量分布可以理解为与最终识别信息更为密切的分布,比如从嘴分布中提取女性常见嘴分布,从毛发分布中提取男性常见胡子分布。这种深层分布信息将绝对最终的模型预测结果。

针对存在隐变量的最大似然估计模型,训练主要通过EM算法来实现

此小节以理解为主,具体公式与算法细节详见论文原文

2.3 手写数字分割

本文通过$7000$个样本训练模型,然后用$1600$样本进行测试,分类错误率$5.5%$

通过两个图像完全叠加的方式生成$120$份待分割样本,人类区分错误率为$19.2%$,而可信网络模型的区分错误率为$21.7%$,待分割样本示例如下:

上图中,图$(a-f)$描述了分割成功的样本,图$(g-l)$描述了分割失败的样本,每个子图的第一行表示原始的两个图像,第二行表示人为叠加后的待分割图像,第三行表示模型分割后的效果。

可以发现,最终模型分割效果优秀,且无需过多认为干预。对于最终模型,每种潜在特征抽取出一种多元高斯分布(包含位置、方向和比例等信息),不同层之间的边取值(0或1)描述了类别与特征间的抽象关系(整体与部分,分割与组成)。

相关资源

往年同期文章