给你们个idea,自己去试吧
是否已经对这个想法进行了具体编写代码程度的尝试?对此,作者本人表示:他正在和 Laura Culp、Sara Sabour 一同研究这样的想法。 我们知道,Hinton 提及的谷歌研究科学家 Sara Sabour 此前也是胶囊网络论文的第一作者,在 NIPS 2017 论文《Dynamic Routing Between Capsules》出炉之后,Sara 也开源了一份 Capsule 代码。 GLOM 是怎样一个想法? 有强有力的心理学证据表明,人类会将视觉场景解析为部分与整体的层次结构,并将部分与整体之间视角不变的空间关系建模为他们为整体和部分分配的内在坐标系之间的坐标变换。如果想让神经网络像人类一样理解图像,我们就要弄清楚神经网络如何表征部分 - 整体这一层次结构。要做到这一点并不容易,因为一个真实的神经网络无法动态地分配一组神经元来表示解析树中的一个节点。神经网络无法动态分配神经元是一系列使用「胶囊」的模型的动机。 这些模型假设:一组名为「胶囊」的神经元将永远专注于一个特定类型的一部分,这一类型出现在图像的一个特定区域。然后,可以通过激活这些预先存在的、特定类型的胶囊的子集以及它们之间的适当连接来创建解析树。但是,本论文描述了一种非常不同的方法,使用胶囊来表示神经网络中的部分 - 整体层次结构。 尽管本文主要关注单个静态图像的感知,但将 GLOM 看作一个处理帧序列的 pipeline 是最容易理解的,因此一张静态图像将被视为一些相同帧组成的序列。
GLOM 架构是由大量使用相同权重的列组成的。每一列都是空间局部自编码器的堆栈,这些编码器学习在一个小图像 patch 中出现的多级表示。每个自动编码器使用多层自底向上编码器和多层自顶向下解码器将某一层级上的嵌入转换为相邻层级上的嵌入。这些层级与部分 - 整体层次结构中的层级相对应。例如,当显示一张脸的图像时,单个列可能会收敛到表示鼻孔、鼻子、脸和人的嵌入向量上。图 1 显示了不同层级的嵌入如何在单个列中交互。 (编辑:济南站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |