- Zero-Shot Learning: 训练类集和测试类集之间没有交集,在训练类上训练得到的模型能够在测试阶段成功识别从未见过的测试类样例
- Generalized Zero-Shot learning: 训练阶段,只可以使用训练集(已知类样本)训练模型;而在测试阶段,测试集中可以包含训练集中已知类以及未知类——“零样本学习在测试阶段,只有未见类样例出现”, 这在实际应用中是不现实的
想法: 在几个从小规模到大规模的数据集上,使用相同的评估方案,即训练集和测试集不相关且更多地广义零样本学习设置
,去广泛深入地评估大量最近的零镜头学习方法
零样本学习的关键思想:
辅助信息 auxiliary information : 对已知类和未知类的描述/语义属性/词嵌入等信息
训练过程:能够建立样本特征空间 feature space 和 语义空间 Semantic space 之间的映射,再根据输出的语义信息确定类别
举个例子: 假设小暗(纯粹因为不想用小明)和爸爸,到了动物园,看到了马,然后爸爸告诉他,这就是马;之后,又看到了老虎,告诉他:“看,这种身上有条纹的动物就是老虎。”;最后,又带他去看了熊猫,对他说:“你看这熊猫是黑白色的。”然后,爸爸给小暗安排了一个任务,让他在动物园里找一种他从没见过的动物,叫斑马,并告诉了小暗有关于斑马的信息:“斑马有着马的轮廓,身上有像老虎一样的条纹,而且它像熊猫一样是黑白色的。”最后,小暗根据爸爸的提示,在动物园里找到了斑马
思考:
以上 from 小栗子
论文通过 m e t h o d s , d a t a s e t s , e v a l u a t i o n p r o t o c o l methods,datasets,evaluation protocol methods,datasets,evaluationprotocol三方面评估现有的零样本学习
注: 过往的主流,目标都是学习 independent attribute classifiers
提出了一个 unified evaluation protocol :
- TPAMI-13-Attribute-based classification for zero-shot visual object categorization
- ICLR-14-Zero-shot learning by convex combination of semantic embeddings
- CVPR-16-Recovering the missing link: Predicting class-attribute associations for unsupervised zero-shot learning
- NIPS-14-Zero-shot recognition with unreliable attributes
- CVPR-12-Online incremental attribute-based zero-shot learning
two-stage approach:
- 首先,对输入图像的属性集进行预测
- 然后,将属性集最相似的类作为图像的标签(类也有一个属性集)
two-stage approach 存在 domain shift 问题【不同的数据集具有不同的数据分布,一般情况下训练的模型也只能用在与这种训练数据集分布相似的数据集上,而用于与训练数据集分布不同的数据集中时,则会产生具有明显差距的结果】
关键思想:
问题定义:
标准的分类器在上述问题定义上是无法在测试集上分类成功的,因为训练集和测试集不相交,同时分类器实际上会对训练集上的每个类训练得到一个参数向量(由某类样本直接到所属类标签的映射),结果是只能对训练集中的类进行分类,而对测试集模型不知道该怎么做
一些概率论背景知识:
- 先验概率 prior probability : 事件发生前的预判概率,可以是基于历史数据的统计,可以是由背景常识得到,也可以是人的主观观点给出,一般都是单独事件概率,如 p ( x ) p(x) p(x),但应该也称为全事件下发生概率即 p ( x ∣ Ω ) p(x|Ω) p(x∣Ω)
- 后验概率 posterior probability:考虑新信息之后事件发生的修正或更新概率,即假设事件B已经发生的情况下事件A发生的概率,表达为 p ( A ∣ B ) = p ( A ∩ B ) p ( B ) p(A|B)={p(A \cap B) \over p(B)} p(A∣B)=p(B)p(A∩B)?
Direct attribute prediction(DAP)
Indirect Attribute Prediction(IAP)
缺点:
关键思想: 能够根据未知类的类标签自动预测未其相关的属性列表
问题定义:
具体方法:
Vector space embedding for words——skip-gram model
需要一种合适的表示法,将names转换为向量,同时保留words的语义含义
skip-gram模型是一种神经网络,它学习words的向量表示,这些向量表示还有助于预测周围的words——因此,出现在相似上下文中的words(相邻words)在嵌入空间中会表示成彼此接近的向量表示;在大型文本语料库上进行训练 —— 泛化性好
Learning class-attribute relations——tensor factorization
训练过程表示:
其中, R ∈ R d × d × N R \in \mathbb{R}^{d \times d \times N} R∈Rd×d×N是一个三维向量, d d d是词嵌入后的向量的维度, N N N是所有关系的数量大小, R j ∈ R d × d R_j \in \mathbb{R}^{d \times d} Rj?∈Rd×d用来计算某类和某属性的关系的双线性算子 bilinear operator; σ ( ) \sigma() σ()是逻辑运算
R j R_j Rj?是通过学习得到的:
其中,
α
j
\alpha^j
αj是一个稀疏向量 sparse vector,用来加权排名第一的潜在因素Θ的贡献度,使用
λ
\lambda
λ来控制
α
\alpha
α的稀疏性即
∣
∣
α
j
∣
∣
<
=
λ
||\alpha_j|| <= \lambda
∣∣αj?∣∣<=λ,从而控制潜在因素在关系中共享的程度——使用到了latent factor model【确定某个类喜欢哪些属性】
- R. Jenatton, A. Bordes, N. L. Roux, and G. Obozinski. A Latent Factor Model for Highly Multi-relational Data. In NIPS, 2012
- 浅浅理解LFM
标签制作:
特别地:
treat the set of categories as an open set and fix their embedding
v
(
c
)
v(c)
v(c) to the one learned 【特征空间分布对齐】——未知类的信息不可获得,domain adaptation
visual attributes A A A are usually restricted to entities which we have seen before ——更好地学习属性嵌入表示,通过传播梯度
问题定义:
每个标签
y
y
y关联到语义嵌入向量semantic embedding vector
s
(
y
)
∈
S
s(y) \in S
s(y)∈S
关键思想:
例子理解:
29 30 7 9 10 31 32 33
- NIPS-2009-Zero-Shot Learning with Semantic Output Code
- TPAMI-2016-Label-Embedding for Image Classification
- NIPS-2013-DeViSE: A Deep Visual-Semantic Embedding Mode
- CVPR-2015-Evaluation of Output Embeddings for Fine-Grained Image Classification
- ICML-2015-An Embarrassingly Simple Approach to
Semi-Supervised Few-Shot Learning- CVPR-2016-Less is more: zero-shot learning from online textual documents
with noise suppression?- ECCV-2016-Improving Semantic Embedding Consistency by
Metric Learning for Zero-Shot Classification- CVPR-2017-Semantic Autoencoder for Zero-Shot Learning
general question: 给定一个大型概念类集合(concept classses)的语义编码(semantic encoding),能否构建一个分类器来识别出未知类?
问题定义:
举个栗子: 考虑一个5维的描述动物的high level properties的语义空间,每一维的语义属性为:有没有毛皮?有没有尾巴?可以在水下呼吸吗?是否肉食?动作缓慢吗?那么在这个语义空间中典型的狗的概念可以表示为{1,1,0,1,0}
注:
语义知识库包括与已知类和未知类相关联的语义属性
前景知识:
问题定义:
训练/测试设置:
关键思想 :
related work:
关键想法 :使用Semantic AutoEncoder 技术解决domain shift 问题
问题定义:
测试过程:训练得到的Semantic AutoEncoder既可以在语义空间也可以在视觉上对样本进行分类
- CVPR-2017-Latent embeddings for zero-shot classification
- NIPS-2013-cross-Zero-shot learning through cross-modal transfer
- ICCV-2015-Predicting deep zero-shot convolutional neural networks using textual descriptions
- CVPR-12017-Learning a deep embedding model for zero-shot learning
- CVPR-2017-Predicting visual exemplars of unseen classes for zero-shot learning
[11][12]
[34][35][36]
Embedding both the image and semantic features into another common intermediate space
[13]
- “Zero-shot recognition with unreliable attributes,” in Proc. 27th Int. Conf. Neural Inf. Process. Syst., 2014
- “Online incremental attribute-based zero-shot learning,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2012