现有解决想法: 采用 细粒度评估(fine-grained evaluation) 来组织这种特定于类的学习,例如 对于给定的草图,通过将数据库中图像的估计排名与人工注释的排名列表进行比较来评估检索结果—— 需要 extensive human labor 以及受到 human biases 的影响 —— 作者想法: 在零学习设置中采用粗粒度评估(coarse-grained evaluation) 来解决上述问题
1.3 Zero-Shot Sketch Based Image Retrieval (ZS-SBIR)
主要想法: ZS-SBIR可以被认为是生成草图中缺失的附加信息以检索相似图像的任务
具体想法: Deep Conditional Generative Models based on Adversarial Autoencoders and Variational Autoencoders for the ZS-SBIR task
2 Related Work
SBIR的传统做法(Conventional pipeline in SBIR): 将图像和草图投影到公共特征空间中
3 Zero shot setting for SBIR
3.1 定义
S
S
S为草图的三元组:
S
=
{
(
x
i
s
k
e
t
c
h
,
x
i
i
m
g
,
y
i
)
∣
y
i
∈
Y
}
S = \{ (x^{sketch}_i,x^{img}_i,y_i)|y_i \in \mathcal{Y} \}
S={(xisketch?,xiimg?,yi?)∣yi?∈Y},将数据划分成训练集和测试集
S
t
r
=
{
(
x
i
s
k
e
t
c
h
,
x
i
i
m
g
)
∣
y
i
∈
Y
t
r
a
i
n
}
S_{tr}=\{(x^{sketch}_i,x^{img}_i)|y_i \in Y_{train}\}
Str?={(xisketch?,xiimg?)∣yi?∈Ytrain?}
S
t
e
=
{
(
x
i
s
k
e
t
c
h
,
x
i
i
m
g
)
∣
y
i
∈
Y
t
e
s
t
}
S_{te}=\{(x^{sketch}_i,x^{img}_i)|y_i \in Y_{test}\}
Ste?={(xisketch?,xiimg?)∣yi?∈Ytest?}
D
D
D为所有图像的数据库,
g
I
g_I
gI?是从图像到类标签的映射,将数据库分为训练集和测试集
D
t
r
=
{
x
i
i
m
g
∈
D
∣
g
I
(
x
i
i
m
g
)
∈
Y
t
r
a
i
n
}
D_{tr}=\{x^{img}_i \in D | g_I(x^{img}_i) \in Y_{train} \}
Dtr?={xiimg?∈D∣gI?(xiimg?)∈Ytrain?}
D
t
e
=
{
x
i
i
m
g
∈
D
∣
g
I
(
x
i
i
m
g
)
∈
Y
t
e
s
t
}
D_{te}=\{x^{img}_i \in D | g_I(x^{img}_i) \in Y_{test} \}
Dte?={xiimg?∈D∣gI?(xiimg?)∈Ytest?}
说明:
模型只在
S
t
r
S_{tr}
Str?上训练
D
t
r
D_{tr}
Dtr?作为验证集来调整超参数
模型目标是:给定来自
S
t
e
S_{te}
Ste?上的一个草图
x
s
k
e
t
c
h
x^{sketch}
xsketch,能够从
D
t
e
D_{te}
Dte?上搜索到同一类的图像 模型必须学习草图和图像之间的显著共同特征
3.1 Benchmark
数据集: augmented Sketchy,包含73002个images,125个类
数据集划分: 104个训练类,21个测试类,特别地,21个测试类不包含在
I
m
a
g
e
n
e
t
Imagenet
Imagenet数据集的1000个类中——确保研究人员仍然可以在不违反零射击假设的情况下,在1000个Imagenet类上预训练他们的模型