输入图像编码器生成的图像
x
\mathbf{x}
x 特征 ,通过 Meta-Net 生成相应的条件标记
t
y
(
x
)
\mathbf{t}_y (\mathbf{x})
ty?(x)
计算输入图像
x
\mathbf{x}
x 与每个类别提示
t
i
(
x
)
\mathbf{t}_i (\mathbf{x})
ti?(x)之间的相似度
对于每个类别
i
i
i ,将相似度值作为指数项应用于指数函数,同时用温度参数
τ
\tau
τ 进行缩放,将相似度映射为概率得分
将所有类别的指数项相加并归一化,得到每个类别的归一化概率分布
最终的预测概率表示为给定输入图像
x
\mathbf{x}
x下属于每个类别的可能性。
实现细节
p
(
y
∣
x
)
=
exp
?
(
sim
?
(
x
,
g
(
t
y
(
x
)
)
)
/
τ
)
∑
i
=
1
K
exp
?
(
sim
?
(
x
,
g
(
t
i
(
x
)
)
/
τ
)
p(y | \mathbf{x}) = \frac{\exp (\operatorname{sim} (\mathbf{x}, g(\mathbf{t}_y (\mathbf{x}))) / \tau )}{\sum_{i=1}^K \exp (\operatorname{sim} (\mathbf{x}, g(\mathbf{t}_i (\mathbf{x})) / \tau )}
p(y∣x)=∑i=1K?exp(sim(x,g(ti?(x))/τ)exp(sim(x,g(ty?(x)))/τ)?
计算预测概率的公式,涉及了上下文标记和模型的预测函数。
评估模型对给定输入图像的类别预测概率。
训练过程中,更新了上下文向量
v
m
{v_m}
vm? 和 Meta-Net 的参数
θ
θ
θ 。
Meta-Net 结构: Meta-Net采用了一个两层的瓶颈结构,隐藏层将输入维度降低了16倍。
参数
p
(
y
∣
x
)
p(y | \mathbf{x})
p(y∣x):表示在给定输入图像
x
\mathbf{x}
x 的情况下,模型预测为类别
y
y
y 的概率。
t
y
(
x
)
\mathbf{t}_y (\mathbf{x})
ty?(x):表示输入图像
x
\mathbf{x}
x 对应类别
y
y
y 的提示(即条件化的标记),包括了关于这个图像的特定信息。
sim
?
(
x
,
g
(
t
i
(
x
)
)
)
\operatorname{sim} (\mathbf{x}, g(\mathbf{t}_i (\mathbf{x})))
sim(x,g(ti?(x))):表示图像
x
\mathbf{x}
x 与类别
i
i
i的提示
t
i
(
x
)
\mathbf{t}_i (\mathbf{x})
ti?(x)之间的相似度。这个相似度函数可以是任何测量图像与提示之间相似程度的函数。