方法:在有监督的多任务学习中如果存在比作为输入更有价值的特征,可以使用其它任务上的样本特征作为监督信号(因为附加辅助输出中的噪声往往小于附加辅助输入中的噪声),学习目标任务训练集上其它输入特征到这部分特征的映射关系,学习映射关系的过程可以作为辅助任务 Caruana. Promoting poor feature to supervisors:Some inputs work better as outputs. 1997.
对抗性多任务学习
受生成对抗网络启发
目的:得到对主要任务有利而与次要任务对抗的表示
不断利用辅助任务包含的相反信息,消除主要任务的噪声,从而学习到接近底层数据真实表示的特征 Shinohara. Adversarial multi-task learning of deep neural networks for robust speech recognition. 2016.
辅助任务提供注意力特征的多任务学习
单任务学习: 显著特征对学习结果影响较大, 不常用特征通常被忽略
但部分不常用特征对于任务的某些功能是必要的
可以通过辅助任务单独引入,在共同学习过程中将其放大,平衡显著特征带来的学习不充分问题
此类在目标任务中需要单独放大的特征一般称为需要注意力集中的特征
附加预测性辅助任务的多任务学习
辅助任务:离线过程中搜集与主任务相关的未知特征,也称为预测性任务
在线过程中为主任务提供额外信息,帮助主任务学习更合理的归纳表示
多任务学习算法
多任务学习的定义
给定
M
M
M 个任务
{
T
m
}
m
=
1
M
\{{T_m}\}_{m=1}^M
{Tm?}m=1M?
第
m
m
m 个任务为
T
m
T_m
Tm? 其训练集为
D
m
D_m
Dm? 包含
n
m
n_m
nm? 个样本-标签对
{
x
m
,
j
,
y
m
,
j
}
j
=
1
n
m
\{{x_{m,j},y_{m,j}}\}_{j=1}^{n_m}
{xm,j?,ym,j?}j=1nm??,
x
m
,
j
∈
R
D
,
y
m
,
j
∈
R
x_{m,j}\in{R^D},y_{m,j}\in{R}
xm,j?∈RD,ym,j?∈R
W
∈
R
D
×
M
W\in{R^{D×M}}
W∈RD×M 表示权值矩阵,即多任务模型参数矩阵
ε
m
\varepsilon_m
εm? 表示任务下的噪声
则有线性模型:
y
m
,
j
=
w
m
T
x
m
,
j
+
ε
m
y_{m,j}=w_m^T{x_{m,j}}+\varepsilon_m
ym,j?=wmT?xm,j?+εm?
多数MTL算法的关键假设: 所有任务都通过某种结构相互关联,多任务中任务信息共享是通过特征的联系实现的; 一般来说,多任务选取的特征属性都是相似的,而各个任务之间特征的重要性通过模型向量
w
m
w_m
wm? 反映; 在模型向量中所占比重相似,才能说明任务特征之间具有迁移性。