A.
B.
C.
D.
A.对
B.不对
tanh输出在[-1,1],均值为0,可以起到归一化的作用
A、卷积神经网络有反馈连接。
B、增加多层感知机的隐层层数,测试集的分类错误会减小。 不一定,有可能过拟合
C、卷积神经网络会发生权重共享。
D、穷举搜索不可以用来更新参数。
A. 18×5, y 18×1, 5×5
B. 18×6, y 18×1, 6×1
C. 18×5, y 18×1, 5×1
D. 18×6, y 18×6, 6×6
A. 梯度下降,因为正规方程中中计算非常慢
B. 梯度下降,因为它总是收敛到最优
C. 正规方程,因为它提供了一种直接求解的有效方法
D. 正规方程,因为梯度下降可能无法找到最优
A.142
B.143
C.144
D.145
卷积层:(300-8+2*1)/2 + 1=148
池化层:(148-5)/1+1=144
A.K-means
B.决策树
C.SVM
D.F-RCNN
A.1
B.2
C.17
D.4097
A.31x31x16
B.32x32x8
C.32x32x16
D.64x64x8
A.18x18x10
B.20x20x8
C.20x20x12
D.18x18x8
A.让参数初始化更快
B.让代价函数更快地优化
C.更容易做数据可视化
D.是另一种正则化——有助减少方差
A、PCA
B、K-Means
C、以上都不是
确定性算法我的理解是:输入一样,输出也一样
K-Means聚类算法多次训练得到结果不一样
PCA的话,本质在于对一个方差最大化问题的求解,求最优解,必然是确定且唯一
A.重量变大(远离0)
B.权重变小(接近0)
C.2倍的导致2倍的权重
每次迭代,梯度下降采取更大的步距(与成正比)
A.33%训练,33%开发,33%测试
B.60%训练,20%开发,20%测试
C.98%训练,1%开发,1%测试
A.来自同一分布
B.选择随机分布
C.完全相同(一样的(x, y)对)
D.数据数量应该相同
A.梯度爆炸
B.梯度消失
C.ReLU函数作为激活函数g(.),在计算g(z)时,z的数值过大了
D.Sigmoid函数作为激活函数g(.),在计算g(z)时,z的数值过大了
loss常用正值,不代表只能用正值
A.对
B.错
A.只有 1
B.只有 3
C.只有2和3
D.都正确
a .forget gate b. input gate
c. output gate d. reset gate
A.ab
B.abc
C.abcd
D.bcd
GRU将LSTM中的输入门input gate和遗忘门forget gate进行了合并,称之为更新门
A.-(9/13log(9/13)+4/13log(4/13))
B. 9/13log(9/13)-4/13log(4/13)
C. 9/13log(9/13)+4/13log(4/13)
D. -9/13log(9/13)+4/13log(4/13)
A.交叉验证
B.增加训练数据
C.Dropout
D.L3正则化 没听过,不了解
E.Xavier初始化
F.梯度爆炸
G.L2正则化
A.正则化效应被增强
B.正则化效应被减弱
C.模型结构复杂的层取大的keep_prob
D.模型结构复杂的层取小的keep_prob
E.训练集的误差会增加
F.训练集的误差会减小
Keep_prob越大,保留越多的神经元节点,模型会更复杂,能够更好的拟合训练集数据
正则化引入了惩罚项,来防止模型过于复杂,keep_prob越大会导致正则化效应越弱
A.特征工程
B.获取更多测试数据
C.增加每个隐藏层的神经元数量
D.提前终止
E.用更深的神经网络
A.增大正则化参数
B.减小正则化参数
C.获取更多训练数据
D.用更大的神经网络
A.隐藏层规模
B.神经网络的层数
C.正则化参数
D.学习的回合数
E.学习率
F.迭代次数
G.神经元的激活函数
A.令所有权重值初始化为0
B.尝试调整学习率
C.尝试mini-batch梯度下降
D.尝试对权重进行更好的随机初始化
E.尝试使用 Adam 算法
A.如果mini-batch的大小是1,那么在你取得进展前,你需要遍历整个训练集
B.如果mini-batch的大小是m,就会变成批量梯度下降。在你取得进展前,你需要遍历整个训练集
C.如果mini-batch的大小是1,那么你将失去mini-batch将数据矢量化带来的的好处
D.如果mini-batch的大小是m,就会变成随机梯度下降,而这样做经常会比mini-batch慢
A.它减少了参数的总数,从而减少过拟合。
B.它允许在整个输入值的多个位置使用特征检测器。
C.它允许为一项任务学习的参数即使对于不同的任务也可以共享(迁移学习)。
D.它允许梯度下降将许多参数设置为零,从而使得连接稀疏。
E.减少模型复杂度。
F.降低模型性能。
A.均方误差损失函数
B.交叉熵损失函数
C.平均绝对误差损失函数。
D.二元交叉熵损失函数。
E.Huber Loss。
A.渐少梯度消失
B.减少收敛速度
C.降低训练精度
D.导致过拟合
E.减少人为选择参数