在这里插入图片描述 ** 一个hidden 可以通过无数个 picewise linear 构成任意形状的曲线** 那么为什么还要 deep 呢
同样参数量下,deep的模型表现优于 fat 的
使用deep,效率更高,达到同样的效果,矮胖的效率由于瘦长的 shallow networks 需要更多的训练资料 shallow networks 需要的参数更多,更加复杂,更加容易过拟合。
deep: 能快速达到理想效果。