非书中全部内容,只是写了些自认为有收获的部分
(1)人体各种神经元本身的构成很相似
(2)早期的大脑损伤,其功能可能是以其他部位的神经元来代替实现的
(3)神经元具有稀疏激活性,尽管大脑具有高达五百万亿个神经元,但真正同时被激活的仅有1%~4%
(1)ReLu是一种特殊的Maxout函数
(2)理论上可以多种激活函数混用,但在实践中较少这样应用
(1)对于非线性问题,感知机只有通过人工提取特定的特征——在这些特征中将非线性的因素包含进来——使得特征仅用线性关系就可判别,才能达到目标。但这意味着非线性的引入需要靠人工完成,感知机完全帮不上忙
交叉熵的损失函数的偏导数结果简介、漂亮
2006年Hinton发表的Science论文提出了一种深度模型的可行训练方法,其基本思想是利用生成模型受限玻尔兹曼机一层一层地进行初始化训练,然后再利用真实数据进行参数微调
(1)受限玻尔兹曼机由可视层和隐层构成
(2)RBM属于生成模型,用于建模观察数据和输出标签之间的联合概率分布
(1)系统越杂乱无序或概率分布越趋近于均匀分布,系统对应的能量越大
(2)当E(x) = -wx,EBM就是Softmax
(1)在很多情况下,并不能直接观测到所有的x值,这时候往往需要引入隐藏变量
(2)
(1)玻尔兹曼机是一种特殊的对数线性马尔可夫随机场,因为其能量函数是参数的线性形式.。其隐藏单元既要依赖于观察单元,也要依赖于其他隐藏单元;观察单元可能既依赖于隐藏单元,也依赖于同层的其他观察单元
(2)受限玻尔兹曼机:同层之间不存在相互依赖关系,只有观察层和隐藏层之间存在关系
(3)能量函数:
(4)从概率图的角度来看,给定所有观察变量的值时隐藏变量之间相互独立;对称的,给定所有隐藏变量的值时观察变量之间相互独立
未完待续...