w和x做内积加上一个偏置常熟b,让其做一个σ函数,σ函数可以有多个选择。
感知机其实就是二分类问题。
以前回归输出的是实数,softmax回归输出的是概率。
多层感知机可以拟合XOR函数。
一个函数实现不了,再来一个函数,组合多个函数。
σ不能是一个线性函数,因为线性模型无法解决XOR问题,我们多层感知机是为了解决这个问题的,必须是非线性的。
为什么要有一个-2?
就是一个max函数,深度学习都是经典的东西重命名。2014年之前,之后很多新的概念出来。
优点:算起来快,不需要进行指数运算。简单
softmax函数就是把所有的输入拉到一个(0,1)区间范围内的函数,使得y1+y2+```yk=1。
多类分类与softmax回归没有本质的区别,与单分类就是多了一层隐藏层,就变成了多层感知机。
区别:W2从向量变成了矩阵,b2从标量变成了向量。
必须要有激活函数,少一个激活函数,就少了一层。
本质上机器学习就是多维压缩成低维。