????????常见的监督学习任务包括分类(Classification)和回归(Regression)任务。在分类任务中,模型根据输入将其分为不同的类别;在回归任务中,模型预测连续值输出。
? ? ? ? 属于监督学习的算法包括线性回归、逻辑回归、感知机、SVM、神经网络等等
????????常见的无监督学习任务包括聚类(Clustering)、降维(Dimensionality Reduction)、关联规则学习(Association Rule Learning)等。在聚类任务中,算法尝试根据数据的相似性将其分成不同的组;在降维任务中,算法试图减少数据的维度,保留最重要的特征信息。
属于无监督学习的算法包括
? K-means(使用单个质心向量表示一个簇)
? 高斯混合模型(GMMs)(使用高斯概率密度函数表示一个簇)
? 变分推断(无需预先确定簇的数量)
????????自监督学习是一种无需人工标注标签或者外部监督的学习方式。它通过使用数据本身的特征来生成标签或者辅助任务,从而让模型在学习过程中自我监督。
????????在自监督学习中,模型会从数据中学习,但不是直接使用人工标注的标签。相反,它利用数据内在的结构、特性或者进行某些变换,在这些变换后的数据中提取信息作为“伪标签”或者作为辅助任务的目标。模型随后尝试优化自身以最大化预测这些伪标签或者辅助任务目标的准确性。
例如:
? 使用部分观察数据来预测其他部分(图像恢复,修补)
? 使用对比学习来学习语义
? ? ? ? K-means属于无监督学习的聚类算法。输入一个未标记的数据集,然后将数据集聚类成不同的组。
? ? ? ? K-means是一个迭代算法,假设我们想要将数据聚类成K个簇
? ? ? ? ?K-means的目标使最小化所有的数据点与其所关联的聚类中心点之间的平均距离。因此K-means的损失函数为畸变函数(distortion function)
????????
????????在运行K-均值算法之前我们首先要随机初始化所有的聚类中心点,
1.首先应该选择K<m,即聚类中心点的个数要小于所有训练集实例的数量
2.随机选择K个训练实例,然后令K个聚类中心分别与这K个训练实例相等
????????????????????????????????????????????????????????????????????????????
Local optima(局部最小值)
????????不同的初始化情况可能会导致最终生成不同的簇
????????为了解决这个问题,我们通常需要多次运行K-均值算法,每一次都重新进行随机初始化,最后再比较多次运行K-均值的结果,选择损失函数最小的结果。
? ? ? ? 但这种方法在K较小的时候(2--10)还是可行的,但是如果K较大,这么做也可能不会有明显地改善。
????????
? ? ? ? 当我们使用不同的K值可以绘制出K值关于损失函数的图像,好像人的手臂,如果你伸出你的胳膊,那么这就是你的肩关节、肘关节、手,这就是“肘部法则”。从1到2,从2到3畸变值会迅速下降,在3的时候达到一个肘点,在此之后,畸变值就下降的非常慢,那么可以就选择K=3
? ? ? ? 更多的时候需要根据我们实际的任务情况及所要实现的目的来选择K值。
? ? ? ? 例如T-恤制造的例子,我们要将用户按照身材聚类,我们可以分成3个尺寸:S,M,L,也可以分成5个尺寸XS,S,M,L,XL,这样的选择是建立在回答"聚类后我们制造的T-恤是否能较好地适合我们的客户”这个问题的基础上作出的。
GMMs 假设数据是从多个高斯分布中抽样得到的,每个高斯分布称为一个“组件”。这些组件具有各自的均值和方差,它们可以具有不同的权重来表示它们在整体数据分布中的贡献程度。
在 GMMs 中,通常有两个阶段:
E步骤(Expectation Step):
M步骤(Maximization Step):
重复进行期望步骤和最大化步骤,直到模型收敛或达到预定的迭代次数。最终,GMMs 能够提供对数据的聚类信息,即哪些数据点更有可能属于哪个高斯分布组件。
? 优点:
???????? ? 使用高斯概率密度函数而不是质心向量来表示簇 ? 能够提供更多关于簇的信息
? 缺点:
???????? ? 仍然需要预先确定簇(组件)的数量
? 思路:
????????? 使用一个易处理的概率密度函数来近似数据的后验分布。后验概率指的是观察数据属于某一类的概率。
? 优点:
????????? 它可以自动发现数据中的聚类数量
? 缺点:
???????? ? 优化可能需要很长时间才能收敛。
?