机器学习高维数据可视化：t-SNE 降维算法

发布时间：2023年12月20日

?作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。
🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

本文目录

t-SNE 简介

t-SNE 的全称为 t-Distributed Stochastic Neighbor Embedding，是一种非线性降维算法，它可以将高维数据映射到低维空间，同时保持数据间的相对距离不变。t-SNE 通常用于可视化高维数据，它可以将高维数据映射到二维或三维空间，从而可以通过图形的方式展示数据的特征。

相比于 PCA 等线性降维算法，t-SNE 能够更好地保留数据的局部结构，因此在可视化高维数据时，t-SNE 通常能够展示出更好的效果。

sklearn 中的 t-SNE

sklearn 中的 t-SNE 位于 sklearn.manifold.TSNE，它的主要参数有：

n_components：降维后的维度，默认为 2
perplexity：困惑度，用于控制每个点周围的邻域大小，默认为 30，通常取值在 5 到 50 之间
early_exaggeration：控制 t-SNE 与原始空间距离的关注度，值越大，t-SNE 与原始空间距离越大，默认为 12
learning_rate：学习率，默认为 200，通常取值在 10 到 1000 之间
n_iter：迭代次数，默认为 1000
n_iter_without_progress：当连续多少次迭代没有改善时，训练提前结束，默认为 300
min_grad_norm：梯度的最小值，当梯度的平方和小于该值时，训练提前结束，默认为 1e-7
metric：距离度量，默认为欧氏距离
init：初始化，默认为随机初始化，也可以设置为 pca，表示使用 PCA 进行初始化
verbose：是否打印训练过程，默认为 0，不打印
random_state：随机种子

t-SNE 的训练过程比较耗时，因此在实际使用时，通常会先使用 PCA 等线性降维算法将数据降到较低的维度，然后再使用 t-SNE 将数据降到二维或三维空间。

使用 t-SNE 可视化手写数字数据集

下面我们使用 t-SNE 将手写数字数据集降到二维空间，并将降维后的数据可视化。

导入需要的包：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn import manifold, datasets
from sklearn.preprocessing import MinMaxScaler

from torchvision import datasets

加载手写数字数据集：

digits = datasets.MNIST("./data", train=True, download=True)
X, y = digits.data.numpy().reshape(-1, 28 * 28), digits.targets.numpy()
n = 5000
X, y = X[:n], y[:n]
X.shape, y.shape  # ((5000, 784), (5000,))

可视化原始数据：

n = 10  # 显示 10 * 10 个数字
img = np.zeros((30 * n, 30 * n))
for i in range(n):
    ix = 30 * i + 1
    for j in range(n):
        iy = 30 * j + 1
        img[ix : ix + 28, iy : iy + 28] = X[i * n + j].reshape(28, 28)
plt.figure(figsize=(8, 8))
plt.imshow(img, cmap=plt.cm.binary)
plt.axis("off")
plt.show()

MNIST

使用 t-SNE 将数据降到二维空间并可视化：

# t-SNE 降维
tsne = manifold.TSNE(n_components=2, init="pca", random_state=0)
X_tsne = tsne.fit_transform(X)

# 归一化
scaler = MinMaxScaler()
X_norm = scaler.fit_transform(X_tsne)

# 可视化
plt.figure(figsize=(9, 9))
for i in range(X_norm.shape[0]):
    plt.text(
        X_norm[i, 0],
        X_norm[i, 1],
        str(y[i]),
        color=plt.cm.tab10(y[i]),
        fontdict={"size": 12},
        va="center",
        ha="center",
    )
plt.axis("off")
plt.show()

t-SNE

文章来源:https://blog.csdn.net/qq_63585949/article/details/135039873
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！

机器学习 高维数据可视化：t-SNE 降维算法

本文目录

t-SNE 简介

sklearn 中的 t-SNE

使用 t-SNE 可视化手写数字数据集

机器学习高维数据可视化：t-SNE 降维算法