优化器(Optimizer)是深度学习中用于更新模型参数的一种方法,它的目标是最小化损失函数。在训练神经网络时,我们通常使用梯度下降法来更新参数,而优化器就是实现这一过程的工具。优化器的主要作用是在每次迭代过程中计算损失函数关于模型参数的梯度,并根据梯度的方向和大小来更新参数,从而使得模型逐渐逼近最优解。
以SGD为例
import tensorflow as tf
from tensorflow.keras import layers, models, optimizers
#使用Keras的内置函数加载MNIST数据集
mnist = tf.keras.datasets.mnist
#将数据集分为训练集和测试集
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
#将训练图像调整为一维数组,每个元素表示一个像素值
train_images = train_images.reshape((60000, 28 * 28))
#将像素值归一化到0-1之间
train_images = train_images.astype('float32') / 255
#将测试图像调整为一维数组,每个元素表示一个像素值
test_images = test_images.reshape((10000, 28 * 28))
#将像素值归一化到0-1之间
test_images = test_images.astype('float32') / 255
#创建一个随机梯度下降优化器SGD优化器实例,学习率为0.01、动量为0.9
sgd_optimizer = optimizers.SGD(learning_rate=0.01, momentum=0.9)
# 创建模型
model = models.Sequential()
#添加一个全连接层,神经元数量为64,激活函数为ReLU,输入形状为(28*28,)
model.add(layers.Dense(64, activation='relu', input_shape=(28 * 28,)))
#添加一个全连接层,神经元数量为10,激活函数为Softmax
model.add(layers.Dense(10, activation='softmax'))
# 编译模型,使用SGD优化器,损失函数为稀疏分类交叉熵,评估指标为准确率
model.compile(optimizer=sgd_optimizer, loss='sparse_categorical_crossentropy', metrics=['accuracy'])
# 训练模型,迭代次数为5,批量大小为64
model.fit(train_images, train_labels, epochs=5, batch_size=64)
#评估模型在测试集上的损失和准确率
test_loss, test_acc = model.evaluate(test_images, test_labels)
#打印测试集上的准确率
print('Test accuracy:', test_acc)
在使用SGD优化器时,可以设置不同的学习率和动量参数。学习率决定了权重更新的速度,而动量参数则有助于加速梯度下降过程。在实际应用中,可以根据问题的复杂性和数据的特点来选择合适的优化器和参数。(其他优化器的使用及解释请详细查询相关文档)