机器学习笔记 - 基于预训练的音频Transformers进行音乐风格分类

发布时间:2023年12月27日

一、简述

        在过去几年中,深度学习为许多行业的图像和文本数据相关任务带来革命性的解决方案。但除了深入探索的自然语言处理和计算机视觉领域之外,深度学习还使我们能够以多种方式探索音频数据。

        音频分类与典型机器学习项目中的其他分类任务没有太大区别,其中必须将一个或多个标签分配给数据集中的特定样本。在音频处理中,分类任务可能基于识别音频录音中所说的语言,或检测“嘿 Siri”等关键词以与手机中的个人助理开始对话。

        在这里我们使用预先训练的音频转换器执行音频分类任务的过程。我们将微调 Transformer 模型来进行音乐流派分类,其中我们的模型接受音频作为输入,并将其标记为流行或摇滚等风格。

        此类任务在一些流媒体平台中非常常见,用于推荐与用户当前正在收听的歌曲相似的歌曲。

二、音频数据的特点

        声波的问题在于,它们是随着时间的推移由无限多个值组成的连续信号,这使得数字设备难以处理和存储它们。为了使用它们,声波同样要用数字表示,于是将这些无限信号值转换为一系列离散值

        为了获得这种数字表示,我们执行称为采样的操作,这是在固定时间样本测量连续信号值的过程。采样率/频率是以赫兹Hz )为单位的度量单位,描述在一秒时间范围内从音频文件中获取的样本数。例如,CD 品质的音频的采样率为 44,100 Hz,这意味着录制时每秒采集 44,100 个样本。

     

文章来源:https://blog.csdn.net/bashendixie5/article/details/135158336
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。