音频和视频基础知识

发布时间：2024年01月14日

声音

什么是声音：
声音是由物体振动产生的，物体发生振动，对周围的空气产生挤压，从而产生声音。声音是一种压力波，使周围的空气产生疏密变化，形成疏密相间的纵波，由此产生了声波。

声波三要素：

要素	解释
频率	代表音阶的高低，频率越高，波长就越短。人类的耳朵听力的频率范围为20Hz~20kHz。
振幅	代表响度；即能量大小的都反映，实际生活中，分贝常用于描述响度的大小。
波形	代表音色，波的形状决定了其所代表声音的音色，比如钢琴和小提琴的音色不同就是因为它们的介质所产生的波形不同。

声音的传播介质：
声音的传播介质很广，比如空气、液体和固定等；介质不同，传播的速度也不同，但在真空中无法传播。空气中传播速度340m/s，蒸馏水中传播速度1497m/s，钢铁中传播速度为5200m/s。

回声（echo）：
声音在传播过程中遇到障碍物反弹回来，再次传到耳朵中，就形成了回声。但是若这两种声音传到我们的耳朵里的时差小于80ms，我们无法区分这两种声音。

共鸣：
敲击一个物体时另一个物体也会振动发声，这种现象称为共鸣。共鸣证明了声音传播可以带动另外一个物体振动，也就是声音的传播也是一种能量的传播过程。

数字音频

模拟信号转换成数字信号，需要经过采样、量化。
采样：在时间轴上对信号进行数字化。所谓的44.1kHz就是代表1秒回采样44100次。
在这里插入图片描述
量化：在幅度轴上对信号进行数字化。比如用16比特的二进制信号来标识声音的一个采样，而16比特共有65536个可能取值，因此最终模拟信号在幅度上也分为65536层。

PCM：通常所得音频裸数据格式就是脉冲编码调制（Pulse Code Modulation，PCM）数据。
比特率（码率）： 描述一段音频一秒内的大小，称为数据比特率。

音频编码

音频编码：就是对音频进行压缩，压缩编码的基本指标之一就是压缩比。压缩编码包括有损压缩和无损压缩。压缩编码的原理实际上是压缩掉冗余信号，冗余信号是指不能被人耳感知到的信号，包含人耳听觉范围之外的音频信号以及被掩蔽掉的音频信号等。
常用的音频编码格式：

编码格式	解释
WAV	不进行压缩操作，只是在PCM数据格式的前面加上44字节，分别用来描述PCM的采样率、声道数、数据格式等信息
MP3	有着不错的压缩比，全称是动态影像专家压缩标准音频层面3（Moving Picture Experts Group Audio Layer III），简称为MP3。它被设计用来大幅度地降低音频数据量。利用 MPEG Audio Layer 3 的技术，将音乐以1:10 甚至 1:12 的压缩率，压缩成容量较小的文件，而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。
AAC	AAC（Advanced Audio Coding）是一种音频压缩格式，旨在提供比MP3更好的音质和更高的压缩比。它是MPEG-4标准的一部分，并且被广泛用于数字音频广播、流媒体和存储媒体中。AAC采用了先进的编码技术，如预测编码、离散余弦变换（DCT）和量化，以及更复杂的心理声学模型，以提供更好的音频质量。与MP3相比，AAC通常能够提供更高的音频质量，尤其是在低比特率下。
OGG	Ogg是一种免费的、开源的、无损的音频压缩格式，其全称是Ogg Vorbis。与MP3和AAC不同，Ogg旨在提供无损的音频质量，而不是有损的压缩。
…	…

视频

三原色：红绿蓝三种色光无法被分解，故称为三原色光，等量的三原色光相加会变成白色。
像素：像素（Pixel）是数字图像的基本单位，由英文单词“Picture”和“Element”组合而成。每个像素代表图像中的一个最小采样点，具有特定的位置和灰度值或颜色值。在数字图像中，像素通常按照矩阵形式排列，形成一张完整的图像。
数字图像：数字图像是以数字形式表示的图像，通常由像素组成。每个像素具有特定的位置和灰度值或颜色值，可以表示图像中的不同信息。数字图像通常存储在计算机中，可以进行各种计算和处理。数字图像处理是一种将图像信号数字化后利用计算进行处理的过程。数字图像可以转换为数字信号，并通过各种算法和计算进行处理。常见的数字图像处理操作包括图像增强、滤波、变换、分析、识别和分类等。

图像的数值表示：通常有RGB方式和YUV方式。
YUV和RGB转换：所有渲染到屏幕上的都需要转换为RGB的表示形式。

在这里插入图片描述
分辨率：图像分辨率是指单位英寸中所包含的像素点数，其定义更趋近于分辨率本身的定义。图像分辨率则是单位英寸中所包含的像素点数，其定义更趋近于分辨率本身的定义。此外还有屏幕分辨率。

帧率（fps）：是指每秒显示的帧数，是评估视频流畅度的指标。一般来说，30fps就是可以接受的，60fps则可以明显提升交互感和逼真感，超过75fps后，人的肉眼就不会再有明显提升的感受。

视频编码

视频编码：为了去除视频的冗余信息，实现视频的压缩，需要对视频进行编码，相比较音频数据，视频数据具有极强的相关性，拥有大量的冗余，包括空间冗余、时间冗余和统计冗余等等。
常见的编码方式： H261、H262、H264、H265、H266、VP8、VP9、AV1、AVS、AVS3等等。

文章来源:https://blog.csdn.net/yanceyxin/article/details/135585839
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！