Azure AI 视频索引器是构建在 Azure 媒体服务和 Azure AI 服务(如人脸检测、翻译器、Azure AI 视觉和语音)基础之上的一个云应用程序,是 Azure AI 服务的一部分。 有了 Azure 视频索引器,就可以使用 Azure AI 视频索引器视频和音频模型从视频中提取见解。
Azure AI 视频索引器通过运行 30 多个 AI 模型来分析视频和音频内容,从而生成丰富的见解。 下面是 Azure AI 视频索引器在后台执行的音频和视频分析的图示:
Azure AI 视频索引器的见解可应用于许多方案:
以下列表显示了可使用 Azure AI 视频索引器视频和音频 AI 功能(模型)从视频/音频文件中检索的见解。
人脸检测:检测和分组视频中显示的人脸。
名人识别:识别超过 100 万名人,如世界各国/地区领导人、演员、艺术家、运动员、研究人员、商业和科技领袖。 有关这些名人的数据也可以在各种网站(IMDB、维基百科等)上找到。
基于帐户的人脸识别:为特定帐户训练模型。 然后,根据已训练的模型识别视频中的人脸。
人脸缩略图提取:在每组人脸中识别捕获的最佳人脸(基于质量、大小和正面位置),并将其提取为图像资产。
光学字符识别 (OCR):从媒体文件中的图片、街道标志和产品等图像中提取文本以创建见解。
视觉内容审核:检测成人和/或挑逗性视觉对象。
标签识别:识别显示的视觉对象和动作。
场景分割:根据视觉提示确定视频中的场景何时发生了变化。一个场景描绘的是一个单一事件,由一系列在语义上相关的连续镜头组成。
镜头检测:根据视觉提示确定视频中的镜头何时发生了变化。镜头是指从同一台运动摄像机拍摄的一系列画面。
黑帧检测:识别视频中的黑帧。
关键帧提取:检测视频中稳定的关键帧。
滚动字幕:识别电视节目和电影末尾的滚动字幕的开头和结尾。
编辑镜头类型检测:根据镜头类型(如广角镜头、中景镜头、特写、极特写、双人镜头、多人、室外和室内等)进行标记。
跟踪观测到的人员(预览版):检测视频中观测到的人员,并提供视频帧中人员的位置(使用边界框)以及人员出现时确切的时间戳(开始时间、结束时间)和置信度等信息。
匹配的人员(预览版):将视频中观测到的人员与检测到的相应面孔进行匹配。 被观察人员与面孔之间的匹配包含置信度。
在使用高级索引选项为视频编制索引时,静态图像检测(预览版)会识别以下影片后期制作见解:
文本徽标检测(预览版):使用 Azure AI 视频索引器 OCR 匹配特定的预定义文本。 例如,如果用户创建了一个文本徽标:“Microsoft”,则单词 Microsoft 的不同外观将被检测为“Microsoft”徽标。 有关详细信息,请参阅检测文本徽标。
音频听录:将语音转换为超过 50 种语言的文本并允许扩展。
自动语言检测:识别主要讲述语言。
多语言语音识别和听录:识别音频中不同片段的口述语言。 它会发送要转录的媒体文件的每个片段,然后将转录合并成一个完成的转录。
隐藏式字幕:以三种格式创建隐藏式字幕:VTT、TTML、SRT。
双通道处理:自动检测单独的脚本并合并到单个时间轴。
噪声消减:清理电话音频或有噪音的录制内容(基于 Skype 滤波器)。
脚本自定义 (CRIS):训练自定义语音转文本模型,以创建行业特定的脚本。
说话人枚举:映射和了解哪个说话人在何时说了哪些话。 可在一个音频文件中检测出 16 位说话人。
说话人统计信息:提供说话人发言比率的统计数据。
文本内容审核:检测音频脚本中的显式文本。
基于文本的情绪检测:通过脚本分析检测到的喜悦、悲伤、愤怒和恐惧等情绪。
翻译:将音频脚本翻译成许多种不同的语言。
** 音频效果检测(预览版)**:检测内容的非语音部分中的以下音频效果:警报或警笛声、犬吠、人群反应(欢呼、拍手和起哄)、枪声或爆炸声、笑声、玻璃破裂以及无声。
检测到的声学事件包含在隐藏式字幕文件中。 可以从 Azure AI 视频索引器网站下载该文件。
通过一个通道编制索引时,这些模型的部分结果可用。
关键字提取:从语音和视觉文本中提取关键字。
命名实体提取:通过自然语言处理 (NLP) 从语音和视觉文本中提取品牌、位置和人员。
主题推理:根据各种关键字提取主题(即,关键字“证券交易所”、“华尔街”会生成主题“经济”)。 该模型使用三种不同的本体(IPTC、Wikipedia 和视频索引器分层主题本体)。 该模型使用听录(口语)、OCR 内容(视觉文本),以及使用视频索引器面部识别模型在视频中识别的名人。
项目:提取每个模型的丰富的“下一种详细程度”项目。
情绪分析:在语音和视觉文本中识别积极、消极和中性情绪。
项目
2023/11/21
按照以下步骤使用快速上传选项上传和索引媒体文件。
登录到视频索引器网站。
选择上载。
选择文件源。 一次最多可以上传 10 个文件。
若要从文件系统上传,请选择“ 浏览文件 ”,然后选择要上传的文件。
若要从 URL 上传,请选择 Enter URL,粘贴源文件 URL,然后选择“ 添加”。
确保 URL 有效且文件可访问。
配置用于编制索引的基本设置或使用默认配置。 需要为每个文件指定以下设置:
如果这是你第一次上传媒体文件,则需要检查同意检查框同意条款和条件。
选择 “上传+索引”。
查看显示索引设置和上传进度的摘要页。
完成索引编制后,可以通过选择视频来查看见解。
浏览到 Azure AI 视频索引器网站并登录。
查找要从中创建 Azure AI 视频索引器见解的视频。
按“播放”。
此页面显示视频的见解。
选择要查看的见解。 例如,人脸、关键字、情绪。 可以看到人脸和每个人脸出现的时间范围,以及显示人脸的时间百分比。
“时间线”选项卡显示包含时间线的脚本,以及可从“视图”下拉列表中选择的其他信息。
播放器和见解是同步的。 例如,如果单击某个关键字或脚本行,播放器会将你带到视频中的相应时刻。 可以在应用程序中获得播放器/见解视图和同步。