Azure AI 内容安全Content Safety Studio实战

发布时间：2024年01月08日

Azure AI Content Safety 检测应用程序和服务中用户生成和 AI 生成的有害内容。 Azure AI 内容安全包括文本和图像 API，可用于检测有害材料。交互式 Content Safety Studio，可用于查看、浏览和试用用于检测不同形式的有害内容的示例代码。

关注TechLead，分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验，同济本复旦硕，复旦机器人智能实验室成员，阿里云认证的资深架构师，项目管理专业人士，上亿营收AI产品研发负责人

什么是 Azure AI 内容安全？

Azure AI Content Safety 检测应用程序和服务中用户生成和 AI 生成的有害内容。 Azure AI 内容安全包括文本和图像 API，可用于检测有害材料。交互式 Content Safety Studio，可用于查看、浏览和试用用于检测不同形式的有害内容的示例代码。内容筛选软件可以帮助你的应用遵守法规或维护用户的预期环境。

使用场合

下面是软件开发人员或团队需要使用内容审核服务的一些场景：

在联机市场中审查产品目录和其他用户生成的内容。
在游戏公司中审查用户生成的游戏项目和聊天室。
对用户添加的图片和文字进行审查的社交通讯平台。
企业媒体公司对其内容进行集中式审查。
K-12 教育解决方案提供商为学生和教师筛选掉不当的内容。
不能使用 Azure AI 内容安全检测非法儿童剥削图像。

产品类型

此服务提供不同类型的分析。下表介绍当前可用的 API。

类型	功能
分析文本 API	扫描文本以检测多种严重性级别的色情、暴力、仇恨和自残内容。
分析图像 API	扫描图像以检测多种严重性级别的色情、暴力、仇恨和自残内容。
越狱风险检测（新功能）	扫描文本以查找大型语言模型上的[越狱攻击风险]
受保护材料文本检测（新功能）	扫描 AI 生成的文本以查找已知文本内容（例如歌词、文章、食谱、选定的 Web 内容）。

Content Safety Studio

file
Azure AI Content Safety Studio 是一种在线工具，旨在使用先进的内容审核 ML 模型处理可能存在的冒犯性、有风险或不良的内容。它提供模板和自定义工作流，让用户能够选择和构建自己的内容审核系统。用户可以上传自己的内容，也可以使用提供的示例内容进行试用。

Content Safety Studio 不仅包含现成的 AI 模型，还包含 Microsoft 内置术语阻止列表，用于标记不雅内容并及时了解新趋势。你还可以上传自己的阻止列表，拓展有害内容的覆盖范围以满足特定用例。

该工作室还允许设置审核工作流，可在其中持续监视和提高内容审核性能。可帮助你满足各种行业（如游戏、媒体、教育、电子商务等）的内容要求。企业可以轻松地将其服务连接到该工作室，并实时审核其内容（包括用户生成的内容以及 AI 生成的内容）。

所有这些功能都由工作室及其后端处理，客户无需操心模型开发。可以载入数据以快速验证并对 KPI 进行相应的监视，例如技术指标（延迟、准确性、召回率）或业务指标（阻止率、阻止量、类别比例、语言比例等）。通过简单的操作和配置，客户可以快速测试不同的解决方案并找到最合适的解决方案，而无需花时间试验自定义模型或手动进行审核。

Content Safety Studio 功能

内容安全工作室中提供以下 Azure AI 内容安全服务功能：

审查文本内容：使用文本审查工具，可以轻松对文本内容运行测试。无论是要测试单个句子还是整个数据集，我们的工具都为你提供用户友好的界面，让你可以直接在门户中评估测试结果。可以尝试使用不同的敏感度级别来配置内容筛选器和阻止列表管理，确保内容始终按照确切规范进行审核。此外，借助导出代码的功能，可以直接在应用程序中实现该工具，从而简化工作流并节省时间。
审查图像内容：使用图像审查工具，可以轻松对图像运行测试，以确保它们符合内容标准。使用用户友好的界面，可以直接在门户中评估测试结果，并且可以尝试使用不同的敏感度级别来配置内容筛选器。自定义设置后，可以轻松导出代码，在应用程序中实现该工具。
监视联机活动：借助功能强大的监视页面，你可以轻松地跟踪不同形式的审查 API 使用情况和趋势。使用此功能，可以访问详细的响应信息，包括类别和严重性分布情况、延迟、错误和阻止列表检测。此信息提供内容审查性能的完整概述，让你能优化工作流，并确保内容始终按照确切规范进行审核。使用我们的用户友好界面，可以快速轻松地导航监视页面，以访问在内容审核策略方面做出明智决策所需的信息。你拥有随时了解内容审核性能以及实现内容目标所需的工具。

分析文本内容

“审查文本内容”页提供快速试用文本审查的功能。
file

选择“审查文本内容”面板。
将文本添加到输入字段，或从页面上的面板中选择示例文本。

提示

文本大小和粒度

文本提交的默认最大长度为 10K 个字符。
选择“运行测试”。

该服务返回检测到的所有类别，以及每个类别的严重性级别（0-安全、2-低、4-中、6-高）。它还会根据配置的筛选器返回二进制的“已接受”/“已拒绝”结果。使用右侧“配置筛选器”选项卡中的矩阵为每个类别设置允许/禁止的严重性级别。然后，可以再次运行文本以查看筛选器的效果。

通过右侧的“使用阻止列表”选项卡，可以创建、编辑阻止列表并将其添加到审查工作流。如果在运行测试时启用了阻止列表，则会在“结果”下获取“阻止列表检测”面板。该面板会报告阻止列表的任何匹配项。

检测越狱风险

在“越狱风险检测”面板中可以尝试进行越狱风险检测。越狱攻击是用户提示，旨在激怒生成式 AI 模型展示它训练的行为，以避免或打破系统消息中设置的规则。这些攻击可以是复杂的角色扮演，也可以是对安全目标的微妙颠覆。
file

选择“越狱风险检测”面板。
选择页面上的示例文本，或输入自己的内容进行测试。还可以上传 CSV 文件以执行批量测试。
选择“运行测试”。

服务将返回每个样本的越狱风险级别和类型。你还可以通过选择“详细信息”按钮来查看越狱风险检测结果的详细信息。

分析图像内容

“审查图像内容”页提供快速试用图像审查的功能。

file

选择“审查图像内容”面板。
从页面上的面板中选择示例图像，或上传自己的图像。提交图像的最大大小为 4MB，图像尺寸必须介于 50x50 像素到 2048x2048 像素之间。图像可以是 JPEG、PNG、GIF、BMP、TIFF 或 WEBP 格式。
选择“运行测试”。

查看和导出代码

可以使用“分析文本内容”或“分析图像内容”页中的“查看代码”功能查看和复制示例代码，其中包括严重性筛选、阻止列表和审查函数的配置。然后，你可以自行部署代码。

file

监视联机活动

使用“监视联机活动”页可以查看 API 使用情况和趋势。

file
你可以选择要监视的媒体类型。还可以通过选择“显示以下时间段内的数据:__”来指定要检查的时间范围。

在“每个类别的拒绝率”图表中，还可以调整每个类别的严重性阈值。
file
如果要根据“十大禁用字词”图表更改某些字词，也可以编辑阻止列表。

管理资源

若要查看资源详细信息（如名称和定价层），请选择 Content Safety Studio 主页右上角的“设置”图标，然后选择“资源”选项卡。如果有其他资源，也可以在此处切换资源。
file

输入要求

文本提交的默认最大长度为 10K 个字符。如果需要分析较长的文本块，可以跨多个相关提交拆分输入文本（例如使用标点符号或空格）。

提交图像的最大大小为 4MB，图像尺寸必须介于 50x50 像素到 2048x2048 像素之间。图像可以是 JPEG、PNG、GIF、BMP、TIFF 或 WEBP 格式。

安全性

使用 Microsoft Entra ID 或托管标识管理访问权限

为了实现增强的安全性，可以使用 Microsoft Entra ID 或托管实例 (MI) 来管理对资源的访问。

在创建内容安全资源时，将会自动启用托管标识。
API 和 SDK 方案都支持 Microsoft Entra ID。

静态数据加密

了解 Azure AI 内容安全如何处理[数据的加密和解密]。客户管理的密钥 (CMK)（也称为创建自己的密钥 (BYOK)）在创建、轮换、禁用和撤销访问控制方面具有更大的灵活性。此外，你还可以审核用于保护数据的加密密钥。

你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure AI 内容安全支持的语言

文本审查

Azure AI 内容安全文本审查功能支持多种语言，但它只针对少数语言进行了专门训练和测试。

备注

语言自动检测

无需为文本审查指定语言代码，服务会自动检测你的输入语言。

语言名称	语言代码	文本审查	经过专门训练
南非荷兰语	`af`	?
阿尔巴尼亚语	`sq`	?
阿姆哈拉语	`am`	?
阿拉伯语	`ar`	?
亚美尼亚语	`hy`	?
阿塞拜疆语	`az`	?
Bangla	`bn`	?
巴斯克语	`eu`	?
白俄罗斯语	`be`	?
保加利亚语	`bg`	?
保加利亚语 (拉丁文)	`bg-Latn`	?
缅甸语	`my`	?
加泰罗尼亚语	`ca`	?
宿雾语	`ceb`	?
中文	`zh`	?	?
中文（拉丁语）	`zh-Latn`	?
柯西嘉语	`co`	?
克罗地亚语	`hr`	?
捷克语	`cs`	?
丹麦语	`da`	?
荷兰语	`nl`	?
英语	`en`	?	?
世界语	`eo`	?
爱沙尼亚语	`et`	?
菲律宾语	`fil`	?
芬兰语	`fi`	?
法语	`fr`	?	?
加利西亚语	`gl`	?
格鲁吉亚语	`ka`	?
德语	`de`	?	?
希腊语	`el`	?
希腊语（拉丁语）	`el-Latn`	?
古吉拉特语	`gu`	?
海地语	`ht`	?
豪撒语	`ha`	?
夏威夷语	`haw`	?
希伯来语	`iw`	?
Hindi	`hi`	?
北印度语（拉丁语脚本）	`hi-Latn`	?
苗语（蒙古）	`hmn`	?
匈牙利语	`hu`	?
冰岛语	`is`	?
伊博语	`ig`	?
印度尼西亚语	`id`	?
爱尔兰语	`ga`	?
意大利语	`it`	?	?
日语	`ja`	?	?
日语（拉丁语）	`ja-Latn`	?
爪哇文	`jv`	?
哈萨克语	`kk`	?
高棉语	`km`	?
朝鲜语	`ko`	?
库尔德语	`ku`	?
柯尔克孜语	`ky`	?
老挝语	`lo`	?
拉丁语	`la`	?
拉脱维亚语	`lv`	?
立陶宛语	`lt`	?
卢森堡语	`lb`	?
马其顿语	`mk`	?
马达加斯加语	`mg`	?
马来语	`ms`	?
马拉雅拉姆语	`ml`	?
马耳他语	`mt`	?
毛利语	`mi`	?
马拉地语	`mr`	?
蒙古语	`mn`	?
尼泊尔语	`ne`	?
尼昂加语	`ny`	?
挪威语	`no`	?
普什图语	`ps`	?
波斯语	`fa`	?
波兰语	`pl`	?
葡萄牙语	`pt`	?	?
旁遮普语	`pa`	?
罗马尼亚语	`ro`	?
俄语	`ru`	?
俄语（拉丁语）	`ru-Latn`	?
苏格兰盖尔语	`gd`	?
塞尔维亚语	`sr`	?
绍纳语	`sn`	?
信德语	`sd`	?
僧伽罗语	`si`	?
斯洛伐克语	`sk`	?
斯洛文尼亚语	`sl`	?
索马里语	`so`	?
南索托语	`st`	?
西班牙语	`es`	?	?
巽他语	`su`	?
斯瓦希里语	`sw`	?
瑞典语	`sv`	?
塔吉克语	`tg`	?
泰米尔语	`ta`	?
泰卢固语	`te`	?
泰语	`th`	?
土耳其语	`tr`	?
乌克兰语	`uk`	?
未知语言	`und`	?
乌尔都语	`ur`	?
乌兹别克语	`uz`	?
越南语	`vi`	?
威尔士语	`cy`	?
西弗里西亚语	`fy`	?
班图语	`xh`	?
意第绪语	`yi`	?
约鲁巴语	`yo`	?
祖鲁语	`zu`	?

文章来源:https://blog.csdn.net/magicyangjay111/article/details/135464311
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！