使用 AWS 生成式 AI 服务进行动态视频内容审核和政策评估 机器学习博客
利用 AWS 生成式 AI 服务实现动态视频内容审核与政策评估
作者:Lana Zhang 和 Negin Rouhanizadeh发布日期:2024年5月30日相关链接:Amazon Bedrock,Amazon Machine Learning,Amazon Rekognition,人工智能,媒体数据科学与分析,教育,生成式 AI,中级 (200),市场与广告永久链接:查看文章
关键要点
媒体、广告、社交媒体和教育等行业亟需高效解决方案以从视频中提取信息,并根据自身政策灵活评估内容。本文介绍的 媒体分析与政策评估 解决方案利用 AWS 的 AI 和生成式 AI 服务,提供了简化视频提取和评估过程的框架。该解决方案可用于广告科技与教育科技公司,帮助他们进行内容审核、合规性评估以及用户参与度提升。背景与行业需求
各类组织,包括媒体和娱乐、广告、社交媒体、教育等,需高效提取视频信息并基于灵活的评估标准进行内容审核。随着生成式人工智能的快速发展,产生了许多适合这些用例的新机会。本文介绍的媒体分析与政策评估解决方案,利用AWS的AI及生成式AI服务,为视频提取和评估流程提供框架支持。
常见用例
以下是一些常见的使用场景:
广告技术:广告科技公司需要拥有视频内容如广告创意,并关注品牌安全、合规性以及内容的吸引力。本解决方案能确保用户看到的广告与安全合规的内容配对,建立消费者信任。
教育技术:教育科技公司管理大量培训视频,该方案可帮助公司分析内容是否符合行业政策,便于视频索引、智能筛查以及对视频中学生面部模糊处理等动态任务。
该解决方案可以在GitHub仓库上获取,并通过AWS云开发工具包 (AWS CDK)进行部署。
解决方案概述
媒体提取:视频上传后,系统开始预处理并提取视频图像帧。每个帧通过Amazon Rekognition和Amazon Bedrock进行元数据提取,音频转录则通过Amazon Transcribe进行。政策评估:利用提取的元数据,系统进行 LLM 评估,从而为动态政策的有效评估提供灵活支持。以下是解决方案工作流程和架构的示意图:
本解决方案遵循微服务设计原则,组件之间松耦合,可以一起部署用于视频分析和政策评估工作流程,也可以独立集成于现有管道中。
微服务工作流程
微服务工作流程包括以下步骤:
用户通过Amazon CloudFront分发访问静态前端网站。用户通过Amazon Cognito用户池登录并验证身份。用户通过多部分预签名的 Amazon S3 URL 从浏览器直接上传视频至 Amazon S3。前端界面通过Amazon API Gateway提供的 RESTful 接口与提取微服务进行交互。AWS Step Functions状态机管理分析过程,包括使用 Amazon Transcribe 转录音频、使用 moviepy 从视频中抽样图像帧、利用 Anthropic Claude Sonnet 图像总结分析每幅图像等。Amazon OpenSearch Service集群存储提取的视频元数据,并满足用户的搜索和发现需求。此外,用户可以构建评估提示并将其发送至 Amazon Bedrock LLMs,同步检索评估结果。通过解决方案的用户界面,用户可以选择现有模板提示,定制它们并利用Amazon Bedrock启动政策评估。解决方案运行评估工作流程,并将结果展示给用户。接下来的部分将详细讨论解决方案中的关键组件和微服务。
网站用户界面
该解决方案提供一个网站,让用户浏览视频并通过用户友好的界面管理上传过程。用户界面展示提取的视频信息细节,并包含轻量级的分析界面以支持动态 LLM 分析。以下是一些示例截图:

从视频中提取信息
解决方案包括一个后台提取服务,用于异步管理视频元数据提取,提取信息包括视觉和音频部分的内容,如识别对象、场景、文字和人脸。音频部分对叙事丰富的视频尤其重要,因为其中常包含有价值的信息。
构建一个高效的从视频中提取信息的解决方案,在机器学习和工程方面都面临挑战。机器学习方面的目标是实现通用的信息提取以服务下游的分析。在工程方面,需要管理并发处理、确保高可用性、灵活配置选项,以及支持额外机器学习模型插件的可扩展架构。
提取服务利用 Amazon Transcribe 将视频的音频部分转换为字幕格式文本。视觉提取涉及一些主要技术,具体如下:
帧采样:分析视频的经典方法是使用采样技术,即在特定间隔捕获屏幕快照,并应用机器学习模型提取每幅图像的信息。我们的解决方案支持以下两种采样方式:固定采样率的可配置间隔。采用 Amazon Titan 多模态嵌入模型执行相似性搜索的高级智能采样选项,以识别相似图片并丢弃冗余图片,优化性能及成本。
从图像帧中提取信息:解决方案将遍历从视频中抽样的图像,并并发处理它们。对于每幅图像,将应用以下机器学习特性提取信息:
使用Amazon Rekognition 名人 API识别名人脸。使用Amazon Rekognition 标签检测 API检测一般对象和标签。使用Amazon Rekognition 文字检测 API检测文本。使用Amazon Rekognition 内容审核 API标记不当内容。使用Anthropic Claude V3 Haiku 模型为图像帧生成总结。以下图示展示了提取服务的实现过程。
提取服务使用Amazon SQS与 Step Functions 管理并发视频处理,允许可配置的设置。您可以指定可以并行处理多少个视频,以及每个视频可以并发处理多少帧,依据您的账户服务配额和性能要求。
视频搜索功能
在视频库存中有效识别视频是优先事项,而高效的搜索能力对视频分析任务至关重要。传统视频搜索方法依靠全文关键词搜索。随着文本嵌入和多模态嵌入的引入,基于语义和图像的新搜索方法应运而生。
该解决方案通过提取服务提供搜索功能,作为用户界面特性之一。在提取过程中,它生成图像帧级别的向量嵌入,支持视频搜索。您可以通过内置的网页用户界面或直接通过RESTful API接口搜索视频及其相关帧。
您可以选择以下三种搜索选项:
全文搜索:通过 OpenSearch Service 支持,利用文本分析器生成的搜索索引,适合关键词搜索。语义搜索:通过Amazon Titan 文本嵌入模型提供,根据转录和图像元数据生成的帧级别嵌入。图像搜索:通过Amazon Titan 多模态嵌入模型提供,使用与文本嵌入相同的文本信息绘制图像帧。该功能适合图像搜索,允许用户提供图像并查找视频中类似的帧。以下是用户界面的屏幕截图,展示了使用多模态嵌入搜索包含 AWS 徽标的视频。网页用户界面显示了三个与提供的 AWS 徽标图像在相似度得分方面较高的帧视频。另外,您可以在下拉菜单中找到其它两个文本搜索选项,灵活切换搜索方式。
视频分析
在收集到丰富的视频见解后,您可以进行数据分析。该解决方案配备轻量级用户界面,由一个静态React网页应用程序实现,后端微服务称为评估服务,充当 Amazon Bedrock LLMs 的代理,提供实时评估。您可以将其用作测试 LLM 提示的沙箱特性,以进行动态视频分析。用户界面中包含一些示例提示模板,展示如何用不同用例分析视频,包括以下内容:
内容审核:标记不安全的场景、文本或违反信任与安全政策的言论。视频总结:根据音频或视觉内容提示,将视频摘要为简明描述。IAB分类:按广告 IAB 类别对视频内容进行分类,以便更好地组织和理解。您还可以从 Amazon Bedrock 提供的一系列 LLMs 模型中选择,测试评估结果,找到最适合您工作负载的模型。LLMs 能够使用提取数据并基于您的要求进行分析,成为灵活且可扩展的分析工具,支持各种用例。
以下是一些视频分析提示模板的示例,其中占位符 #### 会在运行时根据视频提取的数据进行替换。
首先是如何根据音频转录内容、对象及审核标签进行视频审核的示例:
魔方加速器免费版plaintext您是负责审核内容以确保遵循公司政策的专家。您的任务是评估视频。视频的转录文本位于 标签内。视频检测的标签在 标签中,审核检测标签在 标签中。您可以在 标签中找到公司政策。
##TRANSCRIPTION####LABEL####MODERATION##内容不得包含色情、暴力、暗示性、仇恨符号、仇恨言论等。任何被视为酒精或吸烟的内容违反政策
该视频是否违反了信任与安全政策?请考虑并在 标签中提供您的分析,保持分析在100字以内。用 标签回应 Y 或 N。Y 表示该信息听起来像政治广告,而 N 表明内容正常。
总结视频为简短描述是另一个流行的用例。借助解决方案的灵活性,您可以指示 LLMs 根据选定的提取元数据来总结视频。以下示例演示了如何根据音频转录和图像帧描述进行缩写:
plaintext根据图像帧描述和转录字幕总结该视频。
图像描述及时间戳秒如下 ##IMAGECAPTION##。转录字幕如下 ##SUBTITLE##。
将视频分类到 IAB 类别在生成式 AI 流行之前是个挑战,通常需要构建定制训练的文本和图像分类 ML 模型,面临准确性挑战。以下示例提示使用了 Amazon Bedrock 的 Anthropic Claude V3 Sonnet 模型,其内置 IAB 分类法知识,因此您甚至不需要将分类法定义包含在 LLM 提示内:
plaintext将视频分类到 IAB 类别。
转录 ##TRANSCRIPTION##标签 ##LABEL##从图像帧提取的文本 ##TEXT##审核类别 ##MODERATION##名人 ##CELEBRITY##
总结
视频分析面临着跨越机器学习和工程的技术挑战。该解决方案提供了一个用户友好的用户界面,以简化视频分析和政策评估过程。后台组成部分可以作为集成至您现有分析工作流程的构件,帮助您专注于更具商业影响力的分析任务。
您可以使用 GitHub 仓库 中可用的 AWS CDK 包将该解决方案部署到您的 AWS 账户。有关部署详细信息,请参阅逐步说明。
作者介绍
Lana Zhang 是 AWS 全球专家组织 AI 服务团队的高级解决方案架构师,专注于 AI 和生成式 AI,尤其是在内容审核和媒体分析用例方面。凭借她的专业知识,她致力于推广 AWS AI 和生成式 AI 解决方案,展示生成式 AI 如何以更先进的商业价值转变经典用例。她帮助客户在多个行业包括社交媒体、游戏、电子商务、媒体、广告和市场营销转型其商业解决方案。
Negin Rouhanizadeh 是 AWS 的解决方案架构师,专注于广告和市场营销领域的 AI/ML。除了为客户制定解决方案外,Negin 还喜欢绘画、编码、与家人及她的宠物狗 Simba 和 Huchi 共度时光。