思科通过使用 Amazon SageMaker 推理更快的自动扩展功能实现了 50 的延迟改善 机

  • 2026-01-27 14:13:20

Cisco通过Amazon SageMaker推理实现50的延迟改善

关键要点

Cisco的Webex利用Amazon SageMaker Inference的快速自动扩展功能,实现了高达50的延迟改善。Cisco通过将大语言模型LLM迁移到Amazon SageMaker Inference,优化了其AI/ML基础设施。新发布的高分辨率预定义指标显著提高了自动扩展的响应速度,缩短了检测时间。

在这篇文章中,我们将讨论Cisco如何利用Amazon SageMaker,借助更快速的自动扩展功能实现显著的延迟改善。具体来说,Cisco通过高分辨率预定义指标,成功地将推理延迟减少了50,提升了用户体验和应用性能。

加速器签到免费15分钟

Cisco的Webex由Cisco提供的云协作解决方案是领先的云视频会议和协作服务之一,致力于消除地理、语言、个性和技术熟悉度等障碍。其核心团队Webex AI (WxAI)利用AI和机器学习增强产品功能,以提高用户生产力并改善用户体验。

Cisco案例概述:提升呼叫中心体验

Webex正在将生成式AI应用于其呼叫中心解决方案,促进客户和代理之间更自然的人类对话。AI可以根据客户的询问生成上下文和同理心的回应,并自动草拟个性化的电子邮件和聊天消息,使呼叫中心代理能够更高效地工作,而不降低客户服务的质量。

架构

最初,WxAI将LLM模型直接嵌入运行于Amazon Elastic Kubernetes Service (EKS)的应用容器镜像中。但是,随着模型变得越来越复杂,这种方法面临了显著的可扩展性和资源利用挑战。为了解决这些问题,WxAI团队选择使用SageMaker推理服务,这是一项全面管理的AI推理服务,允许模型独立于使用这些模型的应用进行无缝部署和扩展。

“应用程序和模型的工作和扩展本质上是不同的,分开它们比将它们结合在一起更容易独立解决问题。”

Travis Mehlinger,Cisco首席工程师。

目前,SageMaker端点使用基于实例的自动扩展。

介绍新的预定义指标类型以实现更快的自动扩展

为了改善推理自动扩展的速度,Cisco Webex AI团队与Amazon SageMaker合作,提升了推理效率。

Amazon SageMaker的实时推理端点提供了一种可扩展的管理解决方案,可以托管多个生成式AI模型。客户可以选择在同一端点上部署单个模型或多个模型,通过SageMaker InferenceComponents进行高效的工作负载处理和经济的扩展。

在合作下,SageMaker发布了新的高分辨率预定义指标类型SageMakerVariantConcurrentRequestsPerModelHighResolution,以实现更快的自动扩展和减少检测时间。这一新的高分辨率指标已显示出检测扩展时间减少了多达6倍,从而使得最终推理延迟提高了50。

Cisco对新自动扩展功能的评估

Cisco对Amazon SageMaker的新预定义指标进行了评估,观察到使用SageMakerVariantConcurrentRequestsPerModelHighResolution指标结束到结束的推理延迟改善了50。SageMaker的自动扩展功能根据实时变化动态调整实例数量及模型副本,确保资源的最佳利用。

此外,SageMaker现在会发出新的CloudWatch指标,包括ConcurrentRequestsPerModel和ConcurrentRequestsPerModelCopy,这些指标更适合监控和扩展托管大语言模型LLM和基础模型FM的端点。

思科通过使用 Amazon SageMaker 推理更快的自动扩展功能实现了 50 的延迟改善 机

“我们对Amazon SageMaker的新自动扩展指标带来的性能提升非常满意。更高分辨率的扩展指标显著减少了我们生成AI工作负载在初始加载和扩展中的延迟。我们期待在整个基础设施上更广泛地推进这一功能 ”

Travis Mehlinger,Cisco首席工程师。

结论

Cisco的Webex AI团队继续利用Amazon SageMaker Inference推动生成式AI体验的发展。在与SageMaker的快速自动扩展功能的评估中,Cisco的推理端点实现了最高50的延迟改善。随着WxAI团队不断推动AI驱动协作的边界,合作伙伴关系将对即将到来的改进和高级推理能力起到至关重要的作用。Cisco期待通过在多个区域大规模推出这一新功能,进一步优化其AI推理性能,并为客户提供更具影响力的生成式AI功能。

关于作者

Travis Mehlinger是Webex协作AI团队的首席软件工程师,他帮助团队开发并运营云原生AI和机器学习能力。

Karthik Raghunathan是Webex协作AI组的高级总监,领导着一个多学科团队,开发Webex协作组合的高级AI驱动功能。

Praveen Chamarthi是亚马逊AWS的高级AI/ML专家,帮助客户在AWS上高效地扩展和操作机器学习工作负载。

Saurabh Trikande是Amazon SageMaker Inference的高级产品经理,专注于简化复杂AI应用的部署挑战。

Ravi Thakur是AWS的高级解决方案架构师,专注于利用分布式、以云为中心的方法解决复杂的商业挑战。