解锁数据治理和无代码机器学习的力量,使用 Amazon SageMaker Canvas 和 Ama

  • 2026-01-27 14:42:44

发掘数据治理和无代码机器学习的力量:Amazon SageMaker Canvas 和 Amazon DataZone

关键要点: Amazon DataZone 是一项数据管理服务,旨在简化数据的分类、共享和治理。 Amazon SageMaker Canvas 是无代码的机器学习服务,使业务分析师和领域专家能够轻松构建和部署机器学习模型。 二者结合提供了强大的数据治理和协作能力,适用于企业的数据驱动决策。

在当今数据驱动的世界中,企业面临着科学分析与数据治理的双重挑战。借助 Amazon DataZone 和 Amazon SageMaker Canvas,用户能够轻松管理数据,并进行机器学习建模,确保数据的安全性和可信度。

数据治理与无代码机器学习的优势

Amazon DataZone 是一个数据管理平台,可以快速方便地分类、发现、共享以及治理存储在 AWS、本地和第三方来源中的数据。通过 Amazon DataZone,用户可以创建和管理虚拟数据湖,即 数据区,并在没有广泛编码或架构管理的情况下处理数据。数据工程师、数据科学家、产品经理、分析师和业务用户都能够轻松访问组织内的数据,从而发现、利用并合作挖掘数据驱动洞察。

而 Amazon SageMaker Canvas 是一项无代码的机器学习服务,让业务分析师与领域专家可以无需编写一行代码即可构建、训练和部署机器学习模型。SageMaker Canvas 从常用来源如 Amazon Simple Storage Service、Amazon Redshift、Amazon Athena 等中简化数据获取,结合 Amazon SageMaker Data Wrangler 提供的数据准备功能,帮助用户高效构建帮助模型。

企业能否高效决策的关键在于无代码的机器学习解决方案,这些方案使得运营流程的简化成为可能,同时也减少了行政管理负担。例如,在使用机器学习模型进行反欺诈分析时,金融机构可以通过无代码解决方案快速迭代模型,以提高效率和准确性。同时,机器学习治理确保所用数据的准确性和可靠性。

结合 Amazon DataZone 和 Amazon SageMaker,用户能够设置基础设施安全控制,协作开展机器学习项目,并对数据和机器学习资产的访问进行治理。作为这一整合的一部分,用户可以使用 SageMaker Canvas 构建来自经过认证和可靠数据集的机器学习模型。

在本文中,我们将展示 Amazon DataZone 与 SageMaker Canvas 的整合如何使用户能够发布数据资产,以及如何与同一组织的其他人员搜索和发现发布的数据集,订阅并使用数据。完成订阅后,用户可以从 SageMaker Canvas 中访问数据,进行特征工程,构建机器学习模型,最终将模型再发布回 Amazon DataZone 项目。新的治理能力使得对于所处理的基础设施、数据和机器学习资源的访问治理变得简单明了。

解决方案概述

本文提供了三个角色的概述:数据管理员、数据发布者和数据科学家。数据管理员负责根据 Amazon DataZone 的概念配置必要的 Amazon DataZone 资源,以支持与 SageMaker 的整合。数据管理员定义机器学习基础设施所需的安全控制,并在 Amazon DataZone 中部署 SageMaker 环境。数据发布者负责在 Amazon DataZone 业务数据目录中发布和管理特定数据的访问。数据科学家则发现并订阅数据与机器学习资源,从 SageMaker Canvas 访问数据、准备数据、进行特征工程、构建机器学习模型,并将模型导出回 Amazon DataZone 目录。本文使用了一 个与银行直接营销活动相关的数据集,该数据集包含持续、整数和分类变量,用于预测客户是否会订阅定期存款。以下图示展示了工作流程。

前提条件

在开始使用 SageMaker 和 Amazon DataZone 的整合之前,您需具备以下条件:

一个具备适当权限的AWS账户,以创建和管理 SageMaker 和 Amazon DataZone 资源。一个已配置的 Amazon DataZone 域及相关 Amazon DataZone 项目。熟悉 SageMaker 及其组件,例如 Amazon SageMaker Studio、SageMaker Canvas 与 SageMaker 笔记本。样本数据集将数据集上传至 Amazon S3 并进行数据爬取,以创建一个 AWS Glue 数据库及表。有关如何为数据编目,请参考填充 AWS Glue 数据目录。

数据管理员在 Amazon DataZone 的步骤

作为数据管理员,您需要设置必要的 Amazon DataZone 资源以启用与 SageMaker 的整合。请按照使用 AWS Glue 数据的 Amazon DataZone 快速入门中概述的步骤,或参考可用的视频,以设置 Amazon DataZone 域、启用 SageMaker 和数据湖蓝图、创建 Amazon DataZone 项目用于发布和订阅数据资产,并配置默认的 SageMaker 和数据湖环境。在相应项目中,数据湖环境用于配置 AWS Glue 数据库表,这将被用于在 Amazon DataZone 中发布资产。以下视频演示了如何配置数据源来自 AWS Glue 数据库并将数据集发布在 Amazon DataZone 目录中。

在启动数据科学工作流之前,数据区项目必须满足以下前提条件:

魔方加速器免费版创建一个名为 BankingConsumerML 的 Amazon DataZone 项目,供数据科学工作流使用。包含默认 SageMaker 蓝图的 SageMaker 环境配置文件。基于 SageMaker 环境配置文件的 SageMaker 环境,允许数据科学家从 Amazon DataZone 项目控制台中启动 SageMaker Studio。一个名为 Bank 的数据资产,包含银行客户的相关数据,包括人口统计、财务和营销活动数据。该数据资产已经在 Amazon DataZone 数据目录中发布,可以在 Amazon DataZone 域下创建的任何项目中搜索。

数据科学家工作流

在本节中,我们演示数据科学家如何从 SageMaker Studio 资产目录中订阅已存在的数据资产,将数据集导入 SageMaker Canvas,构建机器学习模型,并将模型发布回 Amazon DataZone 数据目录,以便在域内多个项目中使用。作为数据科学家,您需完成以下步骤:

在 BankingConsumerML 项目中,选择 SageMaker Studio 的 环境 部分。

在导航面板中选择 资产。在 资产目录 标签下,搜索并选择数据资产 Bank。

您可以查看银行数据集的元数据和模式,以了解数据属性和列。

选择 订阅 以发起数据集的订阅请求。输入请求原因,然后选择 提交。

数据科学家提交订阅请求后,将创建一个订阅请求并发送通知以供资产发布项目的批准。

资产发布项目的数据发布者通过在数据拥有项目控制台中导航到 已发布数据 下的 来部请求 来查看订阅请求。数据发布者选择 查看请求 以查看请求,并根据组织的数据访问政策批准来部的订阅请求。

数据发布者可以查看资产的订阅状态,并且可以随时从数据发布项目控制台撤销并移除订阅访问权限。

数据发布者还可以在 SageMaker Studio 的 资产 页面下的 管理资产请求 查看和批准请求。

在 资产 页面上,数据科学家订阅的 Bank 数据集现在可见。

在导航面板下选择 应用程序,然后选择 Canvas,以从 SageMaker Studio 中启动 SageMaker Canvas。

在导航面板中选择 数据处理器。在 导入和准备 下拉菜单中选择 表格型。

SageMaker Data Wrangler 简化了数据准备和特征工程的过程,使您能够在一个可视化界面中完成数据选择、清理、探索、可视化和大规模处理等数据准备工作流程的每一个步骤。

在 选择数据源 中选择 Athena。

Athena 是一种无服务器的交互式分析服务,提供了一种简化和灵活的方式来分析存储在原地的 PB 级数据。由于银行数据集的数据源来源于使用 AWS Glue 爬虫创建的数据库,因此数据将在 SageMaker Data Wrangler 中使用 Athena 查询。在此步骤中,数据科学家可以将数据导入数据处理工具以进行特征工程并准备数据进行机器学习建模。

展开 bankmarketing,并将银行数据集拖放到画布中。

SageMaker Canvas 会在 导入预览 部分加载所选数据集。银行数据集包含有关银行客户的信息,例如年龄、职业、婚姻状况、学历、信用违约状态、营销活动联系类型、持续时间、联系次数及上次活动结果的详细信息。

选择 导入 将数据集导入 SageMaker Data Wrangler。

新的数据流将在数据处理控制台上创建。

选择 获取数据洞察 以识别潜在的数据质量问题并获取建议。

在 创建分析 窗格中,提供以下信息:对于 分析类型,选择 数据质量和洞察报告。对于 分析名称,输入名称。对于 问题类型,选择 分类。对于 目标列,输入 y。对于 数据大小,选择 抽样数据集20k。选择 创建。

您可以查看生成的 数据质量与洞察报告,以深入了解数据,包括统计、重复、异常、缺失值、离群点、目标泄漏和数据不平衡等信息。如果您对基于生成的报告的数据感到满意,可以继续后续的数据科学工作流。有关准备数据以进行端到端模型构建的过程,请参考在 Amazon SageMaker Canvas 中加速数据准备。

在选项菜单三个点中,选择 创建模型 以创建数据集。

输入数据集名称例如 BankingCustomerDataSet,然后选择 导出。

数据集导出后,控制台会显示确认消息。

选择 创建模型 以继续。

导出的数据集也会在 SageMaker Canvas 控制台的 数据集 页面上显示。在此,您可以选择数据集并选择 创建模型 以继续。

在 创建新模型 部分,提供以下信息:对于 模型名称,输入模型名称例如 BankingCustomerPredictionModel。对于 问题类型,选择 预测分析。选择 创建。

此模型的目标是预测客户是否可能会订阅银行的定期存款变量 y。

解锁数据治理和无代码机器学习的力量,使用 Amazon SageMaker Canvas 和 Ama在 构建 标签下,选择模型旨在预测的目标列。选择 预览模型。

预览模型 选项会在 1015 分钟内对数据的子集运行快速构建,以预览结果,而完整构建通常需要大约 4 小时或更长时间。选择 配置模型 选项可自定义机器学习模型。

在 配置模型 选项中,您可以自定义模型类型、目标指标、训练方法和训练/测试数据划分,并设置模型创建作业的运行时间限制。

![配置模型](https//d2908q01vomqb2cloudfrontnet/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2024/08/15/23png