考试大纲 | AWS MLA-C01(最新版)


■ 考试名称

AWS Certified Machine Learning Engineer – Associate

■ 版本编号

1.0 MLA-C01

■ 考察领域和权重

•领域 1:机器学习 (ML) 的数据准备(占计分内容的 28%)
•领域 2: ML 模型开发(占计分内容的 26%)
•领域 3: ML 工作流的部署和编排(占计分内容的 22%)
•领域 4: ML 解决方案的监控、维护和安全保护(占计分内容的 24%)

■ 领域 1: 机器学习 (ML) 的数据准备

任务表述 1.1:摄取和存储数据。
掌握以下知识:
•数据格式和摄取机制(例如,经验证和
未经验证的格式、Apache Parquet、JSON、CSV、Apache ORC、Apache
Avro、RecordIO)
•如何使用核心 AWS数据来源(例如, Amazon S3、Amazon Elastic File
System [Amazon EFS]、适用于 NetApp ONTAP的 Amazon FSx)
•如何使用 AWS 流式数据来源来摄取数据(例如,Amazon Kinesis、Apache
Flink、Apache Kafka)
• AWS存储选项,包括使用案例和权衡
具备以下技能:
•使用相关的 AWS服务选项(例如, Amazon S3 Transfer Acceleration、
Amazon EBS预调配 IOPS),从存储(例如, Amazon S3、Amazon Elastic
Block Store [Amazon EBS]、Amazon EFS、Amazon RDS、Amazon
DynamoDB)中提取数据。
•根据数据访问模式选择合适的数据格式(例如 Parquet、JSON、CSV、ORC)
•将数据摄取到 Amazon SageMaker Data Wrangler和 SageMaker Feature Store
•合并多个来源中的数据(例如,使用编程技术、AWS Glue、Apache Spark)
•针对涉及容量和可扩展性的数据摄取和存储问题,进行故障排除和调试
•根据成本、性能和数据结构,选择初始的存储

任务表述 1.2:转换数据并执行特征工程。
掌握以下知识:
•数据清理和转换技术(例如,检测和处理异常值、填补缺失的数据、合并
数据、重复数据删除)
•特征工程技术(例如,数据缩放和标准化、特征拆分、分箱、对数变换、
标准化)
•编码技术(例如,独热编码、二进制编码、标签编码、令牌化)
•用于浏览、可视化或转换数据和特征的工具(例如,SageMaker Data
Wrangler、AWS Glue、AWS Glue、AWS Glue DataBrew)
•转换流式数据的服务(例如 AWS Lambda、Spark)
•数据注释和标注服务,用于创建高质量的标注数据集
具备以下技能:
•使用 AWS工具(例如 AWS Glue、AWS Glue DataBrew、运行在
Amazon EMR 上的 Spark、SageMaker Data Wrangler)转换数据
•使用 AWS工具(例如 SageMaker Feature Store)创建和管理特征
•使用 AWS服务(例如 SageMaker Ground Truth、Amazon Mechanical
Turk)验证和标注数据

任务表述 1.3:确保数据完整性,以及准备数据用于建模。
掌握以下知识:
•数字、文本和图像数据的预训练偏差指标(例如,类不平衡 [CI]、标签比例
差异 [DPL])
•解决数字、文本和图像数据集中 CI 的策略(例如,合成数据生成、重新采样)
•加密数据的技术
•数据分类、匿名化和掩蔽
•合规性要求的影响(例如,个人身份信息 [PII]、受保护的健康信息 [PHI]、
数据驻留)
具备以下技能:
•验证数据质量(例如,使用 AWS Glue DataBrew和 AWS Glue数据质量自动
监测功能)
•使用 AWS工具(例如 SageMaker Clarify)识别数据中的偏差来源(例如,
选择偏差、测量偏差)并采取缓解措施
•准备数据以减少预测偏差(例如,使用数据集拆分、随机排列和扩充)
•配置数据以加载到模型训练资源(例如,Amazon EFS、Amazon FSx)中

■ 领域 2: ML 模型开发

任务表述 2.1:选择建模方法。
掌握以下知识:
• ML算法的功能以及正确用于解决业务问题
•如何使用 AWS 人工智能 (AI)服务(例如, Amazon Translate、Amazon
Transcribe、Amazon Rekognition、Amazon Bedrock)来解决特定的业务问题
•在模型选择或算法选择过程中如何考虑可解释性
• SageMaker内置算法以及各算法的应用场景
具备以下技能:
•评估可用数据和问题复杂性,以便确定 ML解决方案的可行性
•比较和选择适当的 ML模型或算法来解决特定问题
•选择内置算法、基础模型和解决方案模板(例如,在 SageMaker JumpStart
和 Amazon Bedrock 中)
•根据成本选择模型或算法
•选择 AI服务来解决常见的业务需求问题

任务表述 2.2:训练和优化模型。
掌握以下知识:
•训练过程中的要素(例如,纪元、步骤、批次大小)
•缩短模型训练时间的方法(例如,提前停止、分布式训练)
•影响模型大小的因素
•提高模型性能的方法
•正则化技术的优点(例如,随机失活、权重衰减、L1 和 L2)
•超参数优化技术(例如,随机搜索、贝叶斯优化)
•模型超参数及其对模型性能的影响(例如,基于树的模型中的树数量、神经
网络中的层数)
•将在 SageMaker之外构建的模型集成到 SageMaker中的方法
具备以下技能:
•使用 SageMaker内置算法和常用 ML库开发 ML模型
•使用 SageMaker脚本模式和支持 SageMaker的框架来训练模型(例如
TensorFlow、PyTorch)
•使用自定义数据集微调预训练模型(例如 Amazon Bedrock、SageMaker
JumpStart)
•执行超参数优化(例如,使用 SageMaker自动模型优化 [AMT])
•集成自动超参数优化功能
•防止模型过度拟合、欠拟合和灾难性遗忘(例如,通过使用正则化技术、
特征选择)
•组合多个训练模型以提高性能(例如,集成、堆叠、提升)
•减小模型大小(例如,通过更改数据类型、修剪、更新特征选择、压缩)
•管理模型版本来实现可重复性以及用于审计(例如,使用 SageMaker模型
注册表)

任务表述 2.3:分析模型性能。
掌握以下知识:
•模型评估技术和指标(例如,混淆矩阵、热图、F1 分数、准确率、查准率、
查全率、均方根误差 [RMSE]、接收者操作特性 [ROC]、ROC 曲线下面积 [AUC])
•创建性能基准的方法
•识别模型过度拟合和欠拟合的方法
• SageMaker Clarify中提供的指标,用于深入了解 ML训练数据和模型
•收敛问题
具备以下技能:
•选择和解释评估指标并检测模型偏差
•评估在模型性能、训练时间和成本之间的权衡
•使用 AWS服务执行可重复的实验
•将影子变体的性能与生产变体的性能进行比较
•使用 SageMaker Clarify解释模型输出
•使用 SageMaker模型调试器调试模型收敛

■ 领域3: ML 工作流的部署和编排

任务表述 3.1:根据现有架构和要求选择部署基础设施。
掌握以下知识:
•部署最佳实践(例如,版本控制、回滚策略)
• AWS部署服务(例如 SageMaker)
•实时和批量提供 ML模型的方法
•如何在生产环境和测试环境中预置计算资源(例如 CPU、GPU)
•部署端点的模型和端点要求(例如,无服务器端点、实时端点、异步端点、
批量推理)
•如何选择合适的容器(例如,已提供容器或自定义容器)
•在边缘设备上优化模型的方法(例如 SageMaker Neo)
具备以下技能:
•评估性能、成本和延迟权衡
•根据需求(例如 GPU或 CPU规格、处理器系列、联网带宽),选择合适的
计算环境用于训练和推理
•选择合适的部署编排程序(例如 Apache Airflow、SageMaker Pipelines)
•选择多模型或多容器部署
•选择合适的部署目标(例如, SageMaker端点、Kubernetes、Amazon Elastic
Container Service [Amazon ECS]、Amazon Elastic Kubernetes Service
[Amazon EKS]、Lambda)
•选择模型部署策略(例如,实时、批量)

任务表述 3.2:根据现有架构和要求创建基础设施并编写脚本。
掌握以下知识:
•按需资源和预置资源之间的区别
•如何比较扩展策略
•基础设施即代码 (IaC) 选项(例如 AWS CloudFormation、AWS Cloud
Development Kit [AWS CDK])的权衡和使用案例
•容器化概念和 AWS容器服务
•如何使用 SageMaker端点弹性伸缩策略来满足可扩展性要求(例如,基于
需求、时间)
具备以下技能:
•应用最佳实践来打造可维护、可扩展且经济实惠的 ML解决方案(例如,
在 SageMaker端点上弹性伸缩、动态添加竞价型实例、使用 Amazon EC2
实例、在端点后面使用 Lambda)
•自动预置计算资源,包括堆栈之间的通信(例如,使用 CloudFormation、
AWS CDK)
•构建和维护容器(例如, Amazon Elastic Container Registry [Amazon ECR]、
Amazon EKS、Amazon ECS,将自带容器 [BYOC]与 SageMaker结合使用)
•在 VPC网络中配置 SageMaker端点
•使用 SageMaker SDK部署和托管模型
•为弹性伸缩选择特定的指标(例如,模型延迟、CPU利用率、每个实例的
调用数)

任务表述 3.3:使用自动编排工具来设置持续集成和持续交付 (CI/CD) 管道。
掌握以下知识:
• AWS CodePipeline、AWS CodeBuild 和 AWS CodeDeploy的功能与配额
•使用编排服务的数据摄取自动化和集成
•版本控制系统和基本用法(例如 Git)
• CI/CD原则以及如何将这些原则融入 ML工作流
•部署策略和回滚操作(例如,蓝/绿、金丝雀、线性)
•代码存储库和管道如何协同工作
具备以下技能:
• CodeBuild、CodeDeploy和 CodePipeline(包括各阶段)的
配置和故障排除
•应用持续部署流程结构来调用管道(例如 Gitflow、GitHub Flow)
•使用 AWS服务来自动进行编排(例如,部署 ML模型、自动模型构建)
•配置训练和推理作业(例如,使用 Amazon EventBridge规则、SageMaker
Pipelines、CodePipeline)
•在 CI/CD管道中创建自动化测试(例如,集成测试、单元测试、端到端测试)
•构建并集成用于重新训练模型的机制

■ 领域 4: ML 解决方案的监控、维护和安全保护

任务表述 4.1:监控模型推理。
掌握以下知识:
• ML模型中的漂移
•监控数据质量和模型性能的技术
•设计原则,用于与监控相关的 ML剖析
具备以下技能:
•监控用于生产的模型(例如,使用 SageMaker Model Monitor)
•监控工作流以检测数据处理或模型推理中的异常或错误
•检测可能影响模型性能的数据分布变化(例如,使用 SageMaker Clarify)
•使用 A/B测试监控用于生产的模型的性能

任务表述 4.2:监控和优化基础设施与成本。
掌握以下知识:
• ML基础设施的关键性能指标(例如,利用率、吞吐量、可用性、可扩展性、
容错能力)
•用于解决延迟和性能问题的监控和可观察性工具(例如, AWS X-Ray、
Amazon CloudWatch Lambda 洞察、 Amazon CloudWatch Logs Insights)
•如何使用 AWS CloudTrail 记录、监控和调用重新培训活动
•实例类型之间的差异及其如何影响性能(例如,内存优化型、计算优化型、
通用型、推理优化型)
•成本分析工具的功能(例如 AWS Cost Explorer、AWS账单与成本管理、
AWS Trusted Advisor)
•成本跟踪和分配技术(例如,资源标记)
具备以下技能:
•配置和使用工具,以便对资源进行故障排除和分析(例如,CloudWatch Logs、
CloudWatch警报)
•创建 CloudTrail 跟踪记录
•设置控制面板以监控性能指标(例如,使用 Amazon QuickSight、
CloudWatch控制面板)
•监控基础设施(例如,使用 EventBridge事件)
•调整实例系列和大小(例如,使用 SageMaker Inference Recommender 和
AWS Compute Optimizer)
•监控并解决延迟和扩展问题
•准备基础设施进行成本监控(例如,通过应用标记策略)
•对涉及成本和性能的容量问题进行故障排除(例如,预置并发、服务配额、
自动扩展)
•使用合适的成本管理工具(例如 AWS Cost Explorer、AWS Trusted Advisor、
AWS Budgets)来优化成本和设置成本配额
•通过选择购买选项(例如,竞价型实例、按需型实例、预留实例、SageMaker
节省计划)来优化基础设施成本