考试大纲 | AWS MLA-C01（最新版）_AWS认证实战培训

■ 考试名称

AWS Certified Machine Learning Engineer – Associate

■ 版本编号

1.0 MLA-C01

■ 考察领域和权重

•领域 1：机器学习 (ML) 的数据准备（占计分内容的 28%）
•领域 2： ML 模型开发（占计分内容的 26%）
•领域 3： ML 工作流的部署和编排（占计分内容的 22%）
•领域 4： ML 解决方案的监控、维护和安全保护（占计分内容的 24%）

■ 领域 1：机器学习 (ML) 的数据准备

任务表述 1.1：摄取和存储数据。
掌握以下知识：
•数据格式和摄取机制（例如，经验证和
未经验证的格式、Apache Parquet、JSON、CSV、Apache ORC、Apache
Avro、RecordIO）
•如何使用核心 AWS数据来源（例如， Amazon S3、Amazon Elastic File
System [Amazon EFS]、适用于 NetApp ONTAP的 Amazon FSx）
•如何使用 AWS 流式数据来源来摄取数据（例如，Amazon Kinesis、Apache
Flink、Apache Kafka）
• AWS存储选项，包括使用案例和权衡
具备以下技能：
•使用相关的 AWS服务选项（例如， Amazon S3 Transfer Acceleration、
Amazon EBS预调配 IOPS），从存储（例如， Amazon S3、Amazon Elastic
Block Store [Amazon EBS]、Amazon EFS、Amazon RDS、Amazon
DynamoDB）中提取数据。
•根据数据访问模式选择合适的数据格式（例如 Parquet、JSON、CSV、ORC）
•将数据摄取到 Amazon SageMaker Data Wrangler和 SageMaker Feature Store
•合并多个来源中的数据（例如，使用编程技术、AWS Glue、Apache Spark）
•针对涉及容量和可扩展性的数据摄取和存储问题，进行故障排除和调试
•根据成本、性能和数据结构，选择初始的存储

任务表述 1.2：转换数据并执行特征工程。
掌握以下知识：
•数据清理和转换技术（例如，检测和处理异常值、填补缺失的数据、合并
数据、重复数据删除）
•特征工程技术（例如，数据缩放和标准化、特征拆分、分箱、对数变换、
标准化）
•编码技术（例如，独热编码、二进制编码、标签编码、令牌化）
•用于浏览、可视化或转换数据和特征的工具（例如，SageMaker Data
Wrangler、AWS Glue、AWS Glue、AWS Glue DataBrew）
•转换流式数据的服务（例如 AWS Lambda、Spark）
•数据注释和标注服务，用于创建高质量的标注数据集
具备以下技能：
•使用 AWS工具（例如 AWS Glue、AWS Glue DataBrew、运行在
Amazon EMR 上的 Spark、SageMaker Data Wrangler）转换数据
•使用 AWS工具（例如 SageMaker Feature Store）创建和管理特征
•使用 AWS服务（例如 SageMaker Ground Truth、Amazon Mechanical
Turk）验证和标注数据

任务表述 1.3：确保数据完整性，以及准备数据用于建模。
掌握以下知识：
•数字、文本和图像数据的预训练偏差指标（例如，类不平衡 [CI]、标签比例
差异 [DPL]）
•解决数字、文本和图像数据集中 CI 的策略（例如，合成数据生成、重新采样）
•加密数据的技术
•数据分类、匿名化和掩蔽
•合规性要求的影响（例如，个人身份信息 [PII]、受保护的健康信息 [PHI]、
数据驻留）
具备以下技能：
•验证数据质量（例如，使用 AWS Glue DataBrew和 AWS Glue数据质量自动
监测功能）
•使用 AWS工具（例如 SageMaker Clarify）识别数据中的偏差来源（例如，
选择偏差、测量偏差）并采取缓解措施
•准备数据以减少预测偏差（例如，使用数据集拆分、随机排列和扩充）
•配置数据以加载到模型训练资源（例如，Amazon EFS、Amazon FSx）中

■ 领域 2： ML 模型开发

任务表述 2.1：选择建模方法。
掌握以下知识：
• ML算法的功能以及正确用于解决业务问题
•如何使用 AWS 人工智能 (AI)服务（例如， Amazon Translate、Amazon
Transcribe、Amazon Rekognition、Amazon Bedrock）来解决特定的业务问题
•在模型选择或算法选择过程中如何考虑可解释性
• SageMaker内置算法以及各算法的应用场景
具备以下技能：
•评估可用数据和问题复杂性，以便确定 ML解决方案的可行性
•比较和选择适当的 ML模型或算法来解决特定问题
•选择内置算法、基础模型和解决方案模板（例如，在 SageMaker JumpStart
和 Amazon Bedrock 中）
•根据成本选择模型或算法
•选择 AI服务来解决常见的业务需求问题

任务表述 2.2：训练和优化模型。
掌握以下知识：
•训练过程中的要素（例如，纪元、步骤、批次大小）
•缩短模型训练时间的方法（例如，提前停止、分布式训练）
•影响模型大小的因素
•提高模型性能的方法
•正则化技术的优点（例如，随机失活、权重衰减、L1 和 L2）
•超参数优化技术（例如，随机搜索、贝叶斯优化）
•模型超参数及其对模型性能的影响（例如，基于树的模型中的树数量、神经
网络中的层数）
•将在 SageMaker之外构建的模型集成到 SageMaker中的方法
具备以下技能：
•使用 SageMaker内置算法和常用 ML库开发 ML模型
•使用 SageMaker脚本模式和支持 SageMaker的框架来训练模型（例如
TensorFlow、PyTorch）
•使用自定义数据集微调预训练模型（例如 Amazon Bedrock、SageMaker
JumpStart）
•执行超参数优化（例如，使用 SageMaker自动模型优化 [AMT]）
•集成自动超参数优化功能
•防止模型过度拟合、欠拟合和灾难性遗忘（例如，通过使用正则化技术、
特征选择）
•组合多个训练模型以提高性能（例如，集成、堆叠、提升）
•减小模型大小（例如，通过更改数据类型、修剪、更新特征选择、压缩）
•管理模型版本来实现可重复性以及用于审计（例如，使用 SageMaker模型
注册表）

任务表述 2.3：分析模型性能。
掌握以下知识：
•模型评估技术和指标（例如，混淆矩阵、热图、F1 分数、准确率、查准率、
查全率、均方根误差 [RMSE]、接收者操作特性 [ROC]、ROC 曲线下面积 [AUC]）
•创建性能基准的方法
•识别模型过度拟合和欠拟合的方法
• SageMaker Clarify中提供的指标，用于深入了解 ML训练数据和模型
•收敛问题
具备以下技能：
•选择和解释评估指标并检测模型偏差
•评估在模型性能、训练时间和成本之间的权衡
•使用 AWS服务执行可重复的实验
•将影子变体的性能与生产变体的性能进行比较
•使用 SageMaker Clarify解释模型输出
•使用 SageMaker模型调试器调试模型收敛

■ 领域3： ML 工作流的部署和编排

任务表述 3.1：根据现有架构和要求选择部署基础设施。
掌握以下知识：
•部署最佳实践（例如，版本控制、回滚策略）
• AWS部署服务（例如 SageMaker）
•实时和批量提供 ML模型的方法
•如何在生产环境和测试环境中预置计算资源（例如 CPU、GPU）
•部署端点的模型和端点要求（例如，无服务器端点、实时端点、异步端点、
批量推理）
•如何选择合适的容器（例如，已提供容器或自定义容器）
•在边缘设备上优化模型的方法（例如 SageMaker Neo）
具备以下技能：
•评估性能、成本和延迟权衡
•根据需求（例如 GPU或 CPU规格、处理器系列、联网带宽），选择合适的
计算环境用于训练和推理
•选择合适的部署编排程序（例如 Apache Airflow、SageMaker Pipelines）
•选择多模型或多容器部署
•选择合适的部署目标（例如， SageMaker端点、Kubernetes、Amazon Elastic
Container Service [Amazon ECS]、Amazon Elastic Kubernetes Service
[Amazon EKS]、Lambda）
•选择模型部署策略（例如，实时、批量）

任务表述 3.2：根据现有架构和要求创建基础设施并编写脚本。
掌握以下知识：
•按需资源和预置资源之间的区别
•如何比较扩展策略
•基础设施即代码 (IaC) 选项（例如 AWS CloudFormation、AWS Cloud
Development Kit [AWS CDK]）的权衡和使用案例
•容器化概念和 AWS容器服务
•如何使用 SageMaker端点弹性伸缩策略来满足可扩展性要求（例如，基于
需求、时间）
具备以下技能：
•应用最佳实践来打造可维护、可扩展且经济实惠的 ML解决方案（例如，
在 SageMaker端点上弹性伸缩、动态添加竞价型实例、使用 Amazon EC2
实例、在端点后面使用 Lambda）
•自动预置计算资源，包括堆栈之间的通信（例如，使用 CloudFormation、
AWS CDK）
•构建和维护容器（例如， Amazon Elastic Container Registry [Amazon ECR]、
Amazon EKS、Amazon ECS，将自带容器 [BYOC]与 SageMaker结合使用）
•在 VPC网络中配置 SageMaker端点
•使用 SageMaker SDK部署和托管模型
•为弹性伸缩选择特定的指标（例如，模型延迟、CPU利用率、每个实例的
调用数）

任务表述 3.3：使用自动编排工具来设置持续集成和持续交付 (CI/CD) 管道。
掌握以下知识：
• AWS CodePipeline、AWS CodeBuild 和 AWS CodeDeploy的功能与配额
•使用编排服务的数据摄取自动化和集成
•版本控制系统和基本用法（例如 Git）
• CI/CD原则以及如何将这些原则融入 ML工作流
•部署策略和回滚操作（例如，蓝/绿、金丝雀、线性）
•代码存储库和管道如何协同工作
具备以下技能：
• CodeBuild、CodeDeploy和 CodePipeline（包括各阶段）的
配置和故障排除
•应用持续部署流程结构来调用管道（例如 Gitflow、GitHub Flow）
•使用 AWS服务来自动进行编排（例如，部署 ML模型、自动模型构建）
•配置训练和推理作业（例如，使用 Amazon EventBridge规则、SageMaker
Pipelines、CodePipeline）
•在 CI/CD管道中创建自动化测试（例如，集成测试、单元测试、端到端测试）
•构建并集成用于重新训练模型的机制

■ 领域 4： ML 解决方案的监控、维护和安全保护

任务表述 4.1：监控模型推理。
掌握以下知识：
• ML模型中的漂移
•监控数据质量和模型性能的技术
•设计原则，用于与监控相关的 ML剖析
具备以下技能：
•监控用于生产的模型（例如，使用 SageMaker Model Monitor）
•监控工作流以检测数据处理或模型推理中的异常或错误
•检测可能影响模型性能的数据分布变化（例如，使用 SageMaker Clarify）
•使用 A/B测试监控用于生产的模型的性能

任务表述 4.2：监控和优化基础设施与成本。
掌握以下知识：
• ML基础设施的关键性能指标（例如，利用率、吞吐量、可用性、可扩展性、
容错能力）
•用于解决延迟和性能问题的监控和可观察性工具（例如， AWS X-Ray、
Amazon CloudWatch Lambda 洞察、 Amazon CloudWatch Logs Insights）
•如何使用 AWS CloudTrail 记录、监控和调用重新培训活动
•实例类型之间的差异及其如何影响性能（例如，内存优化型、计算优化型、
通用型、推理优化型）
•成本分析工具的功能（例如 AWS Cost Explorer、AWS账单与成本管理、
AWS Trusted Advisor）
•成本跟踪和分配技术（例如，资源标记）
具备以下技能：
•配置和使用工具，以便对资源进行故障排除和分析（例如，CloudWatch Logs、
CloudWatch警报）
•创建 CloudTrail 跟踪记录
•设置控制面板以监控性能指标（例如，使用 Amazon QuickSight、
CloudWatch控制面板）
•监控基础设施（例如，使用 EventBridge事件）
•调整实例系列和大小（例如，使用 SageMaker Inference Recommender 和
AWS Compute Optimizer）
•监控并解决延迟和扩展问题
•准备基础设施进行成本监控（例如，通过应用标记策略）
•对涉及成本和性能的容量问题进行故障排除（例如，预置并发、服务配额、
自动扩展）
•使用合适的成本管理工具（例如 AWS Cost Explorer、AWS Trusted Advisor、
AWS Budgets）来优化成本和设置成本配额
•通过选择购买选项（例如，竞价型实例、按需型实例、预留实例、SageMaker
节省计划）来优化基础设施成本

考试大纲 | AWS MLA-C01（最新版）