【2026年最新版】AWS認定データエンジニア — アソシエイト(DEA-C01)について:合格者による徹底解説&模擬問題付き

AWS認定資格 解説ブログ

2024年3月12日から受験可能となったAWS Certified Data Engineer – Associate (DEA-C01)は、データパイプラインの構築、トラブルシューティング、およびコストとパフォーマンスの最適化に関する実務能力を検証する比較的新しい認定資格です。2025年12月12日には最新のバージョン1.1への改訂が行われ、生成AIやベクトル化/ベクトル検索(ベクトルインデックス)に関連する新しいスキルが範囲に加わりました。

本記事では、AWS All Certifications Engineersの視点と公式資料に基づき、最新の試験概要と対策ポイントを徹底解説します。

目次 クリックで開閉

11. はじめに

本認定試験は、AWS上でのデータの取り込み、変換、オーケストレーション、およびセキュリティとガバナンスの適用能力を評価します。

試験は4つのドメインで構成され、2025年末のアップデートにより、Large Language Models (LLM) の統合やベクトルインデックス(例:HNSW/IVF)、Apache Icebergといった最新技術への対応も求められるようになりました。

データエンジニアリングの定石から最新トレンドまでを網羅した、実践的な内容となっています。

22. そもそも資格取得におすすめの人は?

公式資料および専門家の見解によると、以下のような方が対象となります。

  • 実務経験者: データエンジニアリングにおいて2〜3年程度の経験があり、データの「量・多様性・速度(Volume, Variety, Velocity)」が処理に与える影響を理解している方。
  • AWSの実践スキルを持つ方: AWSサービスに関する少なくとも1〜2年のハンズオン経験が推奨されます。
  • 体系的な学習を目指す初心者: 前提資格はありませんが、Cloud Practitioner (CLF)やSolutions Architect – Associate (SAA)でAWSの基礎(IAM、監視、セキュリティ、設計の考え方など)を固めておくと、DEA-C01の学習がスムーズになります。特にSAAは、DEA-C01でも問われやすい運用やセキュリティの基礎を広くカバーしているため、有効なステップとなります。
  • 最新技術を習得したい上級者: 廃止された旧試験(DAS-C01)の保有者で、Redshift Serverlessや生成AI関連サービスなどの最新知識をアップデートしたい方。

33. DEA-C01の試験概要

試験の基本仕様は以下の通りです。

  • 試験時間: 130分
  • 問題数: 65問(スコア対象50問、採点対象外15問)
  • 解答形式: 択一選択問題または複数選択問題
  • 合格ライン: スケールドスコア(100〜1,000)の合格点は720
  • 受験費用: 150 USD
  • 言語: 日本語、英語、韓国語、中国語(簡体字)

44. 試験範囲(4つのドメイン)

試験は以下の比率で出題されます。

ドメイン比率内容
ドメイン 1: データの取り込みと変換34%ストリーミング(Kinesis, MSK)およびバッチ(S3, Glue)のデータ読み取り、ETLパイプラインの構築。
ドメイン 2: データストアの管理26%適切なストレージの選択、データカタログ(AWS Glue Data Catalog)の構築、ライフサイクル管理。
ドメイン 3: データオペレーションとサポート22%データ処理の自動化、監視(CloudWatch など)および監査・追跡(CloudTrail など)、データ品質の確保。。
ドメイン 4: データセキュリティとガバナンス18%認証(IAM)、認可(Lake Formation)、暗号化、ログ監査、PII(個人情報)の保護。

55. 試験の注意点・勉強すべき点

!【重要】バージョン1.1での追加項目

最新の改訂により、以下の新しい概念とサービスが試験範囲に含まれるようになりました。これらは重点的に学習する必要があります。

  • 生成AIとLLM: データ処理へのLLMの統合、Amazon Bedrockナレッジベースを用いたベクトル化の概念。
  • モダンデータスタック: Apache Icebergなどのオープンテーブルフォーマットの管理。
  • ベクトル検索/インデックス: HNSWやIVFといったベクトルインデックスタイプの理解。
  • 新規サービス: Amazon Q、Amazon Aurora、Amazon Kendra、AWS Data Exchange、Amazon S3 Tablesなどが試験範囲に追加されました。
  • カタログ/ガバナンス関連: Amazon SageMaker CatalogやSageMaker Unified Studio、およびデータ共有・ガバナンスフレームワークの説明(要点レベル)も押さえておきましょう。
実務的な重要ポイント
  • 冪等性(べきとうせい)の確保: Kinesis Data Streams等での重複レコード防止策を理解すること。
  • Redshiftの最適化: 4種類の分散スタイル(AUTO, EVEN, KEY, ALL)の使い分け。
  • オーケストレーションの選定: AWS Glueワークフロー(Glue内完結)とAWS Step Functions(Lambda等の外部処理を含む場合)の用途の違い。
  • きめ細かなアクセス制御: AWS Lake Formationを用いた、行・列・セル単位での権限制御。
試験からの除外サービス

以下のサービスは最新版では対象外(Out-of-Scope)となったため、学習の優先順位を下げるか、除外して構いません。

  • AWS Cloud9、AWS CodeCommit、AWS Schema Conversion Tool (AWS SCT)

66. 模擬問題

1問目)

IoTデバイスから送信されるセンサーデータをAmazon Kinesis Data Streamsで受信しています。データ量を削減し、後続の分析処理のコストを最適化するために、S3に保存する前に不要なフィールドを削除し、データをJSON形式からApache Parquet形式に変換する必要があります。この変換処理をリアルタイムストリーム内で行いたい場合、最も効率的なアプローチは次のうちどれですか?

  1. Kinesis Data Streamsからデータを読み取るLambda関数を実装し、変換後S3に書き込む。
  2. Kinesis Data Analytics for Apache Flinkを使用してストリームを処理し、変換結果を別のKinesisストリームまたはS3に出力する。
  3. Kinesis Data FirehoseをKinesis Data Streamsのコンシューマーとして設定し、組み込みのデータ形式変換機能とLambdaによるカスタム変換を利用する。
  4. Amazon EMRクラスターを起動し、Spark StreamingジョブでKinesisストリームを処理する。
(回答&解説) クリックで開閉

正解は3です。

Amazon Kinesis Data Firehoseは、Kinesis Data Streamsから直接データを受け取り、組み込み機能でJSONからParquetへの変換やデータ圧縮を行えます。さらに、Lambda関数を呼び出してカスタム変換(不要フィールドの削除など)を追加することも可能です。これにより、リアルタイムストリーム内で効率的に変換処理を行い、S3に配信できます。

2問目)

ある金融サービス企業は、リスク分析のためにS3データレイク上のデータを変換する必要があります。データ変換のワークフロー全体は、Amazon Managed Workflows for Apache Airflow (Amazon MWAA) のDAG(有向非巡回グラフ)を使用してオーケストレーションされます。

データエンジニアは、以下の2つの異なる変換タスクを処理するソリューションを設計しなければなりません。

  • 毎日S3に到着する、様々な形式の約200 GBの新しい取引データに対する、日次の変換処理。
  • S3に保管されている、数年分にわたるテラバイト(TB)規模の履歴データに対する、一回限りの変換処理。

これらの要件を最もコスト効率よく満たすために、Amazon MWAAのDAGから呼び出すべきサービスの組み合わせはどれですか? (2つ選択)

  1. テラバイト規模の履歴データに対する一回限りの変換には、Amazon EMRを使用する。
  2. 日次のデータ変換には、Amazon Redshiftを使用してデータをロードし変換する。
  3. 200GBの日次のデータ変換には、サーバーレスETLとしてAWS Glueを使用する。
  4. 日次と一回限りの両方の変換に、AWS Glueを使用する。
  5. テラバイト規模の履歴データに対する一回限りの変換には、AWS Lambda関数を使用する。
(回答&解説) クリックで開閉

正解は 1 と 3 です。

この問題は、ワークロードの規模と特性に応じて最適なETLサービスを選択するシナリオです。3が正しいのは、約200GBという中規模で定期的な日次タスクには、サーバーレスで実行分だけ課金されるAWS Glueが最もコスト効率に優れているためです。1が正しいのは、テラバイト規模という大規模な一回限りの処理には、スポットインスタンスを活用して高いコストパフォーマンスを発揮できるAmazon EMRが最適だからです。必要な時にだけ強力なクラスターを起動し、処理後に破棄する運用が可能です。

3問目

本番環境で運用している重要なデータパイプラインがあります。パイプラインを構成する各コンポーネント(例: Glue ジョブ、Lambda 関数、Step Functions)について、パフォーマンスの問題(例: 実行時間の増加)やエラー発生率の増加を早期に検知し、運用チームにアラートを送信したいです。

AWS 上でこれらのリソースのメトリクスを監視し、しきい値に基づいてアラートを生成するために使用する中心的なサービスは次のうちどれですか?

  1. AWS CloudTrail
  2. AWS Config
  3. Amazon CloudWatch
  4. AWS Service Catalog
(回答&解説) クリックで開閉

正解は3です。

Amazon CloudWatch は、AWS リソースのメトリクス(実行時間、エラー数など)を収集・監視し、設定したしきい値に基づいてアラームを発生させ、通知(SNSなど)を行うための中心的なサービスです。Glue, Lambda, Step Functions など多くのサービスがメトリクスを発行しており、パフォーマンスやエラーの監視に不可欠です。

77. まとめ

AWS認定データエンジニア — アソシエイト(DEA-C01)は、従来のデータエンジニアリングの知識に加え、生成AIやベクトルデータベースといった最新の市場ニーズを反映した非常に価値の高い資格です。範囲が広く、データ領域に加えて運用・セキュリティ・最適化まで問われるため、他のアソシエイト試験より難しく感じる人もいます。その分、入念な準備が必要です。

まずは最新の試験ガイドを確認し、AWS Skill Builderで提供されている公式の模擬試験や学習プランを活用して、知識のギャップを埋めることから始めましょう。合格後は、さらに高度なセキュリティを専門とする「AWS Certified Security – Specialty」へのステップアップも推奨されています。

参照公式資料 クリックで開閉