MEGAZONEブログ
AWSサービスを活用してData Lakeを簡単に構築する
Speaker : ETEVERS クラウドDX本部 常務 ソ・ホソク
Pulisher : ジェユン
はじめに
次のAgendaで発表が始まりました。
・Data Lakeについて
・金融におけるData Lakeについて
・Data Lakeの事例について
・Data Lakeを簡単に構築する方法について
Data Lakeについて
AWS Data Lakeは、Amazon S3を利用して、大量のデータを一元的に保存し、分析できるようにするためのソリューションです。データレイクは、構造化データ、非構造化データなど、さまざまな形式のデータを格納することができます。
Data Lakeについて:Data Warehousesとの比較
Data Lakeは、あらゆる形式のデータを低コストで保存し、柔軟に利用できるため、データサイエンスやビッグデータ分析に適しています。 Data Warehouseは、構造化データを高速に分析し、ビジネスインテリジェンスやレポート作成に最適です。
区分 | Data Lake | Data Warehouses |
データ 形態 | 構造化、半構造化、非構造化 データを 原形態(raw data)で保存データを整理せずにそのまま保存 | データを構造化された形態で 保存業務分析要求に合わせてデータを整理、加工して保存 |
スキーマ条件 | 事前にスキーマ設計関連の 要求条件は特にない | データ保存前にスキーマ設計が必要 |
データ 信頼性 | データを原形態(raw)で保存 するため、データの品質は多少劣る | データ整理および加工過程を経るため、 データに対する信頼性が高い |
設計 指向点 | 性能よりもストレージ容量と 費用を優先して設計 | 迅速なクエリ性能を提供 できるように設計 |
Data Lakeについて:Data Lake Houseとは
AWS Data Lakehouseは、データレイクとデータウェアハウスの利点を組み合わせたアーキテクチャです。データレイクの柔軟性とスケーラビリティ、データウェアハウスの高性能なクエリ処理とデータ管理機能を統合することで、データの保存、管理、分析を効率的に行うことができます。
金融におけるData Lakeについて
金融業界では、大量のトランザクションデータや顧客データを効率的に管理・分析するためにData Lakeが利用されています。重要な要素は次の通りです。
・Central Governance: Data Lakeの統一管理とポリシーの設定
・Compliance: 法規制に準拠するためのデータ管理
・Cost Efficiency: コストを抑えつつ、効率的にデータの管理・分析
・Security: データの暗号化、アクセス制御、監査ログなどのセキュリティ対策
金融におけるData Lakeについて:考慮事項
金融境界でData Lakeを利用する際には、次の事項を考慮していただければと思います。
区分 | 説明 |
---|---|
コンプライアンス | データレイクを構築する際に考慮すべき規制とデータ個人情報保護コンプライアンス義務を履行するためにどのサービスを使用すべきか |
マルチアカウントの支援 | マルチアカウント戦略を支援するためにData Lakeが拡張できるか各アカウントのデータ管理者がData Lakeに保存されたデータとメタデータに対する権限を持つことができるか |
認証 | ユーザーが企業認証基準を準守してData Lakeにアクセスできるようになっているか? Data Lake利用者インターフェースが会社の標準認証システムと連動できるか? |
権限付与 | Data Lakeのデータおよびメタデータにアクセスするための役割基盤認証を支援しているか? ユーザーに許可されたデータのみアクセスできるようになっているか? |
暗号化 | Data Lakeアーキテクチャは保存されたデータおよび転送されるデータに対する企業暗号化基準を準守しているか? Data Lakeが当該キー管理サービスと連動しているか? |
社内ネットワークの接続 | Data Lakeから出入りするすべてのトラフィックが社内保安ネットワークを通じて転送されるか? Data Lakeに対するすべてのイン/アウトインターネットアクセスを遮断できるか? |
金融におけるData Lakeについて:セキュリティの階層
金融境界でData Lakeを利用する際には、セキュリティを細かく管理する必要があります。 金融境界だけでなく、他の境界でもData Lakeにおけるセキュリティ管理は重要でしょう。
・Identity & Access管理
・Applicationセキュリティ
・Data保護
・Infrastructureセキュリティ
・Networkセキュリティ
・Identity & Access管理(Platform)
・Multi-Account管理
Data Lakeの事例について
ある金融会社の事例ですが、次の課題がありました。
・データが分散しているため、データ管理が困難である。
・データ管理時のセキュリティ対策が課題である。
・オンプレミスからクラウドへの移行を希望している。
その金融会社が持っているシステムをあるPartner会社が管理していましたが、AWSに関する専門的な知識が不足していたため、ETEVERS社が支援を行いました。
Data Lakeの事例について: ETEVERS社のアーキテクチャ
課題を持っている金融会社に対し、こちらのアーキテクチャを提案しました。ポイントは4つがあります。
ポイント1は「収集」です。
・Amazon Kinesis: サーバーレスサービスで、予測が難しいイベントの収集に利用。
・Amazon MSK: サーバー基盤で構成され、継続的にデータを収集する領域で利用。
・Flume: オンプレミスで使用してきたが、レガシー環境のため、EC2上のApache Flumeに移管。
ポイント2は「転換と向上」です。
・AWS Glue: 特殊の要件業務及びETL業務に使用
・Amazon EMR: 継続的な性能が求められる領域に使用
・Amazon SageMaker: MLの分析が必要な場合、SageMakerを利用してデータを向上させる
・AWS Glue Data Catalog, Hive Metastore: 既存のデータスキーマやメタデータを効率的に AWS に移行し、データの管理やクエリの最適化を行う
ポイント3は「分析と可視化」です。
Amazon Athena、Amazon QuickSight、BI Instance を利用することで、AWS へのマイグレーション後のデータクエリ、分析、可視化、そしてビジネスインテリジェンスの実行環境を効率的に構築できます。これにより、データの活用が容易になり、迅速にビジネスインサイトを得ることが可能となります。
ポイント4は「ストレージ」です。
Data Lakeのストレージアーキテクチャでは、中央管理アカウントが存在し、各アカウントにカタログをコピーして配置する構造を持っています。
この過程でAWS Transit Gatewayを活用して、異なるVPC間のデータ通信をサポートします。追加的に、Data Lakeの効率的な運用のために、データのインジェスト、保存、処理、分析などの多様な技術的要素が統合されています。
例えば、Amazon S3を使用した大容量データの保存、AWS Glueを通じたデータカタログ管理、Amazon Athenaを利用したサーバーレスクエリ実行などが含まれます。
このような統合されたアーキテクチャは、データの中央集約化とアクセス性を高め、分析およびマシンラーニングワークロードの効率性を極大化します。
Data Lakeを簡単に構築する方法について
AWS Lake Formationは、Data Lakeの構築と管理を簡単にするためのサービスです。
AWS Lake Formationを利用することで、Data Lakeの構築と管理が簡単になり、データの収集、クレンジング、カタログ化、セキュリティ、クエリ、分析までの一連のプロセスを効率的に行うことができます。
AWS Lake Formationのメリットは次の通りです。
比較項目 | 通常のAWS Data Lakeの構成 | AWS Lake Formationを利用した構成 |
構成時間 | 収集、整理、インデキシング、セキュリティなど複雑な構成段階を経るために数ヶ月が必要 | Blueprintを使用すればワークフローを素早く構成が可能 |
セキュリティ | 各AWSリソース別にセキュリティ設定と階層別の暗号化設定を個別に構成 | 一つの中央データカタログで構成ができ、テーブルやカラム単位でもユーザー別セキュリティ設定が可能 |
オーケストレーション | スケール、オーケストレーション管理のためにAirflowなど他のサービスまたはツールの使用が必要 | AWS Lake Formation自体のワークフロー、トリガー機能を使用できる |
重複性 | データセットに対する各ユーザー別権限設定及び管理の複雑度は複数重複したデータセットコピーを招く可能性がある | 基本的に一つのデータセットを各ユーザーの権限に合わせて提供することでデータ重複関連効率性が高い |
セッションを終えて
AWS Lake Formationを利用することで、Data Lakeの構築と管理が非常に簡単になることがわかりました。特に、Blueprintを使用することで、複雑なワークフローを迅速に構成できる点が印象的でした。
また、セキュリティ設定やオーケストレーション機能が統合されているため、運用の効率性が大幅に向上することが期待できます。金融関連の仕事にはあまり関わる機会がなかったのですが、このセッションを通じて、さまざまな業界でも活用できるようにAWSスキルを磨いていきたいと思いました。