MEGAZONE

MEGAZONEブログ

Migrate on-premises Hadoop data lakes to Amazon S3 with AWS DataSync
re:Invent 2023 Storage

Migrate on-premises Hadoop data lakes to Amazon S3 with AWS DataSync

Pulisher : AI & Data Analytics Center ソン・スルギ
Description:AWS DataSyncを使用してHadoopクラスタのHDFSからAmazon S3にファイルとフォルダを迅速かつ安全に移行する方法についての紹介セッション

大容量データ処理に対する要件が増え、オンプレミスに構築された大容量データ処理システムをクラウド環境に移行する要求が多くなっている状況です。しかし、オンプレミス環境をクラウドに移行することには様々な制約と障壁、そして困難が伴います。

このような状況でDataSyncがどのように活用されるのか、その効果と効用について確認できる場となることを期待しています。

AWSクラウドを活用してコスト効率を高め、ビッグデータストレージをコンピューティングから切り離し、データ分析と機械学習を活用したいと考えています。 では、Hadoopクラスターをどのように移動させるべきでしょうか?本セッションでは、AWS DataSyncを使用して、HadoopクラスターのHDFSからAmazon S3にファイルやフォルダを高速かつ安全に移行することで、この移行を加速する方法をご紹介します。

Amazon S3 のデータを使用すると、Amazon EMR または AWS Glue ジョブで Apache Spark を使用してデータを読み取り、データ変換を行うことができます。

最新のData Lakeの構築

・組織が巨大化し、様々なビジネス要件が発生し、データの量が増加するだけでなく、様々なサイロが発生し、データを統合して管理するのに苦労しています。

・このような多様なデータセットを単一化し、統合されたビューで提示するのが現代的なData Lakeの役割と言えます。

大規模データ移行の難しさ

・オンプレミス環境でのデータ統合や拡張には限界があるため、新しいクラウド環境への移行を計画しているユーザーが多いですが、膨大な規模のデータを転送するのは簡単なことではありません。

・データ転送のためのスクリプトを開発して配布し、データの暗号化など、セキュリティに関する安全装置まで用意する必要があります。

・移管する過程で発生するエラーを解決し、ネットワークの可用性に応じた適切なワークロードの分散も必要です。

・このような過程でパフォーマンスを保証し、与えられた期間内にデータ移行を完了することも大きな課題の一つです。

AWS DataSyncについて

・AWS DataSyncは、オンプレミスストレージ、異種クラウド、AWS内部ストレージサービス間のファイルやオブジェクトの移動を自動化・高速化するサービスです。

・DataSyncはAWSの完全管理型サービスで、様々なストレージとの接続をサポートし、データ転送時に信頼できるセキュリティ機能を提供し、データを簡単かつ安全に移行することができます。

DataSync のメリット

・DataSyncを活用すれば、データを簡単かつ迅速に転送することができます。これにより、ユーザーがデータ移行に関するワークロードを他の場所に分散して活用することができます。

DataSync の活用方法

・DataSyncは低コストでデータを転送・保管するサービスを提供するため、様々なソースから様々なタイプのデータを移管する用途に使用できます。

・オンプレミスのデータだけでなく、AWS内部StorageおよびDB、Google Cloud Storage、Azure Bolobストレージなど、異種クラウドサービスとも柔軟に連動します。

・特に、HDFSシステムをDataSyncを通じて同じEFSシステムやS3にデータを移管することができ、S3に移管してHDFSシステムの制約を超え、多様な用途で、多様なサービスからアクセスが可能になります。

HDFS データ移行の難しさとDataSyncを通じた問題解決

・HDFSデータはそのデータ形態の特殊性により、技術的に移行が難しく、移行中にエラーが発生した場合、復旧が難しい場合があります。

・また、HDFSシステムのクラスター内部にエージェントが設置されることが様々な問題を引き起こす可能性があるため、クラスター外部にエージェントが設置されることを希望する場合が多いです。

・安全なデータ転送のため、移管時、システム間の直接接続を通じてデータが転送されることを希望します。

・このようなNeedsを解決できる機能をDataSyncで全てサポートするため、安全なHDFSデータ移行を進めることができます。

成功事例

・このようなDataSyncの様々な支援機能を基に、7PBに達するHDFSデータを4ヶ月でS3に移管することに成功しました。

・DataSyncを活用する過程で、IaCを活用することで、クラウド内での展開及びメンテナンスが容易になるようにしました。

DataSyncは現在、内部的にはオンプレミスDBからクラウドStorageへのデータ移行時に主に活用されているサービスです。これまで使用していた通常の範囲を超えて、異種クラウドStorage、HDFSシステムデータまでのサポートは、その活用度の面でGlueと比較しても遜色ないほど幅広いサポートが行われていることが把握され、より簡単に移行作業を設定し、進めることができるという利点があることが確認されました。 これにより、データ移行作業を進める場合、DataSyncの活用度がさらに高くなると予想されます。

ブログ一覧

この記事の読者はこんな記事も読んでいます