MEGAZONEブログ
Best practices for moving data to AWS using online and offline methods
オンラインとオフラインのメソッドを用いたAWSへのデータ移行のベストプラクティス
Pulisher : AI & Data Analytics Center ソン・スルギ
Description:AWS DataSyncとAWS Snow Familyを使用して、Amazon S3、Amazon EFS、Amazon FSxへのデータ移動を大規模に高速化する方法についての紹介セッション
はじめに
データのサイズが爆発的に増加するにつれて、分析や処理のためにデータを移管する作業にも多くのリソースが必要な状況です。しかし、このような超大量データに対するBest Practiceが多くないため、多くの試行錯誤と不必要なリソースの浪費を経験することが多いです。 本セッションを通じて、大容量データをどのように効果的に処理することができるかについてのインサイトを得ることができると期待しています。
セッションの概要紹介
このセッションでは、AWS DataSyncとAWS Snow Familyを使用して、Amazon S3、Amazon EFS、Amazon FSxにデータを大規模に移動するプロセスを高速化する方法を学びます。ユースケースとベストプラクティスを見て、オンラインとオフラインのどちらの方法を選択すべきかを確認します。最後に、AWS Snow FamilyとDataSyncを組み合わせてシームレスな移行環境を構築する方法を確認します。
大規模データ管理の難しさ
・数百テラバイト~数ペタバイト級の大規模データを管理することは、様々な規制に準拠する必要があり、ビジネスの継続性と成長を考慮し、コスト削減などの課題で様々な困難があります。
・このような難しさから、クラウドへの移行を通じてデータ管理の難しさを軽減しようとする試みが続いています。
・しかし、このような規模のデータを移行することは、スクリプトの開発やデータの暗号化、ネットワークの可用性の確認など、複雑な課題に直面することになります。
データとアプリケーションの移行サービス
・AWSには、データ移行の難しさに対応するために設計された様々なサービスがあります。
・DataSyncは、オンプレミスやエッジロケーション、その他のクラウドやAWSストレージ間のファイル移動を高速化するツールです。
・AWS Snow Familyは、ネットワーク接続に関係なく、AWS内外に大量のデータを転送できるサービスです。
・AWS Application Migratuin Serviceは、アプリケーションがAWS上で実行できるように、クラウドベースのサーバー変換作業を簡素化し、自動化します。
・Data Migration Serviceは、データベースおよび分析ワークロードを検索・評価し、AWSに移行してくれるサービスです。
AWS DataSyncについて
・AWS DataSyncは、オンプレミスストレージ、異種クラウド、AWS内部ストレージサービット間のファイルやオブジェクトの移動を自動化・高速化するサービスです。
・DataSyncはAWSの完全管理型サービスで、様々なストレージとの接続をサポートし、データ転送時に信頼できるセキュリティ機能を提供し、データを簡単かつ安全に移管することができます。
DataSync のメリット
DataSyncを活用すれば、データを簡単かつ迅速に転送することができます。これにより、ユーザーがデータ移行に関するワークロードを他の場所に分散して活用することができます。
DataSync の活用方法
・DataSyncは低コストでデータを転送・保管するサービスを提供するため、様々なソースから様々なタイプのデータを移管する用途に使用できます。
・オンプレミスのデータだけでなく、AWS内部StorageおよびDB、Google Cloud Storage、Azure Bolobストレージなど、異種クラウドサービスとも柔軟に連動します。
・特に、HDFSシステムをDataSyncを通じて同じEFSシステムやS3にデータを移管することができ、S3に移管することで、HDFSシステムの制約を超え、多様な用途、多様なサービスでアクセスが可能になります。
Dataync の仕組み
・オンプレミスストレージエッジの場所または他のクラウドストレージに接続するためのエージェントがインストールされます。
・ソースとターゲットストレージの情報を確認します。
・Data SyncをAWSストレージに接続し、転送を調整します。
・オンプレミスからAWSへの転送の場合、インターネット、DX、AWS VPNなどがサポートされています。
Snow Familyとは何ですか?
・数十テラ~数ペタバイト規模のデータを移動したり、直接処理するために使用されます。
・Snowball、Snowrone SSD、Snowconeの3つの形態に分けられます。
Snowball を使用した大規模なデータマイグレーション
・概念実証を通じて妨害要因を事前に除去し、ワークステーションを各ソースロケーションに配備して安定性を確保します。
・各データの状況に合わせてベンチマークを行い、転送速度の目標を達成します。
・容量が非常に大きいマルチペタバイト級規模のデータに対して長期間にわたって移行計画を立てる必要があり、新しいEC2インスタンスタイプを提供することで、より高い性能で移行作業を行うことができます。
オンライン/オフライン移行選択基準
・以下の場合は、オンライン移行方式を選択します。
頻繁にデータを更新する場合
時間が重要な場合や継続的なワークロードが存在する場合
十分な帯域幅が使用可能な場合
この場合、データを物理的にコピーするのにかかる時間とコストを節約し、オンラインで転送を進めることが有利です。
以下の場合は、オフライン移行方式を選択します。
・一回性または定期的なアップロードデータ
・データが転送中であっても、データに対する変更がない場合。
・使用可能なネットワーク可能帯域幅が十分でない場合。
この場合、物理的なコピーを通じてデータを移管することが時間を節約し、データを安全に移管する方法です。
主な示唆点
・大規模なデータを移行するためには、まず、クラウド移行戦略の目標とリソースの状況を把握する必要があります。
・オンラインとオフライン間の移行を混合して使用できるかどうかの検討も必要です。
・マイグレーションプロジェクトを簡素化するためには、データをプロダクションごとに分離することをお勧めします。
・利用可能なツールとAWSチームとのスケジュールを調整して、移行移転計画を立てます。
セッションを終えて
数百TB~数十PBに達するデータを移管することは、これまで使用していた通常の方法では困難であることが確認され、特定の規模以上になると、オンラインだけを活用したデータ移管には限界があるため、物理的な複製を通じたオフライン移管方法を考慮する必要があり、移管スケジュールと費用などを総合的に考慮して移管方法を決定する必要があります。