MEGAZONEブログ
バースト・ツー・クラウド・ストレージで計算負荷の高いワークロードを強化
Powering compute-heavy workloads with burst-to-cloud storage
Pulisher : Cloud Technology Center イ・ヨンジン Description : AWS File Storgeとハイブリッドクラウド戦略を使用してファイルデータをより速く、より簡単に処理する方法を紹介するChalk Talkセッション
はじめに
AI/MLなどは基本的に大容量データが存在しなければ意味がありません。ただ、製造業などの古典的なお客様は、膨大なデータがIDCや社内サーバールームに存在するため、物理的にAWS Infra.と離れていて、AWSの良いサービスがたくさんあっても、有機的に接続することは容易ではありません。
このような環境に対して、どのようにAWSインフラとサービスが連携できるのか、調べてみたいと思いました。
セッションの概略紹介
高性能を必要とする、突然の処理、そして予測不可能な要求など、アプリケーションがこれらの要求を処理する場合、IDCや社内サーバールームのリソースでは不足することがよくあります。
AWSのファイルストレージサービスをIDCや社内サーバールームのストレージと同じように活用するハイブリッドクラウド戦略を使えば、データが保存されている場所に関係なく、ファイルデータをより速く、より簡単に処理することができます。このセッションでは、クラウドコンピューティング、スケーラブルなパフォーマンス、高速ファイルキャッシュなどの機能を利用して、分散型MLトレーニング、メディアレンダリングやトランスコーディング、EDA(電子設計自動化)、ビッグデータ分析などのワークロードに柔軟性を提供する方法を紹介しました。
大容量データがクラウドのアクセラレーションの恩恵を受けるには、さまざまな制約があります。 その一つがコストです。 高速処理のためには、オンプレミスに置くよりも、クラウドに置いておく方がメリットが大きいのですが、その場合、コストは避けられません。
だからといって、ずっとon-premiseに置いておくと、何かをするたびに通信コストがかかり、それに速度遅延も発生します。
このような状況を解決するために、AWSには2つの選択肢があります。一つはAmazon FSx for NetApp ONTAPと、Amazon File Cacheです。
Amazon FSx for NetApp ONTAP の実際の use caseとしては、EDA(Electronic design automation)が挙げられます。EDAのチップ設計自動化には、大容量データ転送が必須です。膨大なチップ設計データへのアクセスなど、必要なときに有効でしょう。 この大容量データをこれまでオンプレミスで運用していたものを、簡単にAWSに持ち込めるのでしょうか? この答えは、「いいえ」です。
このような場合、data自体をAWSにmigrationする必要がなく、NetAppを活用すればよいです。 まず、NetAppの機能を活用するために、on-premiseにNetApp agentをインストールします。AWSではFSx for NetApp ONTAPをPrimary / Secondary構成で準備します。
そして、on-premiseとAWS VPCの間をDirect ConnectやVPN接続で仕上げます。 こうなると、NetApp ONTAPがファイルキャッシュ(FlexCache)をしながら、on-premiseのすべてのデータを取り込む必要がなく、AWS上ではデータ処理をするワークロードがNFSv3を介してマウントされたNetApp ONTAPを介してファイルを高速で受け取ることができるようになります。
参考までに、NetApp ONTAPを利用すれば、ONTAPで基本的に提供する重複ファイル除去、専用プロトコルを通じた速度改善、モニタリングなど、ONTAPならではの機能を基本的に利用することができます。 特に、ONTAPの専売特許である重複ファイル除去機能により、容量を大幅に削減することができます。
この時必要な設定では、Security Groupを利用して、on-premiseにあるsource IPを登録し、TCP portを設定します。
・Security Group 1 (On-Premise storageのIP)
・TCP 11104, 11105
・Security Group 2 (AWS workloadsのSG)
・TCP/UDP 111, 635, 2049, 4049, 4045, 4046
では、Amazon File Cacheはいつ使うのでしょうか?NetApp ONTAPのようにagentをon-premiseにインストールできない場合、Amazon File Cacheを使うことができます。
Amazon File Cacheの場合は、特にagentをインストールする必要がないので、単純なNASなどをすぐ付けることができます。 Amazon File CacheのためのSecurity Groupの設定は次の通りです。
・Security Group 1 (Amazon File CacheのSG)
・TCP 988, 1018-1023
・Security Group 2 (On-Premise NAS IP)
・TCP/UDP 111, 635, 2049, 11045, 11046
・セキュリティグループ3 (クライアントSG)
・TCP 988, 1018-1023
セッションを終えて
オンプレミス上で大容量ファイルを持っている場合、Snowballなどを利用してAWSに移行が可能ですが、多くのワークロードがすでにAWS上で行われており、すぐにオンプレミスのファイルを直接接続できる方法としてはAmazon FSx for NetApp ONTAPとAmazon File Cacheがあります。
FSx for NetApp ONTAPはagentがオンプレミスにインストールする必要があり、それによってONTAPだけの機能を活用できるメリットがあります。一方、Amazon File Cacheは特別なagentがなくてもネットワーク接続が確保されていればすぐに使用が可能です。
ただし、CacheロジックであるLRU(Last Recently Used)方式に従うため、常にファイルが存在するわけではなく、頻繁に使用されないファイルはキャッシュから削除されることがあるので、workloadsの使用パターンによって適切なキャッシュ容量を選定する必要があります。
ちなみに、File / Volume / Tapeバックアップ用であるAWS Storage Gatewayは、オンプレミスでagentをインストールし、HTTPプロトコルで接続する、オンプレミスバックアップ活用法なので、Amazon FSx for NetApp ONTAP / Amazon File Cacheとは区別して使う必要があります。