MEGAZONE

MEGAZONEブログ

Maximize the value of cold data with Amazon S3 Glacier
re:Invent 2023 Storage

Maximize the value of cold data with Amazon S3 Glacier

Pulisher : Enterprise Managed Service Group ワン・ヒョンシク
Description:Amazon S3 Glacierストレージクラスを使用してデータアーカイブを近代化し、費用対効果の高い方法で使用する方法について紹介したセッション

S3 Glacierは頻繁に必要としないデータをアーカイブストレージに移動してコストを削減するサービスです。現在、EC2サービス内の多くのサービスがRIを通じてコストを削減していますが、S3の場合、データの分類が曖昧だったり、迅速な検索のためにアーカイブに移動することに消極的です。今回のセッションを通じて、活用方法をより多様かつ具体的に知ることができれば、アクセスが容易になることを期待しています。

このセッションでは、Amazon S3 Glacierストレージクラスを使用して、高価なテープドライブやアーカイブデータを心配することなく、データアーカイブを近代化し、長期データをコスト効率よく保存する方法を学びます。

コールドデータとは、頻繁にアクセスされず、長期間保存されるデータのことです。コールドデータの使用例は以下の通りです。

・生データの保存:メディア・エンターテインメント業界では、映画撮影、放送、その他のメディア制作のために、高品質で高解像度のオリジナル映像を保存します。このデータは、後日、プロモーション資料、教育、研究などに使用することができます。

・バックアップ:サーバー、データベース、アプリケーションなどのバックアップデータを長期間保存する必要があります。 このデータは、障害発生時の復旧に使用されます。

・コンプライアンス: 医療、金融、政府などの一部の業界では、データを一定期間保管しなければならない規制があります。このデータはコンプライアンスのために使用されます。

・機械学習:自動運転車、医療診断、マーケティング分析など様々な分野で機械学習が使用されています。これらの分野では、ビッグデータ分析のために過去のデータが必要です。

コールドデータは、一般的にホットデータよりも安価に保存することができます。これは、コールドデータへのアクセス頻度が低いためです。 コールドデータを保存する方法には、以下のような方法があります。

Amazon S3 Glacier: S3 Glacierは、アクセス頻度の低いデータを保存するための安価なストレージオプションです。データにアクセスするには、まずデータをS3 Glacierで使用可能な状態にする必要があります。 データの復旧には数分から数時間かかる場合があります。

・Amazon S3 Glacier Instant Retrieval: S3 Glacier Instant Retrievalは、S3 Glacierの一部として提供されるオプションで、アクセス頻度の低いデータへの迅速なアクセスを提供します。S3 Glacier Instant Retrievalを使用すると、データの取得に数秒しかかかりません。

・Amazon S3 One Zone-Infrequent Access: Amazon S3 One Zone-Infrequent Accessは、S3 Glacierと同様のストレージオプションですが、データを単一の可用性ゾーンに保存します。単一の可用性ゾーンは、すべてのデータを単一の物理的な場所に保存します。

“S3 Glacier Instant Retrievalはミリ秒単位のアクセスが可能”

Amazon S3 Glacier Instant Retrievalは、頻繁にアクセスされない長期的なデータに対する安価で高速なストレージオプションです。

・安価:四半期に1回アクセスする場合、S3 Standard-IAストレージクラスより最大68%安くなります。
・高速:ミリ秒単位のアクセスをサポートします。
・安全性:物理的に分離された複数のAWS可用性領域でデータを冗長的に保存します。
・優れたユースケース:画像ホスティング、オンラインファイル共有アプリケーション、医療画像や健康記録、ニュースメディア資産、ゲノミクスなど、パフォーマンスに敏感なユースケースで即時アクセスが必要なデータ向けに設計されています。

例えば、医療画像や健康記録は、通常は頻繁にアクセスされないが、即時アクセスが必要な重要なデータです。Amazon S3 Glacier Instant Retrievalを使用すると、これらのデータを安全かつ安価に保存することができます。

コールドデータを保存する際に考慮すべき要素は次のとおりです。

・アプリケーションの整合性: アプリケーションがコールドデータに即座にアクセスする必要がある場合は、Glacier Instant Retrievalなどのストレージクラスを選択する必要があります。

・取得時間:コールドデータにアクセスできる遅延時間を考慮する必要があります。 同日アクセスが必要な場合は、Amazon S3 Flexible Retrievalを使用する必要があります。12時間以内にアクセスが必要な場合は、Amazon S3 One Zone-Infrequent Accessを使用することができます。48時間以内にアクセスが必要な場合は、Amazon S3 Glacierを使用することができます。

・コスト: コールドデータを保存するコストを考慮する必要があります。Glacier Instant Retrievalは最も高価なオプションですが、最速のアクセス時間を提供します。Amazon S3 Flexible RetrievalはGlacier Instant Retrievalよりも安価ですが、データの取得に時間がかかる場合があります。Amazon S3 One Zone-Infrequent AccessとAmazon S3 GlacierはGlacier Instant Retrievalよりも安価ですが、データの取得に時間がかかる場合があります。

Amazon S3では、コールドデータ復元リクエストのステータスを確認するための様々な方法を提供しています。

・Amazon S3 コンソール:Amazon S3 コンソールを使って復元リクエストを選択すると、ステータスが表示されます。

・HeadObject API:HeadObject APIを使用して復元されたオブジェクトの情報を要求すると、ステータスが含まれます。

・S3 Rest API:S3 List APIを使用して復元されたオブジェクトのリストを要求すると、各オブジェクトのステータスが含まれます。

・通知サービス:通知サービスを使用すると、復元要求が開始または完了したときに通知を受け取ることができます。

“GlacierがAthenaをサポートするようになりました。”
Amazon Athenaは、S3データレイクと30のデータソースからペタバイト規模のデータを簡単に分析できるサーバーレスインタラクティブ分析サービスです。 今回のリリースにより、Athenaを使用して、Glacier Flexible RetrievalおよびDeep Archiveストレージクラスから復元されたデータを直接クエリすることができます。

これにより、標準のストレージクラスにデータをコピーすることなく、これらのストレージクラスに保存されているデータを分析することができます。これは、次のようなユースケースに役立ちます。

・ログ分析:最近のログと過去のログを組み合わせて、単一のクエリでログ分析を行うことができます。
・長期トレンド分析:長期間保存されたデータを分析し、トレンドを特定することができます。

Athena SQLワークグループのクエリに対してS3 Glacierアクセスを有効にすることができます。

1.Athenaコンソールで作業グループを選択します。
2.構成タブを選択します。
3.S3 GlacierアクセスセクションでS3 Glacierアクセスを有効にするチェックボックスを選択します。
4.保存をクリックします。

これにより、ワークグループのクエリは、S3 Glacier Flexible RetrievalおよびDeep Archiveストレージクラスに保存されているデータを含むすべてのS3オブジェクトをクエリできるようになります。

S3 Glacierはデータをバックアップすることが目的のサービスであり、その目的に忠実であり、また、価格と安定性の面から見ても最高のサービスです。(S3 Standardに比べて1/3の費用)

私たちがGlacierを使うことに消極的な理由は、データ復旧に対するリアルタイム性を保証してくれないという短所がありますが、顧客とストレージ関係者による正確な分析後、S3 Glacier instance retrievalから徐々に切り替えていく努力が必要で、S3 Glacier IRアクセスは数ミリ秒に過ぎないので、実際の適用事例が今後多くなると思います。

ブログ一覧

この記事の読者はこんな記事も読んでいます