MEGAZONEブログ
AWS re:Invent 2024 セッションレポート #ANT309|ゼロETLと生成AIでデータウェアハウスのインサイトを強化する
Enhance insights for your data warehouse with zero-ETL & generative AI
セッション概要
- タイトル:Enhance insights for your data warehouse with zero-ETL & generative AI
- 日付:2024年12月3日(火)
- Venue:Venetian | Level 3 | Lido 3104
- スピーカー:
- David Greenshtein(Sr. Solutions Architect Analytics, AWS)
- Satesh Sonti(Sr. Specialist Solution Architect, Amazon Web Services)
- 業界:Cross-Industry Solutions
- 概要:ゼロETLと生成型AIでデータ分析を簡素化し、AIモデルをAWS Redshift Data Warehouseに簡単に統合するゼロETLアーキテクチャパターンについて話します。実際の小売シナリオを使ったワークショップです。
はじめに
Zero-ETLは、ETLデータパイプラインの構築を排除または最小化することで低コード化されたETL方式です。このコラムでは、AWS の Redshift、Aurora、Auto copy from Amazon S3、Quicksight を活用して、データ管理と分析の複雑さを解決する方法をお届けします。
Amazon AuroraとAmazon Redshiftのzero ETL統合
Zero ETLを使用してデータと同期を自動化し、データETLパイプラインの複雑さを減らし、リアルタイム分析を可能にします。 Amazon Aurora などの OLTP データベースから Amazon Redshift (データウェアハウス) にデータをリアルタイムでレプリケートでき、ログベースのレプリケーションを使用して Aurora の負荷を最小限に抑えながらレプリケーションが可能です。
以下は、Zero-ETL integrationのプロセスのイメージです。最近新しく発表された機能でデータベース全体を複製するだけでなく、特定のテーブルや特定のスキーマだけを複製することも可能で、正規表現を通じて利用可能です。
AutoCopyによるS3データの自動ロード
AutoCopyは、S3にアップロードされたデータを自動的にRedshiftにロードできるように自動化する機能です。 S3に新しいデータをアップロードすると、新しいデータを検出してRedshiftに自動的にロードできます。また、処理時間、失敗理由などのメタデータをRedshiftのシステムテーブルに自動的に収集します。この機能により、すでにアップロードされたファイルに再ロードする必要がなく、追加のイベント設定やデータ管理がなくてもデータパイプラインを自動化できます。
Amazon Redshift ML
Amazon Redshift MLは、機械学習モデルをSQLベースで簡単に使用できる機能で、Amazon Redshift内で分類と回帰モデルを直接生成でき、Sagemakerで生成したモデルも連動して使用できます。これにより、機械学習モデルをコードなしでRedshiftで使用できます。
このワークショップでは、Sagemaker StudioでFalcon 7b Instructモデルを作成し、エンドポイントを使用しました。 LLMが提供するカスタマーレビューと感情を含むsentiment_analysis_for_reviewsテーブルを作成しました。最後に、製品とレビューに関する共同情報を含むビューvw_product_analysisを定義しました。このビューは、Amazon QuickSight を使用したインサイトの可視化に使用できます。
まとめ
データETLでは、Zero ETLと新機能であるS3 Auto Copy、Amazon Redshift MLについて紹介を行ったセッションでした。短縮できそうだと思いました。
これにより、開発時間とコストを削減し、データ活用速度を大幅に高めることができると予想されます。また、今回紹介されたAmazon Redshift MLは、MLモデルを簡単に作成し、データベース内で直接実行できるように設計されており、データ分析分野でのAIの活用が以前より容易に増加できると期待されています。
記事 │MEGAZONECLOUD AI&Data Analytics Center(ADC) Data Application Support Team オム・ユジンマネージャー