MEGAZONE

MEGAZONEブログ

AWS re:Invent 2024 セッションレポート #ANT309|ゼロETLと生成AIでデータウェアハウスのインサイトを強化する
AI/ML Analytics re:Invent2024

AWS re:Invent 2024 セッションレポート #ANT309|ゼロETLと生成AIでデータウェアハウスのインサイトを強化する

Enhance insights for your data warehouse with zero-ETL & generative AI

  • タイトル:Enhance insights for your data warehouse with zero-ETL & generative AI
  • 日付:2024年12月3日(火)
  • Venue:Venetian | Level 3 | Lido 3104
  • スピーカー:
    • David Greenshtein(Sr. Solutions Architect Analytics, AWS)
    • Satesh Sonti(Sr. Specialist Solution Architect, Amazon Web Services)
  • 業界:Cross-Industry Solutions
  • 概要:ゼロETLと生成型AIでデータ分析を簡素化し、AIモデルをAWS Redshift Data Warehouseに簡単に統合するゼロETLアーキテクチャパターンについて話します。実際の小売シナリオを使ったワークショップです。

Zero-ETLは、ETLデータパイプラインの構築を排除または最小化することで低コード化されたETL方式です。このコラムでは、AWS の Redshift、Aurora、Auto copy from Amazon S3、Quicksight を活用して、データ管理と分析の複雑さを解決する方法をお届けします。

Zero ETLを使用してデータと同期を自動化し、データETLパイプラインの複雑さを減らし、リアルタイム分析を可能にします。 Amazon Aurora などの OLTP データベースから Amazon Redshift (データウェアハウス) にデータをリアルタイムでレプリケートでき、ログベースのレプリケーションを使用して Aurora の負荷を最小限に抑えながらレプリケーションが可能です。

以下は、Zero-ETL integrationのプロセスのイメージです。最近新しく発表された機能でデータベース全体を複製するだけでなく、特定のテーブルや特定のスキーマだけを複製することも可能で、正規表現を通じて利用可能です。

AutoCopyは、S3にアップロードされたデータを自動的にRedshiftにロードできるように自動化する機能です。 S3に新しいデータをアップロードすると、新しいデータを検出してRedshiftに自動的にロードできます。また、処理時間、失敗理由などのメタデータをRedshiftのシステムテーブルに自動的に収集します。この機能により、すでにアップロードされたファイルに再ロードする必要がなく、追加のイベント設定やデータ管理がなくてもデータパイプラインを自動化できます。

Amazon Redshift MLは、機械学習モデルをSQLベースで簡単に使用できる機能で、Amazon Redshift内で分類と回帰モデルを直接生成でき、Sagemakerで生成したモデルも連動して使用できます。これにより、機械学習モデルをコードなしでRedshiftで使用できます。

このワークショップでは、Sagemaker StudioでFalcon 7b Instructモデルを作成し、エンドポイントを使用しました。 LLMが提供するカスタマーレビューと感情を含むsentiment_analysis_for_reviewsテーブルを作成しました。最後に、製品とレビューに関する共同情報を含むビューvw_product_analysisを定義しました。このビューは、Amazon QuickSight を使用したインサイトの可視化に使用できます。

データETLでは、Zero ETLと新機能であるS3 Auto Copy、Amazon Redshift MLについて紹介を行ったセッションでした。短縮できそうだと思いました。

これにより、開発時間とコストを削減し、データ活用速度を大幅に高めることができると予想されます。また、今回紹介されたAmazon Redshift MLは、MLモデルを簡単に作成し、データベース内で直接実行できるように設計されており、データ分析分野でのAIの活用が以前より容易に増加できると期待されています。

記事 │MEGAZONECLOUD AI&Data Analytics Center(ADC) Data Application Support Team オム・ユジンマネージャー

ブログ一覧

この記事の読者はこんな記事も読んでいます