MEGAZONEブログ

Explore image generation and search with FMs on Amazon Bedrock

AI/ML re:Invent 2023

Explore image generation and search with FMs on Amazon Bedrock

Amazon BedrockでFMによる画像生成と検索を探る

Pulisher : Mass Migration & DR Center イ・ミンギュ
Description : Amazon Bedrockを使った画像生成と画像検索の紹介セッション

はじめに

Amazonが今回AI/MLに力を入れていることから、興味を持ち、参加させていただきました。

Amazon Bedrockを使った画像生成と画像検索の話をしているセッションです。

セッションの概要紹介

時間的なコンテンツの量はスマートフォンで急増しているため、1日に500万枚以上の画像が撮られるのであれば、1日に1.8兆枚以上の

画像が撮られる場合、これは1日に1.8兆以上の画像が生成されています。

このような大量の写真を検索するのに適切なアプリケーションがないことが問題になっています。

最初のAmazon Titan Multimodal Embeddingsは、テキストと画像、またはその2つの組み合わせを取り込み、これをベクトルDBになっている数値表現で表します。

この方法の核心は、画像のテキストであれ、画像の組み合わせであれ、入力値の意味的な感覚をベクトルの形で捉え、非常に迅速に検索することができます。

従来の手動または自動方式で画像にキーワードセットをタグ付けするキーワード使用方式は、入力キーワードを見て一致させようとするため、精度が高くないだけでなく、リソースも提供しません。

したがって、従来の方法は、検索、レコメンデーション、パーソナライゼーション、特に画像だけの場合などのユースケースに役立つ方法です。

2つ目のTitan Image Generatorは、コンテンツ生成にかかる時間を短縮することに重点を置きました。

特に、広告やマーケティングのような業界で製品を保有し、そのための魅力的なライフスタイルを考案し、顧客が恩恵を受けられるようにすることで、多くの視線と、多くの収益を生み出すことにあります。

Amazon Titan Multimdal Embeddings は、デフォルトのモーダルを使用することで、非常に正確な結果を得ることができます。

Bedrock APIは、事前にトレーニングされたモーダルは一般的なユースケースに対して正確な結果を提供し、ユーザーはAPIを使用してモーダルをさらに調整したり、独自のニーズに合わせてカスタマイズすることができます。

他のAWSサービスと同様に、すべてのデータは非常に安全に保護されているため、どのような呼び出しが行われたとしても、AWSのBedrockに保存されることはありません。ユーザーのデータはモーダル学習に使用されることはありません。すべてが非常に安全で個人的に処理され、ユーザーのデータに基づいて簡単にカスタマイズする方法を提供します。

販売したり、検索したい時に多くの説明が欠けていたり、不適切であったり、不正確な場合が多い場合、全てが最終的に検索可能性の問題につながります。

全てが最終的に検索可能性の問題につながり、適切なコンテンツが見つからないことになります。

左側に見えるlacesのないBlue sneakerの検索結果です。

商品説明など、テキストベースの調査だけで、キーワードのような否定的なタイプがないものを検索するのは特に難しくなります。

右側に表示されている画像自体が laces がないという画像の意味を捉えているため、Multimodal embeddings modelの結果です。

Amazon Titan Multimodal Embeddingsのメリットは

基本的なモーダルで構築できる検索と精度の面で最新の技術であり、特に自律気象のようなドメイン固有のデータがある場合、お客様の精度をさらに向上させるためのいくつかのメカニズムも提供しています。

サイズ調整をして最適化したい場合に使用することができます。

有害な情報を自動フィルタリングし、特定の傾向に対する処理も支援します。

オープンソース接続もサポートしているので、AWS Opensearch Serviceを活用する方法もあります。

特定の性別や特定のタイプの固定された偏向を検索したくない場合に偏向性を緩和するのに役立ちます。

簡単に画像作成をサポートし、画像を簡単に修正できる機能を提供します。

Amazon Titan Image Generatorは、画像を作成したり、修正するのに役立つ機能です。

テキストから画像へ、テキストプロンプトから高品質の画像を生成します。

プロンプトを非常に寛大にしたり、非常に詳細にする必要はありません。

特定のスタイルの画像、例えば漫画やスケッチを自動的に生成することができます。

画像にテキストを追加する機能も作成可能です。

カスタマイズされた画像を生成することができます。

インペインティングを提供し、ここでは既存のオブジェクトを別のものに置き換えたり、オブジェクトを削除することができます。

アウトウェアは、特に広告やマーケティングのユースケースのために開発されました。歪みを最小限に抑えています。

アニメート変形機能を使用して、入力イベントを使って似たような外観のレビューを生成することができます。

リアリスティックな高品質の画像を生成し、構築する面で非常に使いやすく、モーダルを独自のアプリケーションに簡単に統合できるようにします。

反応、視線集中を考慮し、ユーザーがモーダルを使用する際に快適さを感じることができるようにします。

伝統的な方法で画像をインポートした後、ベクターディビに保存し、画像とテキストがある情報を入力すると、KNNアルゴリズムによって訓練することになります。この場合、テキストをインポートする必要がなく、画像だけを提供すればもっと簡単に作れるのではないかという着想で、画像をキャプチャして検索用の画像テキストを生成するために使用する独自のキャプチャモーダルがまもなくリリースされる予定です。

インデックスを作成し、マルチモーダルエンベデッドを呼び出します。作成するプロセスによってモーダルのインデックスを作成します。リクエストをすると、内部プロセスによって結果が返されます。

非常に高い精度の検索を希望するお客様は、1000 F4リンクを使用して独自の画像データベースをインデックス化し、これを画像データベースの生成に使用することができます。オープンサーチとの統合により、お客様が非常に簡単に呼び出すことができます。

セッションを終えて

AIが画像に対するプロンプトでリクエストをすると、それに合わせてカスタマイズされた画像を生成し、また、簡単に変形してくれます。しかし、本当に細かい部分までは代替するのは難しいんじゃないかと思います。

ほとんどがイメージを追加して変更する部分についての内容でしたが、興味深い部分は検索エンジンをベクターDBで使って検索に対して新しい活用性を見せてくれたようです。

ブログ一覧

この記事の読者はこんな記事も読んでいます

▲