MEGAZONEブログ
Netflix’s success: Combining collaboration, hardware monitoring & AI (sponsored by Intel)
ネットフリックスの成功:コラボレーション、ハードウェア・モニタリング、AIの組み合わせ(インテル主催)
Pulisher : Cloud Technology Center キム・ジホ
Description : Netflixの事例を通じ、Intel XeonベースのAmazon EC2インスタンスでAIワークロードを分析・最適化する過程の紹介セッション
はじめに
Netflixがシームレスなストリーミングを実現する方法を理解するために、このセッションを選択しました。Netflixの専門家がIntelのパフォーマンスツールとソフトウェアを活用してIntelのエンジニアと協業する方法を共有し、Intel XeonベースのAmazon EC2インスタンスでAIワークロードを分析、チューニング、最適化した経験を聞きたいと考えました。 このセッションでは、効果的なコラボレーション、ハードウェア監視、AIの融合に関する洞察を得るとともに、ビジネスに適用可能なアイデアを発見したいと考えています。
セッションの概要紹介
Netflixは、膨大な数のユーザーにシームレスなストリーミングを簡単に提供しているように見えます。 このセッションでは、Netflixの専門家がIntel XeonベースのAmazon EC2インスタンスでのAIワークロードの分析、チューニング、最適化から、クラウドにおけるIntel AIアクセラレータ、PMU、およびソフトウェアを活用したさまざまな状況でのIntel AIアクセラレータ、PMU、およびソフトウェアの活用方法をIntelエンジニアと共有します。本セッションはIntelの協賛により開催されました。
Intelの主要エンジニアであるHarad SanとNetflixのパフォーマンスエンジニアであるVadim Filanowskiがこのコラボレーションについて語っています。Intelはマイクロプロセッサでよく知られており、15,000人以上のソフトウェアエンジニアがLinuxカーネルやJDKを含む様々なソフトウェアに貢献しています。
Netflixは主にIntelのハードウェアを使用しており、Intel Xeonプロセッサー、Linux、オープンソース技術をスタック全体で活用しています。このコラボレーションは、さまざまなサービスのパフォーマンス最適化をAWSで行っています。 このセッションでは、ハードウェアの監視とAIの使用に焦点を当て、IntelとNetflixのコラボレーションを紹介します。
Netflixのパフォーマンスと信頼性エンジニアリングにおいて、観測可能性が重要な役割を果たしていることがわかりました。Vadim氏は、観測可能性の3つのレベルを説明しています: インフラレベル、サービスレベル、インスタンスレベルです。Netflixのマイクロサービスアーキテクチャーは、包括的な観測可能性アプローチを要求しています。Harad氏は、システムの挙動に関する情報に基づいた意思決定を行う上で、オブザーバビリティがいかに重要であるかを強調しています。
話は、M54からM512への移行を含む特定のユースケースに移ります。予想していた3倍のスループット向上は得られず、CPUの配分パターンが現れました。オートスケーリングにもかかわらず、12~13%のノードが一貫して低いCPU使用率と遅延を示し、パズルのような状況が発生しました。
インテルは、パフォーマンスの問題解決方法論に従い、ヘルスチェック、ハードウェアの特性評価、ソフトウェアのプロファイリングと最適化が含まれます。Intel System Health Inspectorは、ヘルスチェックツールとして言及されています。 ハードウェアの特性評価は、CPUのパフォーマンス監視ユニット(PMU)を使用してリソース使用率を分析する重要なステップです。目標は、制約を特定し、ソフトウェア・プロファイリングを行い、影響を受けるコードを正確に特定することです。
IntelとNetflixのコラボレーションは、パフォーマンスの課題を解決し、ハードウェアリソースを最適化するための共同の取り組みであることが強調されています。このセッションでは、両社が使用する観測可能性スタックと方法論について、より深い洞察を得ることができます。
ダウンサンプラーとエンコーディングパイプラインにおけるAIの活用
・ダウンサンプリングの必要性
・Netflixのエンコーディングパイプラインは様々なデバイスや解像度に対応する必要がある。
・高解像度ソースから必要な解像度への変換が必要。
・しかし、一般的なダウンサンプリングは画質の損失を引き起こす可能性がある。
・AI技術を活用したダウンサンプリング
・エンコーディングパイプラインでは、インテルの1 DNN(Deep Neural Network)ライブラリを使用。
・特に、画像ダウンサンプリングのためのニューラルネットワークを訓練して活用。
・ニューラルネットワークは、入力画像に対する最適なダウンサンプル表現を見つけるように訓練されています。
・画像の重要な特徴を保存しながら低解像度で変換する方法で最適化。
・VMF(Variational Mode Function)スコアの活用
・VMFスコアはNetflixが開発した動画品質評価基準。
・VMFスコアを使用してダウンサンプリング後の映像品質を測定。
・VMFスコアが高いほど、より高い品質を意味し、これによりエンコーディングパイプラインの性能を評価。
・Intel CPUでの実行とパフォーマンスの向上
・ダウンサンプラーはIntelの最新技術を活用して実行。
・第7世代Intelプロセッサーから適用されたVMFスコアを最大限に活用。
・その結果、画質の向上とともに、エンコーディングパイプライン全体のパフォーマンス向上を実現。
・性能向上の結果
・Intelの最新プロセッサーを活用することで、Netflixのダウンサンプラーとエンコーディングパイプラインで15%から2倍のパフォーマンス向上を実現。
・VMFスコアから得られる高い品質と、より良いユーザーエクスペリエンスを実現。
・既存のハードウェアでも最適化により、効率的で優れた性能を確保。
intelテクノロジーとソフトウェア協力の重要性を強調
・新しい第7世代Intelプロセッサーの革新的な機能を強調
・機械学習ワークロードの加速とパフォーマンスの向上が期待されます。
・ソフトウェア最適化とIntelの専門知識への感謝の意を表す
結論として、これらの最適化の結果、Netflixは全体的なエンコーディングパイプラインで15%から2倍のパフォーマンス向上を達成し、AWSの一般的なIntelプロセッサで高いパフォーマンスを追求し、未使用容量を最大限に活用することができました。
セッションを終えて
性能最適化のためには強力なツールが必要であり、これを活用することで、コード分析とデバッグをより効率的に行うことができます。IntelのVTuneのようなツールは、高性能関数とパフォーマンスのボトルネックを特定するのに非常に役立つことを知ることができたセッションでした。