ブログ | CTO オフィス

運用データと生成 AI の交差点

ジェームズ・ヘンダーガート サムネイル
ジェームズ・ヘンダーガート
2024年10月22日公開

生成型 AI (GenAI) に関する話題があらゆるところから聞こえてきます。 問題は、何が流行っているのかということです。 それはどのように世界をより良い場所にしているのでしょうか? ビジネス価値はどこにありますか? これらの質問は、GenAI を運用 (AIOps) に導入するかどうか、またいつ導入するかを検討している組織が直面している課題を考慮する場合にも同様に当てはまります。 過去 1 年間に渡る生成 AI の実験と、F5 での日々の調査を通じて業界動向に幅広く触れてきた経験に基づいて、運用データの実践に対する GenAI の影響を理解しようとしている組織を支援するために、次の 5 つのポイントを紹介します。 その結果、これらの組織は、GenAI テクノロジーの導入タイムラインを既存の予算、実践、文化に合わせることができるようになります。

1. GenAI モデルは半構造化データと非構造化データを好みます

運用データは、半構造化データ (オブジェクト) と非構造化データ セットの寄せ集めです。 大規模言語モデル (LLM) は、この範囲のデータ形式で非常に柔軟かつ効果的です。 このため、LLM は運用データセットの分析に使用するのに最適なテクノロジーとなります。 組織は社内でさまざまな実験と評価を実施して、さまざまな GenAI 対応ソリューションの有効性、使いやすさ、コストを検証できます。 LLM 推論を使用して、誤検知を減らしながら興味深いデータ パターンを検出すると、マシンの速度と規模が、運用データ フローを利用するチームの目標に一致するようになります。

2. 組織はモデルを構築する必要がない

特定のタスクに対してどのモデルがどの手法を使用するかを把握することに重点を置いている組織は、独自のモデルを構築する必要はありません。 たとえば、固有表現抽出 (NER) は自然言語処理 (NLP) の分野であり、半構造化データ内の主要要素を確立するための効果的な手法であることが証明されています。 NER の例としては、曜日などのカテゴリや、1 より大きく 5 より小さい整数などの説明で構成されるリストが挙げられます。 その結果、GenAI に対応していないルールベースのパターン マッチング手法よりも推論時の精度が向上します。 NER などの技術の使用に関する研究と実践が進むにつれて、運用チームはモデルの構築ではなく、成功が証明された技術の活用に重点を置くことができます。

NERの例:
名前付きエンティティ: 曜日
リスト: 日曜日、月曜日、火曜日、水曜日、木曜日、金曜日、土曜日
図1. 名前付きエンティティの認識は、ルールベースのパターン マッチングよりも推論時に高い精度を提供します。

3. データ重力は現実です

データ重力は、データが作成される場所の近くにコンピューティングを配置するか、コンピューティングがすでに展開されている場所の近くにデータを移動するかの決定に影響を与える根本的な力です。 データ量が増えるほど重力が強くなり、データに近づくほど計算能力が向上します。 トレーニング (モデルの作成と調整) では、データが集約され、コンピューティングに近づけられます。 推論(モデルを使用)の場合、モデルはプロンプトが発行される場所の近くに移動されます。

サードパーティがホストするインスタンスの API を呼び出すのではなく、社内にコピーを持ち込んでモデルにアクセスする場合は、モデルをプロンプトの近くに移動し、プロンプトの一部としてベクトル化された追加のプライベート データ セットを移動することが合理的です。 一方、モデルが サードパーティがインターネット経由で API を公開している場合、モデルと推論操作はまったく機能しません。 このような場合、推論とプライベート データ ベクトルは、データ センターのコロケーション相互接続を使用するか、可能であればホスティング場所をモデル プロバイダーと一致させることによって、「ネットワークに近い」場所に移動される可能性があります。

データとコンピューティングを結び付ける力と、それらを引き離す力を認識することは、コストとパフォーマンスの適切なバランスを見つけるための情報に基づいた選択につながります。

図2. データ重力の要因としてのネットワークの近さ
図2. データ重力の要因としてのネットワークの近さ

4. データサイロを無視せず、対処しましょう

GenAI 処理では、データ サイロを解体して運用データ分析を簡素化および高速化することがこれまで以上に重要になります。 しかし、近い将来、データ サイロは増加しないとしても、残ると思われます。

問題は、データ サイロをどのように処理するか、どのようなテクノロジーを選択するかということです。 複数の場所に保存されているデータにアクセスする場合、データのコピーと移動を行うか、データを移動せずにフェデレーション クエリを使用する論理データ レイヤーを実装するかを選択できます。 どちらを選択する場合でも、存在するストリーミング データ ソースを認識し、時間/データの鮮度制約に関する運用ユース ケースを評価すると、ストリーミング エンジン、クエリ エンジン、データ形式、カタログなど、データ テクノロジ スタックの必要な要素を選択するのに役立ちます。 テクノロジーの選択により、データ チームはパフォーマンスとコストのバランスを取りながら、最も効果的で使いやすいテクノロジーを選択できるようになります。 理想的には、組織のデータ実践は時間とともに成熟し、同時に、特定の成熟段階で組織にとって最適なものを選択できる柔軟性が常に組織に与えられます。

5. 自動化は友です。恐れる必要はありません。

ソリューションに自動化を追加すると、データ プライバシーと SecOps の専門家の暗黙知が、機械で実行できる繰り返し可能な AIOps 対応プラクティスに変換され、拡張されます。 そうして初めて、データ、セキュリティ、プライバシーの各チームが自由にインテリジェンスを追加できるようになります。 インテリジェンスは、特定のデータが誰によって、どのくらいの期間、どのような目的でどのように使用されるかをより細かく定義することで、ポリシーの有効性を高めます。同時に、データがどこに保存されているか、どのコピーが作成されているか、誰と共有されているかを追跡します。 これにより、戦略的な計画、新しいテクノロジの評価、ビジネス部門とのコミュニケーションによるデータ アクセス ポリシーの改善や例外の承認に時間を割くことができます。

スピード、スケール、自動化は、成熟した AIOps 実践の特徴であり、より優れた成果、より迅速な意思決定、最適化された人的資本につながります。 GenAI は、これまでテクノロジーでは開けなかった扉を開きます。 上記の 5 つの学習内容は、IT 運用、セキュリティ運用、プライバシー運用の各チームが GenAI を AIOps に実装する際に考慮すべきいくつかのトレイルマーカーを提供します。 AI モデル、コンピューティングと運用データの近接性、データ、自動化は、新しい AIOps プラットフォームの重要な要素となります。 この充実した学習環境の中で、組織は現在の世代と次の世代のためのテクノロジー運用の文化と実践を構築できます。

生成 AI がデータに与える影響について詳しくは、F5 の最新のデジタル エンタープライズ成熟度インデックスレポートをお読みください。