F5 の AI Data Fabric は、さまざまなユースケースでの機械学習 (ML) モデルのトレーニングと展開を加速するのに役立ちます。 AI データ ファブリックが解決する重要な課題の 1 つは、適切なトレーニング データの不足に関するものです。 あらゆる ML イニシアチブにおいて、効果的なモデルを構築するには、データの品質、多様性、量が重要です。
現実世界のデータは常に、ML アルゴリズムのトレーニングに頼るリソースでした。 AI データ ファブリックは、F5 の広範な顧客ベースのテクノロジー フットプリントと高品質の現実世界のデータへのアクセスから確実に恩恵を受けています。 結局のところ、F5 は世界中のapplicationsのほぼ半数のデータ パスに位置しており、毎日 550 ペタバイトのデータが F5 製品を通過しています。
しかし、ここ数年で、合成データはトレーニング データの魅力的なソースとして登場し、ML エコシステムにとってその重要性が急速に高まっています。
合成データとは、現実世界のデータセットの特性を模倣して人工的に生成されたデータのことを指します。 実際のデータの統計的特性と構造を学習した後、本物のデータと同じ特性を持つ人工データを生成できます。 これらの技術を使用することで、AI データ ファブリックは、顧客から収集したものと同様の大量のデータを生成できます。
合成データを使用すると多くの利点があります。 まず、プライバシーとコンプライアンスがあります。 合成データは機密情報なしで生成できるため、厳格なプライバシー規制やセキュリティ ポリシーが適用されるお客様にとって最適な選択肢となります。 機密データセットの合成バージョンを使用することで、顧客データを危険にさらすことなくデータを共有および分析できます。 また、モデルが顧客データでトレーニングされていないことも確認できます。
第二に、現実世界のデータを扱うには時間とコストがかかります。膨大な量のデータを収集してラベル付けするのは大きな負担であり、イノベーションの速度を制限します。 データを生成することでコストが大幅に削減され、モデル開発ライフサイクルが加速されます。
現実世界のデータは、可用性によって制約されることもあります。 特にまれなイベントの場合、適切なトレーニング データは不足しています。 合成データは、特定のシナリオにおいてギャップを埋め、過小評価されているクラスのバランスをとるのに役立ちます。 たとえば、攻撃を検出するためのデータセットでは、日常的なトランザクションが悪意のあるトランザクションを大幅に上回る可能性があります。 合成データを使用すると、この不足を克服できます。チームは、現実世界のデータには表されていないエッジケースをテストし、仮想的な状況をより簡単に調査できます。
最後に、セキュリティがあります。 合成データを使用すると、攻撃に対するモデルのセキュリティをテストするために使用する敵対的サンプルを生成できます。 合成データは、攻撃者がトレーニング データを操作して AI モデルを破壊するデータ ポイズニングなどの攻撃を防ぐのにも役立ちます。
合成データには多くの利点がありますが、注意すべき点もいくつかあります。 たとえば、合成データを生成するには、高度なアルゴリズムと高度な専門知識が必要です。 合成データには現実性に関する課題もあります。合成データのみでトレーニングされたモデルは、現実世界の状況ではうまく機能しない可能性があります。 トレーニング データが過度に単純化されていて、実際のデータの複雑さやニュアンスが欠けている可能性があります。あるいは、モデルが実際のシナリオには存在しない可能性のある合成データのパターンに過剰適合している可能性があります。
これらの注意にもかかわらず、実際のデータが不足している、高価である、または機密性が高いシナリオでは、合成データは非常に役立ちます。 限界を理解し、モデル開発プロセスでそれを考慮に入れれば、合成データ生成は F5 の機械学習の武器の中で強力なツールとなります。 合成データは、信頼性の高い ML モデルの形で、より迅速に作業を進め、より優れた成果を顧客に提供するのに役立ちます。