O AI Data Fabric da F5 está nos ajudando a acelerar o treinamento e a implantação de modelos de aprendizado de máquina (ML) para uma variedade de casos de uso. Um dos principais desafios que o AI Data Fabric ajuda a resolver é a escassez de bons dados de treinamento. Em qualquer iniciativa de ML, a qualidade, a diversidade e o volume de dados são essenciais para a construção de modelos eficazes.
Dados do mundo real sempre foram o recurso mais utilizado para treinar algoritmos de ML. O AI Data Fabric certamente se beneficia da pegada tecnológica da extensa base de clientes da F5 e do acesso a dados reais de alto calibre. Afinal, o F5 está no caminho de dados de quase metade dos applications do mundo, com 550 petabytes fluindo pelos produtos F5 todos os dias.
No entanto, nos últimos anos, os dados sintéticos surgiram como uma fonte atraente de dados de treinamento e estão crescendo rapidamente em importância para nosso ecossistema de ML.
Dados sintéticos referem-se a dados gerados artificialmente que imitam as características de conjuntos de dados do mundo real. Depois de aprender as propriedades estatísticas e estruturas de dados reais, podemos gerar dados artificiais que tenham as mesmas propriedades dos dados autênticos. Usando essas técnicas, o AI Data Fabric pode gerar grandes quantidades de dados semelhantes aos que coletamos dos clientes.
Há inúmeros benefícios em usar dados sintéticos. Primeiro, há privacidade e conformidade. Dados sintéticos podem ser produzidos sem informações confidenciais, o que os torna uma excelente escolha para nossos clientes que estão vinculados a regulamentações de privacidade ou políticas de segurança rigorosas. Ao usar versões sintéticas de conjuntos de dados confidenciais, podemos compartilhar e analisar dados sem colocar os dados do cliente em risco. Também podemos ter certeza de que os modelos não são treinados com dados do cliente.
Em segundo lugar, trabalhar com dados do mundo real pode ser demorado e caro — coletar e rotular grandes quantidades de dados é um verdadeiro fardo, o que limita a velocidade da inovação. A geração de dados reduz significativamente os custos e acelera o ciclo de vida de desenvolvimento do nosso modelo.
Dados do mundo real também podem ser limitados pela disponibilidade. Bons dados de treinamento são escassos, especialmente para eventos raros. Dados sintéticos ajudam a preencher lacunas e equilibrar classes sub-representadas para cenários específicos. Por exemplo, em um conjunto de dados para detecção de ataques, transações de rotina podem superar em muito as maliciosas. Com dados sintéticos, podemos superar essa escassez: nossas equipes podem testar casos extremos que não são representados em dados do mundo real e explorar situações hipotéticas com mais facilidade.
Por fim, há a segurança. Com dados sintéticos, podemos gerar exemplos adversários que são então usados para testar a segurança do modelo contra ataques. Dados sintéticos ainda ajudam a proteger contra ataques como envenenamento de dados, em que invasores manipulam dados de treinamento para corromper modelos de IA.
Embora existam muitos benefícios dos dados sintéticos, há alguns cuidados que devem ser observados. Por exemplo, gerar dados sintéticos requer algoritmos avançados e altos níveis de especialização para funcionar. Dados sintéticos também apresentam desafios em relação ao realismo: modelos treinados exclusivamente com dados sintéticos podem não ter um bom desempenho em situações do mundo real. Os dados de treinamento podem ser excessivamente simplistas, sem as complexidades e nuances dos dados reais, ou os modelos podem se ajustar excessivamente a padrões em dados sintéticos que podem não estar presentes em cenários reais.
Apesar dessas precauções, dados sintéticos podem ser muito úteis em cenários onde dados reais são escassos, caros ou confidenciais. Se entendermos suas limitações e as levarmos em conta no processo de desenvolvimento do modelo, a geração de dados sintéticos é uma ferramenta poderosa no arsenal de aprendizado de máquina do F5. Dados sintéticos nos ajudam a ir mais rápido e a entregar resultados muito melhores para nossos clientes na forma de modelos de ML confiáveis.