IA generativa: Segurança e otimização de aplicativos

Explore os riscos de segurança e os desafios de otimização para preparar uma abordagem equilibrada para aplicações baseadas em IA generativa.

A IA generativa (ou GenAI) pode produzir autonomamente novos conteúdos, incluindo texto, imagens ou áudio, aprendendo com padrões e exemplos em dados existentes. Ele aproveita modelos de aprendizado profundo para gerar resultados diversos e contextualmente relevantes, emulando a criatividade e as capacidades de resolução de problemas dos humanos.

Oportunidades e preocupações em torno da GenAI

Indivíduos e organizações utilizam IA generativa para uma ampla variedade de usos e aplicações, incluindo criação de conteúdo, processamento de linguagem natural e síntese de dados. Na criação de conteúdo, ele auxilia na geração de tudo, desde poesia, ensaios acadêmicos e materiais de marketing até imagens, vídeos, músicas e códigos de computador. No campo do processamento de linguagem natural, a IA generativa aprimora chatbots e tradução de idiomas, e permite a síntese de grandes quantidades de dados para estimular a criatividade no design, desenvolvimento e prototipagem de produtos. A implantação de aplicativos GenAI em uma organização pode dar suporte a trabalhadores humanos, contribuindo para uma tomada de decisão melhor e mais informada e para eficiências operacionais aprimoradas, levando a maior lucratividade e crescimento dos negócios. 

No entanto, a IA generativa também traz preocupações substanciais de segurança e éticas , incluindo o potencial de preconceito, ataques cibernéticos aprimorados e riscos de privacidade. Por exemplo, a IA generativa pode usar grandes modelos de linguagem (LLMs) que são treinados a partir de conteúdo sistematicamente extraído da Internet, incluindo livros, postagens, sites e artigos on-line. Modelos generativos aprendem com dados de treinamento e, se os dados usados forem tendenciosos, o modelo pode perpetuar e até mesmo amplificar vieses existentes em seus resultados. Além disso, a IA generativa pode inadvertidamente gerar informações enganosas ou falsas (chamadas de alucinação), levando à disseminação de informações incorretas. Os criminosos também podem usar o GenAI para espalhar e modificar propaganda que pode levar à agitação social. A IA generativa agora é comumente utilizada por agentes mal-intencionados para criar deepfakes, conteúdo realista, mas manipulado, que pode ser enganoso ou malicioso. Deepfakes podem ser usados para roubo de identidade, engenharia social ou ataques de phishing, espalhando informações falsas ou criando conteúdo enganoso que representa ameaças aos indivíduos e à sociedade. Os mercados da dark web agora oferecem uma ferramenta de IA FraudGPT que pode ser usada para criar e-mails de spear-phishing, criar malware indetectável, gerar páginas de phishing, identificar sites vulneráveis e até mesmo oferecer tutoriais sobre técnicas de hacking.

O conteúdo usado para treinar LLMs, potencialmente acessado e empregado para treinamento de modelos sem consentimento, também pode conter informações pessoais e confidenciais, além de conteúdo protegido por direitos autorais ou proprietário. Como essas informações privadas fazem parte do conteúdo que a IA extrai ao gerar conteúdo, existe um risco muito real de que as saídas possam inadvertidamente revelar dados confidenciais ou informações privadas. 

Os fornecedores de IA generativa podem não oferecer uma maneira para que indivíduos ou organizações confirmem se suas informações pessoais ou proprietárias foram armazenadas ou usadas para fins de treinamento, ou solicitar que essas informações sejam excluídas, sob as diretivas de "direito de ser esquecido" ou "direito de apagamento" de regulamentações governamentais, como o Regulamento Geral de Proteção de Dados (GPDR) da UE. O treinamento LLM também envolve frequentemente agregar e utilizar dados de diferentes regiões ou países. Isso pode levar a cenários que potencialmente comprometem as regulamentações de soberania de dados. 

Tipos de aplicações de IA generativa

A IA generativa tem diversas aplicações para organizações e indústrias, e incorporar a GenAI criteriosamente em fluxos de trabalho apropriados pode ajudar as empresas a obter uma vantagem competitiva. Essas aplicações incluem:

  • Criação de conteúdo escrito. A IA generativa pode gerar autonomamente textos semelhantes aos humanos para artigos, blogs, mensagens personalizadas, textos publicitários para campanhas e muitos outros usos. Embora o conteúdo gerado por IA geralmente exija revisão por humanos, ele pode facilitar a criação de conteúdo produzindo primeiros rascunhos no estilo e tamanho desejados, resumindo ou simplificando o conteúdo escrito existente e fornecendo esboços de conteúdo para agilizar o processo de escrita para escritores humanos. 
  • Criação de imagens e vídeos. Modelos generativos podem sintetizar ou alterar imagens e vídeos derivados de entradas textuais ou visuais, criando conteúdo visual único e realista com base em um cenário, assunto, estilo ou local solicitado. Esses materiais visuais têm abundantes aplicações comerciais em mídia, design, publicidade, marketing, educação e entretenimento. O GenAI também pode criar personagens e cenas realistas para jogos e ambientes virtuais. 
  • Automação aprimorada de suporte ao cliente. A IA generativa pode ajudar a impulsionar o desenvolvimento de chatbots avançados e agentes de conversação que podem se envolver em conversas mais naturais e contextualmente relevantes, especialmente em situações em que respostas predefinidas podem ser insuficientes. Agentes de conversação adaptáveis podem gerar conteúdo dinamicamente, como recomendações de produtos instantâneas ou respostas personalizadas de acordo com as preferências específicas do usuário. Esses chatbots e agentes sensíveis ao contexto podem ajudar as empresas a economizar tempo e recursos, ao mesmo tempo em que melhoram as experiências dos clientes e reduzem os custos de suporte.
  • Geração de código. Usar o GenAI para geração de código pode tornar o processo de desenvolvimento de software mais eficiente e produtivo. Ele pode auxiliar no desenvolvimento de código de várias maneiras, incluindo a conclusão automática de código (sugerindo conclusões de código conforme os desenvolvedores digitam); revisando o código quanto à qualidade, erros e bugs; e automatizando a modernização do código legado. A geração automatizada de código facilita a prototipagem rápida, permitindo que os desenvolvedores experimentem ideias rapidamente e testem diferentes opções de codificação para fluxos de trabalho de desenvolvimento de software mais eficientes. O GenAI também abre oportunidades de codificação para pessoas não técnicas, pois os usuários podem inserir uma descrição em linguagem natural do que o código deve fazer, e a ferramenta de código generativo cria o código automaticamente.

O que é segurança de IA generativa?

A segurança de IA generativa é um conjunto de práticas e medidas implementadas para abordar potenciais riscos e desafios de segurança associados ao desenvolvimento, implantação e uso de aplicativos baseados em GenAI. À medida que essas tecnologias se tornam mais difundidas e sofisticadas, as preocupações relacionadas à segurança se tornam cada vez mais importantes, principalmente porque as cargas de trabalho de IA se tornaram uma superfície de ataque privilegiada para criminosos cibernéticos. Para uma análise aprofundada dos riscos de segurança envolvidos na implantação e no gerenciamento de aplicativos GenAI, revise o OWASP Top 10 para aplicativos de modelo de linguagem grande , que visa aumentar a conscientização sobre suas vulnerabilidades, sugere estratégias de correção e busca melhorar a postura de segurança dos aplicativos LLM.  

Riscos de segurança para a infraestrutura de GenAI

Embora o GenAI possa parecer extremamente poderoso e quase mágico , ele aproveita parte da mesma infraestrutura, interfaces e componentes de software das cargas de trabalho tradicionais e, portanto, compartilha os mesmos riscos, como ataques de injeção e ataques que ignoram controles fracos de autenticação e autorização. Uma infraestrutura confiável, de alto desempenho e segura é necessária para a operação eficaz de modelos sofisticados de IA generativa. 

Ataques de infraestrutura também incluem negação de serviço (DoS) , na qual invasores sobrecarregam recursos de hardware, como CPUs, memória ou armazenamento, para interromper a execução de cargas de trabalho de IA generativa. Esses ataques de exaustão de recursos podem levar à degradação do desempenho ou à instabilidade do sistema, afetando a disponibilidade e a confiabilidade do sistema de IA e comprometendo a capacidade do modelo de aprender e responder às solicitações do usuário.

O acesso não autorizado à infraestrutura do sistema de IA também é uma ameaça significativa aos fluxos de trabalho do GenAI, impactando potencialmente a confidencialidade e a integridade do sistema. Intrusões na infraestrutura do sistema podem levar a atividades maliciosas, como roubo de dados, interrupção de serviço ou inserção de código malicioso. Isso não apenas coloca em risco a segurança dos modelos e dados de IA, mas também pode resultar na geração e disseminação de resultados imprecisos ou prejudiciais.

Riscos de segurança para dados de treinamento da GenAI

O ponto de partida para qualquer aplicação GenAI são os dados de treinamento que os modelos de aprendizado de máquina usam para reconhecer padrões desejados, fazer previsões e executar tarefas. Para que um LLM seja altamente capaz, os dados nos quais ele é treinado precisam abranger uma gama ampla e diversificada de domínios, gêneros e fontes. No entanto, o processo de treinamento do modelo — seja ele empregando modelos prontos para uso, pré-treinados ou modelos personalizados treinados em conjuntos de dados personalizados — é vulnerável à manipulação e ao ataque. 

Ataques adversários envolvem agentes mal-intencionados manipulando intencionalmente dados de entrada para enganar ou comprometer o desempenho de modelos de IA generativa, um processo que o OWASP identifica como envenenamento de dados de treinamento . Também inclui manipulação de dados para introduzir vulnerabilidades, backdoors ou vieses que podem comprometer a segurança, a eficácia ou o comportamento ético do modelo. Essas vulnerabilidades também introduzem vetores de ataque que criminosos podem explorar para obter acesso não autorizado a informações confidenciais. Cadeias de fornecimento de modelos comprometidas podem resultar em resultados tendenciosos ou não confiáveis, violações de privacidade e execução de código não autorizado. Isso é uma preocupação especial para aplicativos GenAI, pois eles empregam vastos ecossistemas de plug-ins. 

Ameaças de segurança aos modelos de GenAI

Os aplicativos GenAI empregam LLMs que geram saídas com base em conjuntos de dados de treinamento, redes neurais e arquitetura de aprendizado profundo para gerar respostas aos prompts dos usuários. Os modelos de IA servem como base para identificar padrões, estruturas e relacionamentos dentro dos dados existentes que servem para gerar novos resultados com base nesse entendimento. 

Os modelos de IA são suscetíveis a uma variedade de ataques, incluindo injeções de prompts e outras ameaças de entrada que manipulam LLMs inserindo prompts cuidadosamente elaborados que fazem o modelo ignorar instruções anteriores ou executar ações não intencionais. Injeções imediatas estão entre as causas mais comuns de desinformação e conteúdo falso gerados por modelos de IA. Os aplicativos GenAI também são suscetíveis a vulnerabilidades como falsificação de solicitação do lado do servidor (SSRF) , que permite que invasores executem solicitações não intencionais ou acessem recursos restritos, e execução remota de código (RCE) , que pode fazer com que o aplicativo execute código malicioso ou outras ações no sistema subjacente.

Práticas recomendadas para segurança de IA generativa

Proteger sistemas GenAI requer uma abordagem de segurança em várias camadas. Isso deve envolver protocolos robustos de autenticação e autorização , incluindo controles de acesso rigorosos para garantir que somente pessoal autorizado tenha acesso aos componentes críticos do sistema. Implemente gerenciamento proativo de vulnerabilidades , incluindo atualizações regulares de software e monitoramento contínuo para detecção precoce e prevenção de tentativas de intrusão. Para neutralizar ataques DoS, crie redundância no sistema, incluindo o uso de servidores de backup e protocolos à prova de falhas para garantir disponibilidade de processamento persistente. Os LLMs também podem estar sujeitos à negação de serviço, já que os prompts do usuário geram tokens e os LLMs têm janelas de contexto fixas, que podem ser alvos em esforços para esgotar os recursos do sistema. 

As organizações devem implementar processos de verificação rigorosos para verificar a cadeia de fornecimento de dados de treinamento e selecionar apenas modelos pré-treinados de fontes confiáveis. Como dados de baixa qualidade e vieses nos dados de treinamento podem prejudicar a capacidade do modelo de aprender representações precisas e produzir resultados confiáveis, o pré-processamento de dados antes de serem alimentados em um modelo generativo é essencial para GenAI eficaz. O ajuste fino de modelos também é vital em muitos setores regulamentados. Técnicas como limpeza, normalização e aumento de dados, além de detecção e mitigação de vieses podem ajudar a prevenir erros e envenenamento de dados.

Implemente controles de acesso robustos, métodos de criptografia e práticas de implantação seguras — incluindo isolamento de rede e configurações adequadas de firewall — para proteger modelos de IA generativa de potenciais ameaças à segurança. Para evitar injeções imediatas, empregue técnicas como higienização imediata, validação de entrada e filtragem imediata para garantir que o modelo não seja manipulado por entradas criadas de forma maliciosa. Os riscos de execução não autorizada de código podem ser reduzidos empregando práticas de codificação seguras, conduzindo revisões completas de código e utilizando defesas de tempo de execução, como sandbox de código. A injeção imediata representa um dos riscos mais sérios e complicados das aplicações GenAI. 

Otimização de modelos de IA generativa

Como o processamento GenAI pode exigir muitos recursos, otimizar modelos de IA generativa para melhor desempenho e eficiência é um passo importante para tornar os modelos mais rápidos, escaláveis e energeticamente eficientes. 

Ambientes multinuvem se tornaram a base para aplicativos com tecnologia de IA devido à sua capacidade de conectar cargas de trabalho de IA e plug-ins de ecossistema em ambientes distribuídos. A rede multinuvem (MCN) oferece a flexibilidade de aumentar ou diminuir dinamicamente os recursos com base nas demandas computacionais de cargas de trabalho de IA generativa, incluindo aceleradores de hardware como Unidades de Processamento Gráfico (GPUs), com recursos de diferentes provedores de nuvem integrados ao processamento de dados para otimizar o desempenho e minimizar atrasos. A implantação de modelos GenAI em várias regiões de nuvem permite a distribuição geográfica do processamento, latência reduzida e tempos de resposta aprimorados, o que é particularmente importante para aplicativos de IA interativos ou distribuídos em tempo real. A IA de ponta está surgindo como um método inestimável para melhorar a experiência do usuário. A distribuição regional dos modelos GenAI também pode permitir que as organizações armazenem e processem dados em conformidade com os requisitos de soberania de dados.

A plataforma de orquestração de contêineres Kubernetes é o padrão de fato para executar cargas de trabalho GenAI, fornecendo a infraestrutura para executar e dimensionar modelos de IA em contêineres para garantir alta disponibilidade e utilização eficiente de recursos. O Kubernetes atua como um orquestrador, gerenciando a implantação e o monitoramento de vários componentes dentro do aplicativo de IA e garantindo que modelos de IA, pipelines de processamento de dados e outros serviços possam ser gerenciados e dimensionados com eficiência. Os controladores MCN e de entrada são essenciais devido às diversas implementações do Kubernetes e à necessidade de provisionar cargas de trabalho uniformemente, direcionar o tráfego com segurança e distribuir a inferência.  

As APIs fornecem o tecido conjuntivo para que várias partes do aplicativo de IA troquem dados e instruções, permitindo que diferentes componentes e serviços se comuniquem entre si. Os ecossistemas de plug-ins GenAI, por exemplo, são conectados por meio de chamadas de API. As soluções Kubernetes Ingress fornecem recursos integrados de balanceamento de carga, limitação de taxa e controle de acesso, distribuindo o tráfego com segurança entre vários pods para melhorar o desempenho geral do processamento de cargas de trabalho de IA.

Desafios na otimização da GenAI

Equilibrar a velocidade e a qualidade da saída geralmente envolve compensações para otimização do GenAI. Alcançar resultados de alta qualidade normalmente requer modelos e cálculos mais complexos e que exigem mais recursos, enquanto a otimização do desempenho pode envolver simplificações de modelos que podem afetar a qualidade do conteúdo gerado. Modelos mais complexos também podem exigir tempos de treinamento mais longos e levar a inferências mais lentas, afetando a velocidade do processo de treinamento e o desempenho de aplicativos em tempo real. Isso é um problema principalmente para modelos GenAI que precisam se adaptar a ambientes dinâmicos, o que pode exigir otimização contínua e apresentar desafios na manutenção do equilíbrio entre qualidade e desempenho. Além das GPUs, Unidades Centrais de Processamento (CPUs) e Unidades de Processamento de Dados (DPUs) gerais podem ser usadas para tarefas de processamento, ressaltando a importância do gerenciamento de tráfego de inteligência e do agrupamento de recursos.

Técnicas de otimização de GenAI

Otimizar modelos de IA generativa requer consideração equilibrada, e combinações, de múltiplos fatores.

A poda do modelo envolve a identificação e remoção de parâmetros redundantes ou menos cruciais do modelo para reduzir seu tamanho e requisitos computacionais, com o objetivo de criar um modelo mais compacto, preservando o desempenho. A quantização reduz os requisitos de memória e a complexidade computacional dos modelos GenAI ao representar valores numéricos com menor precisão de bits, como a conversão de números de ponto flutuante em representações de ponto fixo ou inteiro de menor precisão. Isso pode levar a menores requisitos de memória e maior eficiência na implantação e armazenamento de modelos. 

A aprendizagem por transferência é uma técnica de aprendizado de máquina na qual um modelo treinado em uma tarefa é adaptado para executar outra tarefa relacionada, reduzindo significativamente o tempo e os recursos computacionais necessários para o treinamento, especialmente para modelos profundos e complexos. A aprendizagem por transferência facilita a reutilização eficiente do conhecimento, permitindo a otimização de modelos de IA generativos para aplicações específicas sem a necessidade de recursos computacionais extensos. 

Distribuir o treinamento e a inferência do modelo entre vários processadores, dispositivos ou nuvens otimiza o treinamento do modelo e a experiência do usuário explorando recursos de processamento paralelo. Além disso, adaptar a arquitetura do modelo e o processo de treinamento para aproveitar os recursos individuais do hardware (por exemplo, a CPU ou GPU específica na qual ele será executado) pode otimizar o treinamento e o processo de inferência para melhorar o desempenho, especialmente se a inferência puder ser realizada perto do usuário.

Aproveite a F5 para IA generativa

A IA generativa tem o potencial de oferecer grandes vantagens competitivas, mas para que as organizações aproveitem totalmente seus benefícios sem riscos, elas devem tomar as medidas necessárias para otimizar e proteger as cargas de trabalho de IA em ambientes diversos e distribuídos. Isso requer não apenas o aprimoramento da eficiência das cargas de trabalho de IA, mas também o gerenciamento de ecossistemas Kubernetes complexos, integração perfeita e segura de APIs e gerenciamento eficaz de redes multinuvem. 

O F5 otimiza o desempenho e a segurança das cargas de trabalho de IA modernas, garantindo distribuição e proteção consistentes de modelos e dados de IA generativos em todo o ambiente de aplicativos distribuídos, incluindo data centers, nuvens públicas, nuvens privadas, multinuvem, Kubernetes nativo e edge. A F5 fornece uma estrutura de dados subjacente e unificada que oferece suporte ao treinamento, refinamento, implantação e gerenciamento de modelos de IA generativos em escala, garantindo uma experiência de usuário perfeita e dando suporte à tomada de decisões em tempo real em aplicativos orientados por IA. 

A F5 oferece um conjunto de soluções integradas de segurança, entrega e otimização de desempenho que reduzem a complexidade da IA generativa, ao mesmo tempo em que oferecem escala e desempenho previsíveis, com visibilidade e gerenciamento centralizados por meio de um único painel de controle.

  • O F5 Secure Multi-Cloud Networking (MCN) reduz a complexidade do gerenciamento e da implantação de cargas de trabalho de IA em ambientes distribuídos (nuvem, multinuvem, borda) sem a complexidade e a sobrecarga de gerenciamento das soluções de conectividade ponto a ponto.
  • O F5 Distributed Cloud Network Connect fornece conectividade de Camada 3 em qualquer ambiente ou provedor de nuvem, incluindo data centers locais e sites de ponta, em uma ferramenta baseada em SaaS que fornece visibilidade de ponta a ponta, automatiza o provisionamento de links e serviços de rede e permite a criação de políticas de segurança consistentes e baseadas em intenção em todos os sites e provedores. 
  • O F5 Distributed Cloud App Connect é um serviço que fornece conectividade e orquestração de aplicativo para aplicativo para cargas de trabalho de IA distribuídas em várias regiões de nuvem, provedores e sites de ponta.
  • O F5 Distributed Cloud App Stack implanta, gerencia e protege facilmente cargas de trabalho de IA com Kubernetes uniforme de nível de produção em todos os ambientes, simplificando o gerenciamento do ciclo de vida das cargas de trabalho de IA e fornecendo um método para distribuir a inferência para o processador certo (CPU/GPU/DPU) em todos os pools de recursos, mesmo na borda, para maximizar o desempenho. 
  • O F5 NGINX Connectivity Stack para Kubernetes é uma ferramenta única que abrange recursos de controlador de entrada, balanceador de carga e gateway de API para fornecer comunicações rápidas, confiáveis e seguras para cargas de trabalho de IA/ML em execução no Kubernetes, melhorando o tempo de atividade, a proteção e a visibilidade em escala, ao mesmo tempo que reduz a complexidade e o custo operacional. 
  • O F5 Distributed Cloud Web App and API Protection (WAAP) protege as APIs que permitem interações específicas de IA e atenua os riscos associados a acesso não autorizado, violações de dados, abuso de lógica de negócios e vulnerabilidades críticas, como SSRF e RCE, ao mesmo tempo em que oferece uma abordagem abrangente para análise de tempo de execução e proteção de APIs com uma combinação de funcionalidade de gerenciamento e aplicação.
  • O F5 Distributed Cloud Bot Defense oferece proteção contra bots altamente eficaz com base na análise em tempo real de dispositivos e sinais comportamentais para desmascarar e mitigar ataques automatizados de bots maliciosos, adaptando-se rapidamente às tentativas de reformulação dos invasores em milhares dos aplicativos e cargas de trabalho de IA com maior tráfego do mundo, neutralizando agentes mal-intencionados que usam bots e automação maliciosa em esforços para envenenar modelos de LLM, infligir negação de serviço e espalhar propaganda. 

Ao otimizar eficiências, reduzir latência e melhorar tempos de resposta, as tecnologias da F5 ajudam organizações a obter com segurança os benefícios da IA generativa, ao mesmo tempo em que garantem uma experiência de usuário perfeita e oferecem suporte à flexibilidade para implantar cargas de trabalho de IA em qualquer lugar.