BLOG

Segurança de inferência de IA aprimorada com Intel OpenVINO: Aproveitando Intel IPU, F5 NGINX Plus e Red Hat OpenShift

Paul Pindell Miniatura
Paulo Pindell
Publicado em 5 de junho de 2025

Imagine um mundo onde as tarefas de inferência de IA não apenas sejam executadas mais rápido, mas também com mais segurança, com esforço mínimo necessário para configuração e manutenção. Parece bom demais para ser verdade? A mais recente solução baseada no Intel OpenVINO torna isso uma realidade ao integrar a Unidade de Processamento de Infraestrutura (IPU) E2100 “Dayton Peak” da Intel, o F5 NGINX Plus e o Red Hat OpenShift. É uma configuração inovadora projetada para desenvolvedores e empresas que buscam dimensionar cargas de trabalho de IA de forma segura e eficiente, ao mesmo tempo em que simplificam a instalação e a operação.

Deixe-me explicar detalhadamente como todas as peças desse quebra-cabeça se juntam e por que essa integração é revolucionária para a segurança e a escalabilidade da inferência de IA.

1. Transferindo tarefas críticas de infraestrutura de IA para a Intel IPU

Em essência, essa configuração foi criada para potencializar a inferência de IA, transferindo tarefas críticas de infraestrutura para a IPU da Intel. Isso permite que o sistema host, executando o servidor de inferência Intel OpenVINO, dedique seus recursos ao que realmente importa: fornecer resultados de inferência rápidos e precisos. Emparelhado com o F5 NGINX Plus e o sistema operacional Enterprise Linux da Red Hat, OpenShift e MicroShift, o sistema atinge um equilíbrio único de desempenho, escalabilidade e segurança.

Este é o fluxo de trabalho principal: o tráfego criptografado flui do cliente de IA para o NGINX Plus, que é implantado diretamente na Intel IPU. O NGINX Plus atua como um proxy de tráfego, descriptografando dados e roteando-os com segurança pelo barramento PCIe para os servidores de inferência Intel OpenVINO hospedados no sistema Dell R760. Os resultados são então enviados de volta pelo NGINX Plus para entrega ao cliente de IA.

2. Principais vantagens arquitetônicas da execução da infraestrutura na IPU da Intel

Embora o fluxo de trabalho em si seja atraente, as vantagens arquitetônicas agregam ainda mais valor. Ao transferir tarefas de infraestrutura para a IPU, a solução oferece benefícios de desempenho e uma divisão clara de responsabilidades para os administradores.

Um benefício crucial da implantação do NGINX Plus na Intel IPU é a transferência de tarefas de infraestrutura da CPU do sistema host. Coisas como roteamento de tráfego, descriptografia e controle de acesso — que podem exigir muitos recursos — são gerenciadas inteiramente na IPU. Isso significa que a CPU host tem significativamente mais ciclos disponíveis para se concentrar em cargas de trabalho específicas do aplicativo, como executar modelos adicionais de inferência do Intel OpenVINO ou lidar com processos de IA que exigem muitos recursos.

Em cenários do mundo real, isso se traduz em melhor utilização do seu hardware de servidor caro e de alto desempenho. Em vez de ser sobrecarregada por tarefas de infraestrutura em segundo plano, a CPU do host pode operar em capacidade máxima para as cargas de trabalho mais importantes para você.

Outro benefício exclusivo da solução é a separação de serviços de infraestrutura e cargas de trabalho de application . Ao executar todas as tarefas de infraestrutura — como NGINX Plus, gerenciamento de rede e controle de acesso — na Intel IPU, mantendo o servidor de inferência Intel OpenVINO no host, criamos uma divisão clara e "transparente" entre as responsabilidades do plano de controle.

O administrador do application Intel OpenVINO é responsável por gerenciar cargas de trabalho de inferência, implantar e dimensionar modelos de IA e otimizar o desempenho no nível do aplicativo. Enquanto o administrador de infraestrutura supervisiona o ambiente Intel IPU, gerencia o roteamento, aplica o controle de acesso (por meio de regras FXP) e garante que os serviços de infraestrutura operem de forma segura e eficiente configurando a instância do NGINX Plus.

Essa separação de tarefas elimina a ambiguidade, fortalece a colaboração organizacional e garante que cada administrador possa se concentrar diretamente em seu respectivo domínio de especialização.

Juntos, esses benefícios tornam esta solução não apenas prática, mas também eficiente para dimensionar fluxos de trabalho de IA empresarial, mantendo a utilização de recursos e a segurança de alto nível.

3. Red Hat OpenShift e MicroShift: Potencializando a automação e a simplificação

Um dos aspectos mais destacados deste sistema é como ele aproveita os operadores Red Hat MicroShift e OpenShift DPU para tornar a configuração e o dimensionamento praticamente sem esforço. Honestamente, esse tipo de automação parece mágica quando você a vê em ação. Deixe-me explicar em poucas palavras:

Existem dois grupos. Há o cluster OpenShift que é executado no sistema host. Especificamente, este é um nó de trabalho do OpenShift e é executado no Dell R760. O segundo cluster é um cluster MicroShift. Ele é implantado nos núcleos de braço da Intel IPU. Esta versão leve do OpenShift oferece a flexibilidade dos contêineres sem a sobrecarga de um ambiente Kubernetes completo.

Esses grupos trabalham juntos por meio de operadores de DPU, que fazem o trabalho pesado nos bastidores. Eles conversam entre si, trocando dados sobre pods e redes ativos. Essa conexão é particularmente importante para gerenciar dinamicamente as regras de segurança e tráfego.

Aqui está a parte que realmente torna a vida mais fácil para os desenvolvedores: criação de regras dinâmicas. Anteriormente, a configuração de regras FXP (usadas para gerenciar o controle de acesso para tráfego PCIe) exigia esforço manual e conhecimento de programação P4. Agora, tudo o que você precisa fazer é implantar suas cargas de trabalho, e os operadores cuidam de tudo automaticamente:

O operador cria novas regras FXP dinamicamente sempre que pods de inferência OpenVINO apropriadamente marcados são implantados. Essas regras FXP permitem a comunicação pelo barramento PCIe e, à medida que as cargas de trabalho aumentam ou diminuem, o sistema ajusta automaticamente essas regras de acesso, eliminando as suposições da configuração.

Esse nível de automação significa que qualquer pessoa — de desenvolvedores a administradores de sistemas — pode se concentrar em cargas de trabalho de IA sem ficar preso aos detalhes da configuração de infraestrutura.

4. O fluxo de trabalho de inferência de IA em ação

Agora vamos entender como todo esse sistema opera para inferência de IA. Vejamos o exemplo de reconhecimento de espécies animais em imagens usando o kit de ferramentas de implantação de aprendizado profundo Intel OpenVINO. Veja como é o fluxo de trabalho passo a passo

Primeiro, dados de imagem criptografados são enviados de um cliente de IA por meio de uma chamada de API GRPCS. O NGINX Plus, executado na Intel IPU, descriptografa os dados e atua como um proxy de tráfego. Esse tráfego flui com segurança pelo barramento PCIe para os servidores de inferência Intel OpenVINO hospedados no Dell R760. Os servidores de inferência Intel OpenVINO processam as imagens usando o modelo ResNet AI para determinar as espécies em cada imagem. Por exemplo, pode inferir: “Este é um golden retriever” ou “Aquele é um gato malhado”. Os resultados são enviados de volta pelo mesmo caminho: por meio do NGINX Plus e posteriormente para o cliente.

O sistema pode ser configurado para lidar com vários clientes de IA processando simultaneamente lotes de imagens. Mesmo com vários clientes executando solicitações de inferência em um loop, o sistema permanecerá seguro, contínuo e responsivo.

5. Segurança aprimorada com controle de acesso inteligente

Vamos falar sobre um dos principais benefícios deste sistema: a segurança. A Intel IPU não apenas processa o tráfego, mas também protege ativamente a comunicação entre a infraestrutura e as cargas de trabalho de inferência em execução no host.

Veja como funciona: A IPU usa regras FXP para controlar o tráfego na interface PCIe. Somente o tráfego autorizado por essas regras geradas dinamicamente (gerenciadas pelos operadores da DPU) pode fluir. Isso garante uma comunicação segura ao mesmo tempo que bloqueia o acesso não autorizado ao sistema host. Esse tipo de segurança em camadas ajuda a mitigar riscos, especialmente para empresas que processam dados confidenciais por meio de pipelines de IA.

6. Por que esta solução se destaca

Para mim, a magia desta solução está na combinação perfeita de desempenho, automação e segurança. Ao isolar o gerenciamento de infraestrutura na IPU enquanto hospeda cargas de trabalho de inferência na máquina host, a Intel, a Red Hat e a F5 criaram uma configuração que é eficiente e segura.

Veja o que torna essa configuração uma virada de jogo:

  • Configuração simplificada: Esqueça as configurações manuais. Com operadores de DPU e criação de regras dinâmicas, o sistema está o mais próximo possível do plug-and-play.
  • Escala dinâmica: Não importa se você está executando um pod de inferência ou 20, as regras de comunicação e segurança se adaptam automaticamente.
  • Segurança aprimorada: A separação nítida entre infraestrutura e cargas de trabalho, combinada com o controle de acesso no barramento PCIe, cria um limite de segurança robusto.
  • Utilização otimizada de recursos: A transferência de tarefas de infraestrutura para a IPU libera a CPU do host para tarefas de computação de alta prioridade.
  • Divisão clara de responsabilidades: Os administradores podem se concentrar em seus domínios — application ou infraestrutura — sem atrapalhar uns aos outros.

Um salto à frente para a inferência de IA

Esta solução baseada no Intel OpenVINO reúne hardware e software de uma forma que parece fácil. A IPU E2100 da Intel, o Red Hat OpenShift e o F5 NGINX Plus fornecem um exemplo de primeira linha de como simplificar pipelines complexos de inferência de IA, ao mesmo tempo em que melhora a segurança e a escalabilidade.

Seja você um desenvolvedor, arquiteto de infraestrutura ou tomador de decisões empresariais, esta solução oferece um modelo prático para gerenciar cargas de trabalho de IA em um ambiente moderno e em contêineres. Se isso despertou seu interesse, não hesite em entrar em contato com a Intel, a F5 ou a Red Hat para explorar como essa configuração pode se adequar ao seu fluxo de trabalho.

É emocionante ver como essa tecnologia está evoluindo — e eu, por exemplo, mal posso esperar para ver o próximo conjunto de inovações. Para saber mais, assista ao meu vídeo de demonstração no LinkedIn .