블로그

F5 NGINX Plus로 AI 클러스터를 효율적으로 운영하는 방법

리엄 크릴리 썸네일
리암 크릴리
2025년 7월 3일 발행

지난 10년간 NGINX 오픈 소스는 전 세계에서 가장 널리 쓰이는 웹 서버 중 하나이자 시장 점유율 기준 상위 애플리케이션 전달 솔루션입니다. 소규모 스타트업과 학술 연구 프로젝트부터 세계 최대 규모의 웹 애플리케이션까지, 여러분의 부하 분산과 역방향 프록시를 효과적으로 지원해왔습니다.

애플리케이션 제공의 기본 선택지가 된 것처럼 NGINX는 AI 애플리케이션의 학습과 서비스에서 조용하지만 필수적인 핵심 역할을 수행하고 있습니다. Intel OpenVINO Model Server, NVIDIA Morpheus, Meta의 vLLM, NVIDIA Triton 등 주요 AI 프레임워크, 툴킷, 라이브러리, 플랫폼은 기본 설정으로 F5 NGINX Plus (및 NGINX 오픈소스)를 포함해 gRPC/HTTP 프록시, SSL/TLS 종료, 상태 점검을 고려한 부하 분산 및 동적 재구성을 바로 지원합니다. Kubernetes 클러스터에서 실행되는 다수의 AI 서비스와 솔루션은 모델 학습과 추론을 위해 AI 클러스터 내부와 외부의 트래픽 관리를 위해 F5 NGINX Ingress Controller를 선호하는 옵션 중 하나로 꼽습니다. 자세히 살펴보면 거의 모든 AI 환경에 NGINX가 함께 작동하고 있음을 알 수 있습니다.

다양한 AI 활용 사례에서 NGINX는 AI 스택 핵심 역할을 합니다. 기반 모델을 미세 조정하든, LLM에서 토큰 출력을 스트리밍하든, 실시간 이상 탐지 엔드포인트로 요청을 라우팅하든, NGINX가 이미 경로에 포함돼 있을 가능성이 큽니다.

AI 팀이 NGINX Plus를 선택하는 이유

  • Kubernetes 네이티브 인그레스: 오늘날 대부분의 AI 플랫폼은 Kubernetes에서 운영되며, NGINX는 Run:ai, KServe, Ray Serve 같은 도구에서 기본 또는 선호 인그레스로 자리잡았습니다. AI 애플리케이션이 하이브리드, 멀티 클라우드, 엣지 환경으로 확장됨에 따라 NGINX Gateway Fabric이 가벼운 설치와 세밀한 트래픽 제어를 제공하는 Kubernetes 네이티브 Gateway API 구현을 지원합니다. 이를 통해 AI 팀은 메시 복잡성을 더하지 않고도 라우팅, 재시도, 관찰 기능을 더욱 효과적으로 제어할 수 있습니다.
  • 대규모 동적 롤아웃: AI 추론 작업은 신중한 버전 관리와 무중단 운영이 필요한 고부가가치 GPU 집중 세션을 다룹니다. NGINX는 동적 구성 재시작, 가중 트래픽 분배, 적극적인 상태 점검을 지원하여 팀이 진행 중인 세션이나 GPU 큐에 부담을 주지 않고 새 모델 버전을 안전하게 배포할 수 있게 합니다.
  • 실전 환경에 최적화된 API 처리: Triton, vLLM, OpenVINO 같은 모델 서버는 빠르고 체계적인 소통을 위해 gRPC 또는 HTTP/2를 사용합니다. NGINX는 이 프로토콜들을 고성능으로 지원하며, 연결 재사용, 세션 고정, TLS 종료, 요청 버퍼링 등 AI 추론 트래픽의 갑작스런 증감이나 장시간 연결을 안정적으로 처리하는 데 필요한 기능을 제공합니다.
  • 운영 제어: NGINX Plus는 RESTful 구성 업데이트, 실시간 업스트림 관리, 그리고 기업 수준의 웹 애플리케이션 방화벽(WAF) 등 고급 기능을 제공합니다. 클러스터 내 수십에서 수백 대의 NGINX 인스턴스를 관리하는 팀이라면, F5 NGINX One이 구성, 상태, 보안 정책을 중앙에서 관리할 수 있는 콘솔을 제공합니다. 이는 다양한 접근권과 위험 프로필을 가진 여러 모델 유형 또는 AI 사용 사례를 지원하는 팀에 최적화되어 있습니다.
  • F5 AI 게이트웨이: AI 워크로드에 최적화된 AI Gateway가 NGINX를 AI 트래픽 보안 중심으로 확장합니다. 사용자 지정 가능한 프롬프트 인젝션 및 유해 출력 차단 기능과 함께, GPU 자원이 제한된 환경에서 스크래핑, 과도 요청, 급증 쿼리를 방지하는 속도 제한 및 사용 할당량을 제공합니다. 생성 모델에는 더욱 엄격한 정책을 적용하고, 벡터 API에는 더 관대한 규칙을 적용하는 등 각 추론 경로별 맞춤 보안 규칙 설정이 가능합니다. 모든 트래픽을 토큰 단위 또는 요청 단위로 기록해 관측 파이프라인으로 전달하며, 감사 요구 사항도 충족합니다.

주요 AI 프레임워크, 도구 및 관리형 서비스에 NGINX가 통합되어 있습니다

NGINX는 주요 AIOps 스택, 도구 및 관리 서비스에서 기본 인그레스로 널리 사용됩니다.

AI 프레임워크

NGINX 활용 방법 

실질적인 혜택 

인텔 OpenVINO 모델 서브 F5와 Intel이 함께 NGINX Plus 뒤에 모델 샤드를 배포하는 데모를 선보입니다 (YouTube) 하나의 게이트웨이가 CPU, GPU, VPU 백엔드로 경로를 설정합니다.
엔비디아 트라이튼 Helm 차트가 gRPC 액세스를 위해 NGINX Plus Ingress와 함께 Triton을 설치합니다 (GitHub) HTTP/2 멀티플렉싱으로 GPU 활용도를 높입니다.
NVIDIA Morpheus  "How I Did It" 가이드가 NGINX Plus 인그레스 F5 커뮤니티를 통해 Morpheus 보안을 구현합니다 실시간 보안 인사이트를 위해 TLS 오프로드와 적응형 WAF를 제공합니다.  
NVIDIA(XLIO) NVIDIA Accelerated IO(XLIO) 기반 NGINX 배포 가이드 (docs.nvidia.com) OpenSSL 지원과 샘플 파일을 포함한 빌드 지침으로 향상된 TLS 오프로드와 성능 튜닝을 제공합니다.  
Meta vLLM  공식 문서에서 NGINX(vLLM)로 여러 vLLM 인스턴스를 효과적으로 분산하는 방법을 안내합니다. 텍스트 생성 엔드포인트의 빠른 수평 확장을 지원합니다.

MLOps 팀은 AI 배포에 필수적인 마이크로서비스와 API를 관리하는 팀이 NGINX를 도입하는 것과 동일한 이유로 NGINX 제품을 손쉽게 채택할 수 있습니다. 가볍고 모듈화되었으며 이식성이 뛰어나 다양한 환경에서 대량의 토큰을 안정적으로 처리합니다. AI 개발자와 머신러닝 엔지니어는 플랫폼이나 MLOps 팀이 구성한 컨테이너 이미지를 활용해 NGINX를 자주 사용하는 AI 환경에 신속하게 배포할 수 있습니다. NGINX는 주요 플랫폼과 프로세서 아키텍처 전반에서 하드웨어 가속 기능을 효과적으로 통합합니다.

NGINX를 기본 옵션으로 사용하는 AI 구성 요소는 저수준 GPU 스케줄링부터 고급 모델 서빙, 배포 오케스트레이션, 그리고 엔터프라이즈급 거버넌스까지 AI 인프라 전반에 걸쳐 적용됩니다. 이들은 NGINX가 추론 엔드포인트로의 트래픽을 안전하게 라우팅하고, 확장 가능하며 효율적인 모델 배포를 가능하게 하며, 다중 테넌트 클러스터 접근을 관리하고, 버전 관리, 감사, 규정 준수 등 운영 정책을 엄격히 시행하는 다양한 사용 사례를 지원한다는 점을 명확히 보여줍니다.

  • KServe: 배포 가이드에서는 inference 서비스를 라우팅할 기존 NGINX Ingress Controller 도메인이 있다고 가정합니다.
  • Ray Serve: 설명서에서 NGINX Ingress Controller를 구성해 대시보드와 모델 엔드포인트를 외부에 노출하는 방법을 안내합니다.
  • Seldon Core v2: 프로덕션 배포 장에서는 Helm을 사용해 NGINX Ingress Controller를 설정하는 방법을 설명하며, 카나리아 및 섀도 트래픽 시나리오도 다룹니다.
  • Run:ai: 필수 조건에는 다중 테넌트 GPU 공유 Kubernetes 클러스터용 검증된 인그레스 컨트롤러로 NGINX가 포함됩니다.
  • AWS SageMaker: 문서에서 NGINX와 Gunicorn을 사용해 맞춤형 추론 컨테이너를 앞단에 두는 방법을 예제로 제공합니다.
  • Azure AKS: Microsoft는 클러스터 내 인그레스 트래픽 관리를 위해 관리형 NGINX Ingress Controller를 기본 내장 옵션으로 제공합니다.
  • DataRobot: 설치 지침에서는 EKS에서 Portable Prediction Server로 경로 기반 라우팅 시 NGINX Ingress Controller(v4.0.0 이상)를 사용하길 권장합니다.

NGINX는 MLOps로 가는 명확한 길을 제시합니다

이들 플랫폼과 도구는 저수준 GPU 스케줄링부터 고수준 모델 서비스, 배포 오케스트레이션, 기업급 거버넌스까지 AI 인프라 전반을 포괄합니다. NGINX는 추론 엔드포인트로 안전하게 트래픽을 라우팅하고, 확장성과 효율성을 갖춘 모델 전달을 가능케 하며, 다중 테넌트 클러스터 접근을 관리하고, 버전 관리, 감사, 규정 준수 등 운영 정책을 철저히 적용하는 등 다양한 활용 사례를 보여줍니다. 이 목록은 계속 늘어나고 있으며, 우리는 차세대 AI 네이티브 기업들이 NGINX와 함께 어떤 혁신을 이룰지 기대하고 있습니다.

F5 NGINX One으로 AI 확장을 지원받으세요.