블로그

F5 Big-IP Next for Kubernetes로 AI 기반 트래픽 관리를 경험하세요

필리즈 우카르 오즈칸 썸네일
필리즈 우카르 오즈칸
2025년 9월 22일 발표

AI 기반 앱을 이용해 콘텐츠를 작성하거나 이미지를 생성할 때, 요청을 입력하고 엔터를 누른 뒤 기다린 적이 있나요? 계속 기다렸나요? 결국 느리고 엉뚱하며 쓸모없는 정보로 가득한 답변을 받았나요?

답답하게 느껴지시겠지만, 진짜 이야기는 무대 뒤에서 벌어지고 있습니다. 이 AI 경험을 제공하는 기업들은 직접 고성능 인프라를 구축하거나, GPU-as-a-Service와 LLM-as-a-Service 제공업체에 의존해 그 일을 맡깁니다.

표면적으로 모든 것을 간단해 보이게 만드는 건 공급업체가 감당해야 할 큰 도전과제입니다. 그들은 무대 뒤에서 GPU를 계속 가동하고, 응답 시간을 빠르게 유지하며, 토큰 사용량을 관리해서 당신에게 빠르고 신뢰할 수 있는 경험을 제공합니다.

AI 인프라에서는 변화만이 유일한 확실한 요소입니다. 모델이 빠르게 발전합니다. 작업 부하는 예고 없이 급증합니다. 새로운 보안, 규정 준수, 라우팅 요구가 릴리스 주기보다 빠르게 등장할 때가 많습니다.

그래서 우리는 지능적이고 프로그래밍 가능한 트래픽 관리가 단순한 선택이 아니라고 말합니다. 필수입니다.

NVIDIA BlueField-3 DPU에 배포된 F5 BIG-IP Next for Kubernetes 2.1과 함께 지능형 부하 분산과 향상된 프로그래밍 기능을 결합해 AI 인프라의 독특한 요구를 충족하는 트래픽 관리의 새로운 기준을 세웁니다.

더 빠른 AI 구현을 위한 스마트한 부하 분산

기존의 부하 분산은 트래픽을 균등하게 분산시킵니다. 이 방법은 웹 앱에서는 효과적이지만 AI의 경우에는 항상 효율적인 것은 아닙니다. 작은 프롬프트는 토큰이 많이 필요한 대규모 요청과 같은 방식으로 처리할 수 없습니다. 그렇지 않으면 GPU가 과부하되고, 추론 파이프라인이 중단되거나, 리소스가 유휴 상태가 됩니다.

BIG-IP Next for Kubernetes 2.1은 보류 중인 요청 대기열, 키-값(KV) 캐시 사용량, GPU 부하, 비디오 랜덤 액세스 메모리(VRAM) 가용성, 전체 시스템 상태 등 실시간 NVIDIA NIM 원격 측정 데이터를 활용해 부하 분산을 지능적으로 수행합니다. BIG-IP Next for Kubernetes 2.1은 각 요청을 최적의 처리 대상으로 신속하고 스마트하게 라우팅합니다.

영향이 분명합니다:

  • 활용도를 높이면 토큰당 비용을 줄일 수 있습니다. 우리는 최적화된 GPU 활용으로 CPU 자원을 확보하고 GPU 유휴 시간을 줄입니다. 그 결과, 서버당 더 많은 테넌트를 수용하고 과도한 프로비저닝을 줄일 수 있습니다.
  • 응답 속도를 높이면 사용자가 더 만족합니다. 첫 토큰까지 걸리는 시간과 응답 지연을 줄이면 경험이 매끄러워지고, 재시도가 줄어들며 더 많이 사용하게 됩니다.
  • 더 나은 수익 창출이 확장 가능한 매출 구조를 만듭니다. 실시간으로 토큰 기반 할당량 관리와 구간별 과금 방식을 적용해 명확한 수익 경계와 예측 가능한 요금 체계를 제공합니다.

변화 속도를 따라가는 프로그래밍 가능성

지능은 효율성을 제공하지만, 프로그래밍 가능성은 통제력을 드립니다. BIG-IP Next for Kubernetes 2.1에서 F5 iRules를 통해 향상된 프로그래밍 가능성을 제공하며, 고객이 다음 기능 출시를 기다리지 않고 즉시 변화를 주도할 수 있도록 지원합니다.

오늘날 우리는 LLM 라우팅(실시간으로 모델과 버전을 넘나들며 요청을 조정하고), 토큰 거버넌스(데이터 경로에서 할당량과 과금을 직접 관리하며), MCP 트래픽 관리(AI 에이전트 간 모델 컨텍스트 프로토콜 트래픽을 확장하고 보호하는) 같은 기능에 바로 접근할 수 있습니다.

이제 시작에 불과합니다. 프로그래밍 가능성의 핵심 가치는 유연성입니다. 새로운 모델, 서비스 수준 계약, 준수 요구 사항이 생길 때마다 공급자는 기본 기능에 얽매이지 않고 자신만의 정책을 직접 설계할 수 있습니다.

BIG-IP Next for Kubernetes 2.1에 탑재된 인텔리전스와 프로그래머블 기능은 단순한 성능 향상을 넘어서, AI 인프라를 더 예측 가능하고 유연하며 비용 효율적으로 관리할 수 있도록 돕습니다.

AI 클라우드 공급업체가 컴퓨팅, AI 모델 또는 이 둘 모두를 위한 GPU 용량을 제공할 때, 과도한 인프라 구축 없이 규모를 확장하고, 복잡함 없이 수익을 창출하며, 속도 저하 없이 보안을 유지하고, 코드 수정 없이 맞춤 설정할 수 있습니다.

공급업체는 문제 해결에 쓸 시간을 줄이고 혁신과 성장에 더 집중할 수 있습니다. 고객은 더 빠르고 정확하며 신뢰할 수 있는 응답을 경험할 수 있습니다. 이런 인프라 혁신이 모든 AI 상호 작용을 자연스럽게 만들고, 사용자가 지속해서 찾게 하는 AI 경험을 제공합니다.

AI 기반 트래픽 관리를 어떻게 적용하는지 확인해 보시겠습니까?

이 짧은 데모로 BIG-IP Next for Kubernetes가 AI 워크로드를 어떻게 강화하는지 직접 확인해 보세요.

Kubernetes용 BIG-IP Next로 AI 토큰 보고 및 보안 강화
Kubernetes용 BIG-IP Next로 MCP 트래픽 확장과 관리 운영

더 자세한 내용은 F5 AI 솔루션 페이지에서 확인할 수 있습니다.