블로그

F5, NVIDIA BlueField-3 DPU 기반 BIG-IP Next for Kubernetes에서 강력한 신규 AI 기능으로 혁신을 가속화

아메드 게타리 썸네일
아메드 게타리
2025년 6월 11일 게시

기업 리더들은 AI를 최우선으로 생각해야 한다는 것을 알고 있습니다. 하지만 말하기는 쉽지만 실천하기는 어렵습니다. AI는 복잡하고, 비용이 많이 들고, 위험할 수도 있습니다. 그리고 기술과 생태계 모두 빠르게 발전하고 있습니다.

첫째, 모든 사람에게 맞는 단일 접근 방식에서 벗어나는 것이 분명합니다. 예측 AI/ML, 생성 AI, 그리고 이제는 에이전트 AI가 모두 특정 산업과 애플리케이션에 맞춰 적용되고 있습니다. 특수 목적의 AI 모델이 확산됨에 따라 AI 환경도 점점 더 다양해지고 있습니다.

AI 애플리케이션에는 성능, 비용, 에너지 효율성에 최적화되었을 뿐만 아니라 빠르게 변화하는 AI 모델, 애플리케이션, 에이전트의 요구 사항을 충족할 수 있는 맞춤형 인프라가 필요하다는 점이 이제 분명해졌습니다. 그 완벽한 예가 바로 몇 달 전만 해도 존재하지 않았던 강력한 혁신 기술인 MCP(Model Context Protocol)입니다.

기업들이 생성적 AI와 점점 더 늘어나는 AI 에이전트를 활용하기 위해 경쟁함에 따라, 일부 기업은 전용 데이터 센터를 직접 구축하고 있습니다. 일부 기업은 여러 대규모 언어 모델(LLM)을 지원하도록 맞춤화된 클라우드 규모 인프라를 구축하는 전문 공급업체로 눈을 돌리고 있습니다. AI 팩토리 또는 네오클라우드라고도 불리는 이러한 플랫폼은 가속 컴퓨팅, 네트워킹, 스토리지에 막대한 투자를 했으며, 이 모든 것은 AI 워크로드의 엄청난 성능과 확장 요구 사항을 충족하도록 특별히 제작되었습니다.

주권적이고 확장 가능한 AI 및 LLM 추론 인프라를 구축하려면 다음 네 가지 핵심 과제를 해결해야 합니다.

  1. 지연 시간과 성능 – 빠르고 반응성이 뛰어난 AI는 특히 대화형 사용 사례에 필수적입니다. AI가 생각할 때까지 회전판을 응시하는 것을 좋아하는 사람은 아무도 없습니다.
  2. 데이터 보안 및 개인정보 보호 – LLM은 종종 민감한 데이터를 처리합니다. 클라우드와 온프레미스 환경의 보안 규칙과 규정 준수가 다르기 때문에 안전하고 개인적인 추론을 보장하는 것은 매우 중요하며 더욱 복잡합니다.
  3. 규정 준수 – AI가 산업 전반으로 확대됨에 따라 유럽연합의 일반 데이터 보호 규정(GDPR)과 같은 규정에서는 데이터 사용, 모델 선택, 투명성 및 공정성에 대한 엄격한 규칙을 추가합니다. 이러한 것들을 탐색하는 것이 필수적입니다.
  4. 모델 관리 및 통합 – AI 모델은 버전 관리, 모니터링, 업데이트를 포함한 지속적인 관리가 필요하며 기존 시스템과 원활하게 통합되어야 합니다. 플러그 앤 플레이는 아니지만 MCP와 같은 프로토콜을 사용하면 AI 모델이 직면한 보안 문제에도 불구하고 사용이 더욱 쉬워집니다.

업무에 가장 적합한 칩 구축

F5는 NVIDIA 와 협력하여 AI 팩토리와 클라우드 규모 AI 인프라가 최신 AI 요구 사항을 충족할 수 있도록 지원하고 있습니다. 오늘 NVIDIA GTC Paris 2025 에서 NVIDIA BlueField-3 DPU에 구축된 F5 BIG-IP Next for Kubernetes 의 새로운 기능으로 차원이 다른 혁신을 선보입니다. 이는 GTC San Jose 2025에서 소개한 향상된 성능, 멀티 테넌시, 보안을 기반으로 합니다. F5 애플리케이션 전송 및 보안 플랫폼 의 일부인 F5 BIG-IP Next for Kubernetes는 데이터 이동 및 처리를 위해 특별히 제작된 강력하고 프로그래밍 가능한 프로세서인 NVIDIA BlueField-3 에서 기본적으로 실행됩니다.

DPU는 네트워크 처리, 스토리지 관리, 보안 작업(예: 암호화 및 트래픽 모니터링)과 같은 작업을 오프로드함으로써 귀중한 CPU 사이클과 GPU 리소스를 확보하여 AI 학습 및 추론에 집중할 수 있습니다. 이를 통해 병목 현상이 줄어들고, 성능이 향상되며, 지연 시간이 개선되어 AI 팩토리가 더 빠르고 효율적으로 운영되어 더 많은 토큰을 제공할 수 있습니다.

네트워크 인터페이스 카드에 위치한 DPU는 서버 간, 외부 고객/사용자/에이전트와 AI 팩토리 간의 데이터 흐름을 관리하여 대규모 네트워킹과 보안을 조율합니다. NVIDIA BlueField-3 DPU에 배포된 F5 BIG-IP Next for Kubernetes는 4월에 일반적으로 출시되었습니다.

AI 프롬프트를 적절한 결과를 위해 적절한 위치로 라우팅

LLM은 최근 몇 달 동안 급속히 발전하여 이제는 다양한 규모, 비용, 분야별 전문 지식을 제공하고 있습니다. 각 프롬프트에 맞는 올바른 모델을 선택하면 더 나은 대응과 규정 준수가 보장될 뿐만 아니라 리소스 소비, 비용 및 지연 시간을 최적화할 수 있습니다.

오늘날 NVIDIA NIM 마이크로서비스가 통합되면서 조직은 AI 프롬프트 요청을 가장 적합한 LLM이나 각 작업에 적합한 모델에 지능적으로 라우팅할 수 있습니다. 예를 들어, 가볍고 에너지 효율적인 모델은 간단한 요청을 처리할 수 있는 반면, 더 복잡하거나 규모가 크고 특수한 프롬프트는 더 크거나 도메인별 모델로 전달됩니다.

이러한 접근 방식을 통해 AI 공장은 컴퓨팅 리소스를 더욱 효율적으로 활용하여 추론 비용을 최대 60%까지 줄일 수 있습니다. 모델 제공자와 모델 사용자 모두 더 나은 대응을 더 빠르고 저렴하게 얻을 수 있으므로, 이는 모두에게 이로운 일입니다.

더 적게 더 많이: 캐싱은 중복 계산을 제거하고 토큰 출력을 향상시킵니다.

NVIDIA는 GPU 외에도 AI 추론의 주요 과제를 해결하기 위해 소프트웨어 수준에서도 혁신을 계속하고 있습니다. 엔비디아 다이나모 NVIDIA NIM에 포함된 KV 캐시가 좋은 예입니다. NVIDIA Dynamo는 추론을 위한 분산된 서비스를 도입하여 GPU 컴퓨팅에 집중된 컨텍스트 이해(사전 채우기)와 메모리 대역폭에 집중된 응답 생성(디코드)을 여러 GPU 클러스터에서 분리합니다. 이를 통해 스케줄링, 라우팅, 메모리 관리를 효율적으로 처리하여 GPU 활용도를 높이고 데이터 센터 전반의 확장을 간소화합니다. KV 캐시는 모델 컨텍스트가 저장되고 액세스되는 방식을 최적화합니다. 자주 사용되는 데이터를 GPU 메모리에 보관하고 나머지는 CPU나 스토리지에 넘기면 메모리 병목 현상이 완화되어 추가 하드웨어가 필요 없이 더 큰 모델이나 더 많은 사용자를 지원할 수 있습니다.

Kubernetes용 BIG-IP Next의 강력한 새로운 기능 중 하나는 KV 캐싱을 지원하는 것입니다. 이 기능은 시간과 에너지 사용을 줄이는 동시에 AI 추론 속도를 높입니다. GPU 메모리 사용량 및 기타 기준과 같은 몇 가지 명시적 지표를 기반으로 하는 NVIDIA Dynamo의 지능형 라우팅과 결합하면 첫 번째 토큰까지의 시간(TTFT)이 크게 단축되고 토큰 생성이 늘어나 궁극적으로 처리량이 더욱 신속하게 이루어집니다. DeepSeek은 용량 면에서 10배에서 30배의 증가를 보였습니다.

고객은 F5 프로그래밍 기능을 사용하여 F5 BIG-IP 기능을 확장하고 조정하여 매우 높은 성능으로 정확하고 고유한 요구 사항을 충족할 수 있습니다.

MCP 운영 및 보안 강화, 그리고 안전하고 주권적인 에이전트 AI

대부분의 조직, 특히 금융 서비스, 통신 회사, 복잡한 레거시 시스템을 보유한 의료 회사와 같은 대규모 조직의 경우 에이전트 AI가 큰 매력을 지닙니다. LLM을 기반으로 하는 이러한 AI 에이전트는 복잡한 데이터베이스, 서버, 도구 및 애플리케이션을 탐색하여 정확한 정보를 검색하고 새로운 수준의 효율성과 통찰력을 제공합니다.

Anthropic이 2024년 11월에 출시한 MCP는 AI 시스템이 실제 데이터, 도구 및 서비스와 상호 작용하는 방식을 혁신하고 있습니다. 표준화된 커넥터 역할을 하는 MCP 서버는 AI 모델이 API, 데이터베이스 및 파일 시스템에 실시간으로 액세스할 수 있도록 하여 AI가 정적 학습 데이터의 한계를 극복하고 효율적으로 작업을 실행할 수 있도록 합니다. 도입이 확대됨에 따라 이러한 서버에는 부하 분산, 강력한 보안, 인증, 데이터 및 도구에 대한 권한 부여와 원활한 Kubernetes 통합을 갖춘 고급 역방향 프록시가 필요하므로 MCP는 주권적 AI 인프라의 핵심 기둥이 되고 에이전트 AI를 보호하고 활성화합니다.

NVIDIA BlueField-3 DPU에 구축된 BIG-IP Next for Kubernetes는 MCP 서버 앞에 역방향 프록시로 배포되어 MCP 서버를 확장하고 보호하며, 요청을 검증하고, 데이터를 분류하고, 무결성과 개인 정보 보호를 확인하여 조직과 LLM을 보안 위협과 데이터 유출로부터 보호합니다. F5 프로그래밍 기능을 사용하면 AI 애플리케이션이 MCP 및 기타 프로토콜의 요구 사항을 준수하는지 쉽게 확인할 수 있습니다.

토큰이 새로운 화폐라면, 토큰을 세고, 관리하고, 현명하게 사용해야 합니다.

최근 수익 발표에서 일부 주요 기관은 분기별로 생성된 토큰 수, 토큰 성장률, 토큰과 관련된 수익을 공개하기 시작했습니다. 이는 예상치 못한 비용이 발생하는 것을 피하기 위해 예산처럼 토큰 사용을 추적, 관리, 제어할 수 있는 기능에 대한 고객의 증가하는 요구를 반영합니다. 이는 퍼블릭 클라우드에서 가끔 발생하는 문제입니다.

이러한 이유로 BIG-IP Next for Kubernetes에는 이제 조직 전체의 토큰 소비를 측정하고 관리하는 새로운 기능이 포함되었습니다. 고객이 문의하면 우리는 경청하고 세심하게 대응합니다.

안전하고 빠르며, 자주적이고 유연한 AI 팩토리 구축

산업이 AI 공장을 개발하고 국가가 자체 AI를 구축함에 따라 AI 에이전트가 등장하고 있으며 인프라, 생태계, 애플리케이션은 유연하고 적응 가능해야 합니다. AI를 효율적으로 활용하는 조직은 더 빠르게 움직이고, 고객에게 더 나은 서비스를 제공하며, 비용을 절감할 수 있습니다. 하지만 이러한 잠재력을 실현하려면 AI는 혁신의 속도를 늦추지 않으면서도 안전하고 확장 가능하며 비용 효율성이 유지되어야 합니다.

여기서 F5가 등장합니다. 작년 3월에 우리는 성능, 멀티 테넌시, 보안을 제공했습니다. 이제 BIG-IP Next for Kubernetes를 통해 AI 속도로 움직이는 혁신을 실현할 수 있습니다.

우리의 약속: 달러당, 와트당 더 많은 토큰. 직접 시도해 보고 그 차이를 확인해 보세요.

2025년 GTC 파리에 참석하시나요?

F5는 NVIDIA GTC Paris 2025의 골드 스폰서가 된 것을 자랑스럽게 생각합니다. 부스 G27을 방문하여 F5 애플리케이션 전송 및 보안 플랫폼이 안전하고 고성능의 AI 인프라를 지원하는 방식을 직접 경험하고 NVIDIA와 함께 진행하는 공동 세션인 '설계에 의한 보안 인프라'에 참석해 보세요. 신뢰할 수 있는 AI 공장 구축, 6월 12일 목요일 오전 10시 CEST에. 

NVIDIA BlueField-3 DPU에 배포된 F5 BIG-IP Next for Kubernetes에 대해 자세히 알아보려면 이전 블로그 게시물을 참조하세요. 또한, 우리의 내용을 꼭 읽어보세요. 오늘 발표된 내용에 대한 보도자료입니다

F5의 AI에 대한 집중은 여기서 끝나지 않습니다. F5가 어떻게 모든 곳에서 AI 앱을 보호하고 제공하는지 살펴보세요.