AI 팩토리를 위한 네트워크 세분화의 중요성

존 그루버

2024년 12월 31일 게시

수년 동안 네트워크 세분화는 위협 격리, 서비스 품질 차별화, 사고 대응 및 분석, 규정 준수 감사 및 기타 여러 주요 상호 운용성 기능을 원활하게 하는 핵심 요소였습니다. 그런데도 우리가 제로 트러스트 원칙을 찬양하고 AI를 배포하는 데 급급한 탓에 현대 사이버 보안과 서비스 운영의 기반이 되는 네트워크 인프라의 핵심 요소를 소홀히 한 걸까요?

앞서 AI 팩토리 시리즈에서 우리는 AI 팩토리를 대용량, 고성능 학습 및 추론 요구 사항을 처리하는 대규모 저장소, 네트워킹 및 컴퓨팅 투자로 정의했습니다 . 이러한 투자 수익을 실현하기 위해 AI 팩토리는 고가의 그래픽 처리 장치(GPU) 사용을 동적으로 예약하고 이러한 훈련과 추론을 수행하기 위해 컴퓨팅합니다. GPU를 스케줄링하려면 AI 클러스터당 여러 개의 AI 서비스 "테넌트"를 설계해야 합니다. 이는 많은 운영팀이 종종 너무 늦을 때까지 알아차리지 못하는 문제를 야기합니다.

AI 팩토리 클러스터 리소스를 네트워크 세분화와 정렬

AI 클러스터 내에서 테넌트 컨텍스트를 사용하여 리소스를 논리적으로 분할하여 테넌트 할당량, 리소스 소비 한도, 호스트 시스템 보안 및 관리 역할 기반 액세스 제어(RBAC)를 적용할 수 있습니다. 그러나 테넌트 컨텍스트는 나머지 AI 팩토리 네트워크와의 AI 클러스터 트래픽 유입 및 유출을 제공하는 기본 네트워크 서비스에 노출되지 않습니다. 이러한 맥락에서 데이터 센터의 사이버 보안의 기반이 없다면 네트워크 세분화는 무의미합니다. 필요한 테넌트 컨텍스트를 노출하는 일반적인 방법은 서비스 대기 시간, 대역폭 또는 동시성에 필요한 제한 이하로 고가치 컴퓨팅 또는 느린 네트워킹 경로의 AI 팩토리를 크게 약화시킵니다. 우리는 고가치 AI 팩토리 리소스를 효율적으로 활용하는 것과 네트워크와의 적절한 테넌트 통합 사이에서 잘못된 선택에 직면합니다.

공용 클라우드 인프라에서 조정된 멀티 테넌트 네트워크 설계는 클라우드 지역의 모든 서비스의 기반이며 가상 사설 클라우드(VPC)로 구현됩니다. 이러한 가상화된 네트워크 분할은 보안과 리소스 측정에 중요합니다. 퍼블릭 클라우드 제공자는 SmartNIC 및 데이터 처리 장치 (DPU)를 비롯한 네트워크 소프트웨어 개발자 팀과 전문 네트워킹 하드웨어를 통해 이 기능을 유지 관리합니다. 퍼블릭 클라우드의 AI 팩토리 클러스터는 기본 인프라 VPC 네트워크 오케스트레이션을 활용하도록 설계되었습니다. VPC를 유지하는 데 드는 비용은 상당히 높지만, 이는 퍼블릭 클라우드 비즈니스 모델의 핵심입니다.

이런 의문이 생깁니다. 조직이 퍼블릭 클라우드 공급업체와 동일한 수준의 투자 없이 AI 팩토리 투자를 극대화하고 GPU와 컴퓨팅을 동적으로 예약하려면 어떻게 해야 할까요?

이 여정에서 업계의 첫 번째 단계는 서버 가상화를 사용하여 가상 머신(VM)을 만드는 것이었습니다. VM은 하드웨어 패스스루를 활용하여 분할된 데이터 센터 네트워크에 연결합니다. 단일 AI 클러스터에서 단일 테넌트에 대해서만 문제가 있는 경우 모든 가상 머신을 동일한 VLAN에 배치하고 정상적으로 운영을 계속하면 됩니다.

GPU 공급업체가 GPU 장치를 코어와 메모리 세트로 세분화한 다음 특정 가상 머신에 할당하는 방식을 지원하므로 VM도 GPU 분할을 처리할 수 있습니다. 그러나 GPU 장치 분할은 동적이지 않으며 VM을 다시 시작해야 합니다. 또한 이 설계는 여러 테넌트에서 측정할 수 있는 GPU 리소스 풀을 생성하는 기능을 제한합니다. 이 솔루션에는 심각한 단점이 있습니다.

멀티 테넌트 AI 팩토리 클러스터와 네트워크 세분화 정렬

더 이상 하나의 테넌트에게 서비스를 제공할 수 없게 되면 AI 팩토리 클러스터는 어떻게 되나요? 문제는 데이터 센터로 옮겨갔다. AI 팩토리 클러스터에서는 기본적으로 데이터 센터로 나가는 모든 네트워크 트래픽은 소스 네트워크 주소가 네트워크 요청을 발행하는 컨테이너화된 워크로드가 실행 중이던 개별 클러스터 노드 IP 주소로 변환(SNAT)되어 실제 소스를 효과적으로 가립니다. 그런 다음 트래픽은 해당 노드가 배포된 네트워크 세그먼트에서 발생합니다. 다중 테넌트 클러스터의 경우 이는 테넌트 컨텍스트를 잃고 여러 테넌트에서 발생하는 혼합된 유출 트래픽이 발생하여 이를 분류, 보안, 문제 해결 또는 감사할 수 없게 됩니다.

노드-그레이-수프 다이어그램

기본적으로 클러스터 테넌트 컨텍스트는 송신 시 손실됩니다.

유입 트래픽이 포함되면 이 문제는 더욱 심화됩니다. 유입 트래픽은 이미 분할된 데이터 센터에서 전송되므로 관리하기 쉽지만 단일 테넌트의 유입 트래픽과 유출 트래픽을 어떻게 연관시킬 수 있을까요? 답은 외부 데이터를 수집하고 외부 서비스를 활용하기 위해 긴밀하게 통신하는 검색 증강 생성( RAG ) 및 에이전트 서비스를 중심으로 이루어집니다. 이는 플랫폼 엔지니어와 NetOps가 고객의 문제를 식별하거나 보안 감사를 통과하려고 시도하는 팀 간 노력이 됩니다.

기업에서는 "왜 소프트웨어 정의 네트워킹(SDN) 오버레이 기술을 사용하고 하이퍼스케일러처럼 VPC 네트워크를 구축할 수 없나요?"라고 물을 수 있습니다. 물론 가능하지만, 기존 데이터 센터 인프라 대신 SDN VPC 네트워크를 유지하는 데 비용이 전가됩니다. 2계층(예: VxLAN) 세분화가 필요한 경우, 터널을 탑 오브 랙 스위칭과 오케스트레이션하고 네트워크 세분화에 맞게 해당 스위치를 프로비저닝하는 것이 문제가 됩니다. 이것이 하이퍼스케일러가 SmartNIC를 선택하고 호스트 간 수준 오케스트레이션으로 전환한 이유이며, 그로 인해 데이터 센터 네트워크는 빠르고 지능적이지 못하게 되었습니다.

대부분의 조직은 네트워크 프로그래밍 인재가 없거나 그러한 복잡한 호스트 수준 오케스트레이션을 소유하려는 의지가 없거나 단순히 서비스 품질에 필요한 백본 네트워킹 가시성을 잃을 수 없습니다. 이러한 문제에 대한 제안된 라우팅 솔루션인 3계층(예: IP)은 네트워크 팀이 모든 AI 클러스터 노드를 여러 경로 리플렉터를 사용하여 기본 IP 서브넷 테넌시를 제공하려는 데이터 센터에 대한 동적 라우팅(BGP) 피어로 만드는 방향으로 나아가게 했습니다. 이로 인해 운영자는 매우 복잡한 라우팅 문제와 보안 감사에 노출되었고 지역 전역에 중단이 발생하기도 했습니다.

AI 팩토리를 위한 클러스터 인식 조정 네트워크 세분화

AI 공장은 대역폭과 동시성 모두에서 확장 가능하며, 네트워크 기능이 풍부하고 프로그래밍 가능하며 안전하고 지연 시간이 낮은 솔루션을 계획해야 합니다. 2계층(예: VLAN, VxLAN) 및 3계층(예: 서브넷, IPSEC 인터페이스)의 테넌트 컨텍스트는 클러스터 내부에서 AI 팩토리 네트워크로 표현되어야 합니다. NetOps에서는 관찰 가능성 측정 항목, 로그 및 디버깅 도구를 사용할 수 있어야 합니다.

전통적으로 이러한 애플리케이션 테넌시 및 가시성 솔루션의 대부분은 F5 BIG-IP 에서 제공되었습니다. F5 BIG-IP 컨테이너 인그레스 서비스(CIS)는 Kubernetes 서비스를 동적으로 검색하여 이를 가상 서버로 데이터 센터에 노출합니다. 이는 BIG-IP 관리자가 물리적 서버와 가상 머신에 서비스를 구성하여 익숙해질 수 있는 구성 개체입니다. BIG-IP는 우리가 솔루션에 대해 찾고 있는 많은 요구 사항을 제공하지만 세분화를 유지하는 데 필요한 AI 클러스터에서 AI 팩토리 네트워크로의 이탈 트래픽을 관리하지 않습니다.

이 문제를 해결하기 위해 F5 BIG-IP Next for Kubernetes를 설계했습니다. 이는 차세대 플랫폼 BIG-IP Next를 기반으로 구축된 멀티 테넌트 컴퓨팅 클러스터를 위한 솔루션입니다.

노드-그레이-수프 다이어그램

Kubernetes용 BIG-IP Next를 사용하면 NetOps가 클러스터 테넌트를 네트워크 세그먼트에 연결할 수 있습니다.

Kubernetes용 BIG-IP Next는 Kubernetes 제어 평면을 통해 완벽하게 관리되며 Kubernetes 관리 인증, 선언된 모든 리소스에 대한 RBAC를 지원하고, 네임스페이스를 통해 Kubernetes 테넌시를 인식하여 수신 및 송신 트래픽에 필요한 네트워크 세분화를 지원합니다. 이는 AI 팩토리와 같은 오케스트레이션 우선 아키텍처에 중요합니다.

Kubernetes용 BIG-IP Next는 NetOps가 Kubernetes 네임스페이스와 네트워크 세그먼트 간의 매핑을 선언하는 간소화된 방법을 제공합니다. AI 팩토리 네트워크와 BIG-IP Next 인스턴스 간의 동적 경로 피어링은 익숙한 경로 구성 구문을 사용합니다. NetOps 팀은 클러스터 수신 및 송신을 위한 라이브 네트워크 스트림의 문제를 안전하게 해결할 수 있는 고유한 능력을 갖추고 있습니다. SecOps 팀은 클러스터 테넌트 유입 및 유출 방화벽 액세스 제어 목록(ACL), 분산 서비스 거부(DDoS) 및 IPS 기능을 얻습니다.

플랫폼 엔지니어링 팀의 경우, Kubernetes용 BIG-IP Next는 데이터 수신 및 송신 트래픽 처리, 소스 NAT 및 방화벽과 같은 네트워크 기능을 오프로드하여 컴퓨팅 리소스의 부담을 덜어줍니다. 이를 통해 운영 비용을 절감하는 동시에 서비스의 가용성과 효율성을 유지할 수 있습니다.

Kubernetes용 BIG-IP Next는 또한 NetOps, 플랫폼 엔지니어링, DevOps 및 MLOps에서 특정 조직 역할에 맞게 모델링된 최초의 커뮤니티 수신 API인 Kubernetes Gateway API를 지원합니다. Gateway API를 통해 BIG-IP Next for Kubernetes는 일반적인 Layer 4 포트 기반 또는 Layer 7 HTTP(S) 경로 수신 서비스를 DevOps/MLOps용 제품군으로 확장합니다. 즉, TCPRoute, UDPRoute, HTTPRoute, TLSRoute, GRPCRoute입니다. 이러한 모든 기능은 주요 AI 프레임워크의 동일한 CI/CD 자동화를 통해 제어됩니다.

관리 관점에서, BIG-IP Next for Kubernetes는 Kubernetes API 선언을 통해 NetOps, SecOps, 플랫폼 엔지니어링, DevOps 및 MLOps가 모두 효과적으로 함께 작동하도록 지원합니다. 이는 네트워크 세분화를 지원하는 동시에 Kubernetes 렌즈를 통해 BIG-IP에서 기대하는 모든 기능을 제공합니다.

DPU의 부상

AI 공장에서 데이터 처리 장치(DPU)가 기하급수적으로 인기를 얻고 있습니다. 이전 AI 팩토리 시리즈 블로그 게시물에서 정의한 바와 같이 , DPU는 네트워크 회선 속도로 하드웨어 가속을 통해 방대한 데이터 이동 및 처리를 처리하도록 설계된 프로그래밍 가능한 프로세서입니다. F5의 제품 혁신과 NVIDIA와의 협업을 통해, NVIDIA의 DOCA API를 사용하여 NVIDIA BlueField-3 DPU에 배포함으로써 네트워크 분할과 보안 기능을 지원하면서 유입 및 유출 트래픽의 데이터 흐름을 오프로드하는 Kubernetes용 BIG-IP Next를 출시했습니다. 이를 통해 AI 클러스터가 "데이터 공급"되도록 하여 AI 팩토리에 대한 투자를 극대화합니다.

F5가 구동하는 AI 팩토리

AI 공장에 투자할 때, 인프라가 최적화되고 효율적이며 확장 가능한지 확인하는 것은 협상의 여지가 없습니다. NVIDIA BlueField-3 DPU에 구축된 Kubernetes용 F5 BIG-IP Next는 동적 GPU 및 컴퓨팅 스케줄링에 필요한 네트워크 분할을 제공하는 동시에 고성능 확장성을 제공하여 AI 투자 수익을 극대화합니다. 자세한 내용을 알아보려면 F5에 문의하여 F5 계정 관리자 및 솔루션 엔지니어 또는 아키텍트에게 문의하세요.

AI 공장에 대해 자세히 알고 싶으신가요? AI 팩토리 블로그 시리즈에서 다른 시리즈를 탐색해 보세요.