IT 예산은 전략의 생존과 사망을 좌우한다고 합니다. 그렇다면 AI 전략은 여전히 건재하다는 뜻입니다.
우리의 가장 최근 연구에 따르면 조직은 평균적으로 IT 예산의 18%를 AI에만 할당하고 있습니다. 하지만 그 18%가 어떻게 할당되는지 보면 AI에 대한 전략을 엿볼 수 있습니다.
현재 AI 예산의 약 18%는 AI 서비스, 즉 어떤 종류의 AI 툴을 통합하거나 제공하는 타사 애플리케이션에 사용됩니다. 나머지는 모델(19%), 개발(16%), 보안(9%), 데이터 기술(11%), GPU(9%)에 사용됩니다.
훈련(50%)과 추론(50%)에 동일한 비용이 분배된다는 점, 그리고 AI가 퍼블릭 클라우드(80%)와 온프레미스(54%)에 분산될 것이라는 사실을 종합해 보면, 조직들이 AI 수명 주기 전체를 지원하기 위해 인프라에 상당한 변화를 계획하고 있다고 추측할 수 있습니다.
그러한 지원에는 네트워크를 새로운 시각으로 보는 것이 필요합니다.
학습과 추론을 모두 지원하는 인프라를 구축하려면 Kubernetes와 같은 최신 애플리케이션 환경과 AI 인스턴스 간, 그리고 모델과 이를 사용하는 애플리케이션 간의 트래픽이 어떻게 흐르는지에 신중하게 주의해야 합니다.
NVIDIA가 가속 기술(GPU, DPU, IPU 등)을 제공하는 유일한 업체는 아니지만, 참조 아키텍처 분야에서는 선두를 달리고 있습니다. 네트워킹과 확장성 아키텍처에 중요한 영향을 미치는 것은 바로 이러한 세부 사항입니다.
현재 업계에서는 Kubernetes에 특화된 용어 사용에 대해 상당한 우려가 있습니다. 운영자들은 포드와 클러스터의 정의를 이해하게 되었지만, 선도적인 GPU 공급업체들은 대규모 추론을 배포할 때 이러한 정의를 왜곡하고 있습니다.
예를 들어, NVIDIA는 Kubernetes 클러스터인 AI Pod를 지칭합니다. 그리고 그들은 관련 클러스터 집합을 AI 공장이라고 부릅니다.
저는 용어에 대해 논쟁하려는 것이 아닙니다. 저는 그런 논쟁에서 거의 이길 수 없습니다. 대신 저는 이러한 AI 역량의 단위와 그것이 네트워크에 의미하는 바에 초점을 맞추고 있습니다.
특히, 생성적 AI를 확장하는 데 있어 직면한 현실 중 하나는 컴퓨팅 주기에 대한 요구입니다. 구체적으로 말하면 GPU 컴퓨팅 주기입니다. 이러한 수요를 충족하려면, 특히 AI 서비스 제공업체의 경우 복잡한 AI 컴퓨팅 장치를 구축해야 합니다. NVIDIA에서는 이러한 장치를 AI 포드라고 부르지만, 다른 장치도 이에 대한 특별한 이름을 가지고 있을 것입니다. 이는 본질적으로 Kubernetes 클러스터입니다.
즉, AI 컴퓨팅 장치 내부에 많은 EW 트래픽이 발생한다는 뜻이지만, 해당 AI 컴퓨팅 장치 로 많은 NS 트래픽이 발생한다는 뜻이기도 합니다. 그리고 여기서 우리는 기존 데이터 센터 인프라와 새로운 AI 컴퓨팅 단지 간의 경계에서 상당한 변화가 일어나고 있음을 알게 되었습니다.
특히 테넌트별 네트워크 격리가 필요한 서비스 제공자의 경우 해당 경계에서 많은 작업이 진행됩니다. AI 리소스에 과부하가 걸리지 않도록 속도 제한을 포함한 L4-7 트래픽 관리에 대한 상당한 필요성도 있습니다. 또한 확장 및 배포를 위한 예상되는 로드 밸런싱과 고급 CGNAT 기능과 같은 네트워크 서비스도 있습니다.
이러한 것의 많은 부분은 생산성부터 코드 및 콘텐츠 생성, 워크플로 자동화에 이르기까지 다양한 비즈니스 사용 사례를 지원하기 위해 AI 구현을 확장하고자 하는 기업에도 필요합니다. 물론 운영에 AI를 활용하는 데 대한 관심도 커지고 있습니다. 테넌트별 격리가 엔터프라이즈 요구 사항은 아니지만 자동화 및 운영 분석과 같은 우선 순위가 높은 AI 워크로드가 우선 순위가 낮은 AI 워크로드로 인해 억제되지 않도록 하는 데 도움이 될 수 있습니다.
서비스 제공자이든 기업이든, 데이터 센터는 네트워크에서 상당한 변화를 겪게 될 것입니다. 기존 데이터 센터 아키텍처에 AI 워크로드를 삽입하면 확장이 불가능하거나 안정적으로 운영조차 할 수 없게 될 수 있습니다.
데이터 센터 아키텍처의 변경 사항을 이해하는 것은 모든 AI 워크로드와 궁극적으로 이에 의존하게 될 기업을 지원하기 위해 데이터 센터 네트워크를 현대화하는 데 필요한 기능을 제공하는 BIG-IP Next SPK 와 같은 도구와 기술을 갖는 것만큼 중요합니다.