Meta는 최근 Scout, Maverick, Behemoth의 LLM인 Llama 4 무리를 공개했습니다 . 이는 Scout를 포함한 1,000만 개의 토큰 컨텍스트 창을 특징으로 합니다. 얼마 지나지 않아 X, LinkedIn 및 기타 포럼에서 검색 증강 생성 (RAG)이 더 이상 필요 없게 되었다는 의견이 힘을 얻었으며, 너무 광범위한 컨텍스트 창이 RAG를 쓸모없게 만들 수 있다는 의견이 힘을 얻었습니다. 그러나 컨텍스트 창의 미묘한 차이, 끊임없이 변화하는 기업 데이터, 분산 데이터 저장소, 규제 문제, 모델 성능, 엔터프라이즈 규모 AI 애플리케이션의 관련성을 감안할 때 RAG가 계속해서 기본적인 생성 AI 설계 패턴으로 사용될 것으로 믿습니다.
Llama 4가 1,000만 개의 토큰 컨텍스트 창을 지원하는 데 성공했음에도 불구하고 RAG는 여전히 엔터프라이즈 AI 애플리케이션의 핵심 구성 요소입니다. 기업은 종종 분산 시스템에 저장된 동적이고 끊임없이 변화하는 데이터 세트를 사용하여 운영합니다. RAG를 사용하면 모델이 이러한 방대한 데이터 저장소에서 가장 최신의 관련성 있는 정보를 실시간으로 가져와 통합할 수 있으므로 AI 출력이 정확하고 상황에 맞게 관련성이 있는지 확인할 수 있습니다. 이러한 모든 결과는 조직, 팀 또는 사용자에 따라 매우 고유합니다. 고객 지원, 시장 분석, 지식 기반 등 최신 지식이 필요한 애플리케이션에는 실시간 검색이 필수적입니다.
외부 검색 없이 대규모 컨텍스트 창에만 의존하는 것은 비효율적일 뿐만 아니라 보안상 위험할 수도 있습니다. 데이터가 지속적으로 모델에 입력되면 해당 데이터에 누가 액세스할 수 있는지, 데이터가 안전하게 저장되었는지, 로그나 모델 출력을 통해 데이터가 어떻게 부주의하게 노출될 수 있는지 제어하기가 더 어려워집니다. 데이터 볼륨이 증가함에 따라 내부 위협, 악의적인 메시지 또는 실수로 인한 누출이 발생할 가능성이 높아지고, 조직은 기밀 기록을 잘못 처리하면 개인 정보 보호 또는 규정 준수 의무를 위반할 위험이 있습니다.
RAG를 도입함으로써 기업은 각 쿼리에 대해 가장 관련성 있는 데이터만 검색할 수 있으며, 종종 높은 상관관계가 있는 데이터 선택이 필요한 지역 및 업계별 규제 제약에 맞춰 조정할 수 있습니다. 이러한 접근 방식은 역할 기반 액세스 제어, 전송 중 암호화, 세부적인 감사 메커니즘과 같은 정책의 일관된 시행을 보장하는 동시에 공격 표면을 줄여줍니다. 이러한 선택적 검색은 계산 오버헤드를 줄일 뿐만 아니라 추론 시점에 필요한 것만으로 민감한 자산의 노출을 제한하여 강력한 보안 태세를 강화합니다.
LLM에서 컨텍스트 창은 모델이 단일 입력에서 처리할 수 있는 최대 토큰 수를 나타냅니다. 이 창을 확장하면 모델은 더 광범위한 정보를 동시에 고려할 수 있어 더욱 자세한 대화, 포괄적인 분석, 향상된 개인화가 가능합니다. 관점을 위해, 10만 개의 토큰으로 구성된 원시 텍스트의 크기는 약 325KB이고, 1,000만 개의 토큰 컨텍스트는 약 32MB의 텍스트 데이터와 같습니다. 이 기능을 통해 Llama 4 Scout는 단일 쿼리로 대량의 정보를 처리할 수 있습니다.
확장된 컨텍스트 창은 한 번에 더 많은 데이터를 처리할 수 있다는 장점이 있지만, 모델 성능, 정확도, 효율성과 관련된 과제가 발생합니다. 수백만 개의 토큰을 처리하려면 상당한 컴퓨팅 리소스가 필요하므로 지연 시간이 늘어나고 운영 비용도 증가합니다. 컨텍스트 길이가 길어짐에 따라 모델은 전체 입력에 걸쳐 주의와 관련성을 유지하는 데 어려움을 겪을 수 있으며, 이는 잠재적으로 AI 출력의 품질에 영향을 미칠 수 있습니다. 이 주제에 대해 저자이자 인정받는 AI 전문가인 Andriy Burkov 박사 는 X에 "선언된 10M 컨텍스트는 256k 토큰보다 긴 프롬프트에 대해 모델을 훈련하지 않았기 때문에 가상입니다. 즉, 256,000개 이상의 토큰을 보내면 대부분 품질이 낮은 출력을 받게 됩니다."
더 큰 컨텍스트 창이 새로운 기회를 제공하지만, 성능과 리소스 활용도의 균형을 맞추는 것이 중요합니다. 가장 이상적인 시나리오는 모든 관련 정보를 제공하지만 불필요한 정보는 제공하지 않는 것입니다. 사실, 일부 연구에 따르면 사람과 마찬가지로 LLM에 너무 많은 정보를 제공하면 식별하고 집중하는 능력이 저하되는 것으로 나타났습니다. 관심 있는 분들을 위해 백서 Lost in the Middle을 소개합니다. 언어 모델이 긴 컨텍스트를 사용하는 방식에서는 이 주제를 심도 있게 살펴봅니다.
많은 기업이 전송 중인 데이터의 성능이나 보안을 손상시키지 않고 광범위하게 분산된 수백 또는 수천 개의 데이터 저장소를 RAG에 안전하게 연결하는 것을 어려워합니다. 온프레미스, 하이브리드 및 멀티클라우드 기반 스토리지 위치를 통합하는 과제에는 F5 Distributed Cloud Services 에서 제공하는 것과 같은 고성능 글로벌 상호 연결 패브릭이 필요합니다. 통합 WAF와 정책 기반 제어를 사용하여 권한이 있는 LLM 엔드포인트만 데이터에 액세스할 수 있도록 보장함으로써 기업은 여러 게이트웨이나 VPN을 관리하는 데 따르는 위험과 오버헤드를 크게 줄일 수 있습니다.
F5 Distributed Cloud Network Connect는 네트워킹과 보안에 대한 통합된 접근 방식을 제공함으로써 RAG 구현을 간소화하고, 조직이 분산된 데이터 소스를 원활하게 연결하여 보다 정확하고 시기적절한 LLM 기반 출력을 얻을 수 있도록 지원합니다. 또한 F5 AI Gateway를 사용하면 조직은 데이터 보안 경계를 위반할 수 있는 즉각적인 주입 공격으로부터 보호하여 추론 시점에 심층 방어 방식을 보장할 수 있습니다.
광범위한 컨텍스트 창을 갖춘 Llama 4 Scout와 같은 모델을 배포하려면 견고하고 효율적인 인프라가 필요합니다. 대량의 데이터 처리량을 관리할 수 있는 고성능 프록시는 낮은 지연 시간을 유지하고 원활한 운영을 보장하는 데 필수적입니다. NVIDIA BlueField-3 DPU에 구축된 F5 BIG-IP Next for Kubernetes는 이러한 맥락에서 매력적인 솔루션을 제공하며, 클라우드 규모 AI 인프라와 AI 팩토리 에 맞춰 설계된 고성능 트래픽 관리 및 보안을 제공합니다.
데이터 집약적 작업을 DPU 로 오프로드함으로써 CPU 리소스가 핵심 애플리케이션 프로세스에 할당되어 전반적인 시스템 효율성이 향상됩니다. 멀티 테넌시 지원을 통해 여러 AI 워크로드가 동일한 인프라 내에서 안전하고 효율적으로 작동할 수 있으며, 이는 AI 클라우드, 하이퍼스케일러 및 서비스 제공자와 잘 맞습니다. 이러한 기능은 최적의 성능과 보안을 유지하면서 광범위한 컨텍스트 창을 갖춘 모델을 활용하려는 AI 팩토리에 꼭 필요합니다.
또 다른 중요한 고려 사항은 크고 변동성이 큰 컨텍스트 창이 리소스 소비에 상당한 변동을 일으킬 수 있다는 것입니다. 이를 통해 사용 가능한 컴퓨팅 용량에 맞춰 들어오는 요청을 지능적으로 균형 있게 조정하는 데 더 큰 중점을 둡니다. 고급 적응형 부하 분산 솔루션은 이러한 대규모 쿼리를 여러 클러스터나 지역에 분산하여 병목 현상을 완화하고 복잡한 AI 배포에서 전반적인 성능을 유지하는 데 도움이 되며, 컴퓨팅 비용을 직접적으로 줄이지는 않더라도 마찬가지입니다.
RAG는 컨텍스트 창의 크기 조정을 넘어서는 이유로 과거와 마찬가지로 오늘날에도 여전히 관련성이 높습니다. 가장 중요한 이점 중 하나는 사용자의 접근 권한에 따라 데이터 검색을 맞춤 설정할 수 있다는 것입니다. 또 다른 장점은 모델을 재교육하거나 미세 조정하지 않고도 적시에 정보를 통합할 수 있는 기능입니다. 특히 기업에서 AI 모델과 통합하려는 기업 데이터의 규모가 테라바이트 또는 페타바이트에 달하는 경우가 많기 때문에 이러한 점은 매우 중요합니다.
Llama 4 Scout의 1,000만 토큰 컨텍스트 윈도우와 같이 컨텍스트 윈도우 크기를 늘리는 인상적인 혁신은 LLM에 있어서 큰 진전이지만, 컨텍스트는 여전히 신중하게 사용해야 합니다. 컨텍스트 크기가 크면 비용과 지연 시간이 늘어나고, 어떤 경우에는 최종 응답의 품질이 떨어질 수도 있습니다. 조직이 AI 애플리케이션을 확장할 때 높은 성능을 보장하는 데 필요한 견고한 인프라와 보안 제어도 마찬가지로 중요합니다.
F5의 AI에 대한 집중은 여기서 끝나지 않습니다. F5가 모든 곳에서 AI 앱을 보호하고 제공하는 방법을 살펴보세요.