블로그

합성 데이터로 모델 학습 가속화

크리스 포드 썸네일
크리스 포드
2025년 2월 13일 게시

F5의 AI 데이터 패브릭은 다양한 사용 사례에 대한 머신 러닝(ML) 모델의 교육과 배포를 가속화하는 데 도움이 됩니다. AI 데이터 패브릭이 해결하는 주요 과제 중 하나는 우수한 학습 데이터가 부족하다는 문제입니다. 모든 ML 이니셔티브에서 효과적인 모델을 구축하려면 데이터의 품질, 다양성, 양이 중요합니다.  

실제 데이터는 항상 ML 알고리즘을 훈련하는 데 가장 많이 사용되는 리소스였습니다. AI 데이터 패브릭은 확실히 F5의 광범위한 고객 기반의 기술적 발자취와 고품질의 실제 데이터에 대한 접근성으로부터 이점을 얻습니다. 결국, F5는 전 세계 애플리케이션의 거의 절반의 데이터 경로에 위치하고 있으며 매일 550페타바이트의 데이터가 F5 제품을 통해 흐릅니다. 

그러나 지난 몇 년 동안 합성 데이터가 매력적인 학습 데이터 소스로 등장했으며 ML 생태계에서 중요성이 빠르게 커지고 있습니다.  

합성 데이터란 무엇입니까?

합성 데이터는 실제 데이터 세트의 특성을 모방하여 인공적으로 생성된 데이터를 말합니다. 실제 데이터의 통계적 속성과 구조를 학습한 후에는 실제 데이터와 동일한 속성을 갖는 인공 데이터를 생성할 수 있습니다. 이러한 기술을 사용하면 AI 데이터 패브릭은 고객에게서 수집한 것과 유사한 엄청난 양의 데이터를 생성할 수 있습니다.  

합성 데이터를 사용하는 이유는 무엇입니까?

합성 데이터를 사용하는 데는 수많은 이점이 있습니다. 첫째, 개인정보 보호와 규정 준수가 있습니다. 합성 데이터는 민감한 정보 없이도 생성될 수 있으므로 엄격한 개인정보 보호 규정이나 보안 정책을 준수해야 하는 고객에게 매우 적합한 선택입니다. 민감한 데이터 세트의 합성 버전을 사용하면 고객 데이터를 위험에 빠뜨리지 않고 데이터를 공유하고 분석할 수 있습니다. 모델이 고객 데이터로 훈련되지 않았다는 점도 확신할 수 있습니다.

두 번째로, 실제 데이터를 다루는 데는 시간이 많이 걸리고 비용도 많이 듭니다. 엄청난 양의 데이터를 수집하고 레이블을 지정하는 것은 실질적인 부담이 되어 혁신 속도가 제한됩니다. 데이터를 생성하면 비용이 크게 절감되고 모델 개발 수명 주기가 가속화됩니다.

실제 데이터는 가용성에 따라 제약을 받을 수도 있습니다. 특히 드문 이벤트의 경우 우수한 훈련 데이터가 부족합니다. 합성 데이터는 특정 시나리오에서 격차를 메우고 소외 계층의 균형을 맞추는 데 도움이 됩니다. 예를 들어, 공격을 탐지하기 위한 데이터 세트에서는 일상적인 거래가 악의적인 거래보다 훨씬 많을 수 있습니다. 합성 데이터를 사용하면 이러한 부족을 극복할 수 있습니다. 즉, 당사 팀은 실제 데이터에 표현되지 않은 예외 사례를 테스트하고 가상 상황을 보다 쉽게 탐색할 수 있습니다.  

마지막으로 보안이 있습니다. 합성 데이터를 사용하면 적대적인 사례를 생성하여 공격에 대한 모델 보안을 테스트할 수 있습니다. 합성 데이터는 공격자가 훈련 데이터를 조작하여 AI 모델을 손상시키는 데이터 오염과 같은 공격으로부터 보호하는 데에도 도움이 됩니다.

합성 데이터의 단점

합성 데이터에는 많은 이점이 있지만 주의해야 할 점도 있습니다.  예를 들어, 합성 데이터를 생성하려면 고급 알고리즘과 높은 수준의 전문 지식이 필요합니다. 합성 데이터에도 현실성 측면에서의 문제가 있습니다. 합성 데이터로만 학습한 모델은 실제 상황에서 좋은 성능을 발휘하지 못할 수 있습니다. 훈련 데이터가 지나치게 단순해서 실제 데이터의 복잡성과 미묘함이 부족할 수도 있고, 모델이 실제 시나리오에 존재하지 않을 수 있는 합성 데이터의 패턴에 과도하게 적합할 수도 있습니다.

이러한 주의사항에도 불구하고, 합성 데이터는 실제 데이터가 부족하거나 비용이 많이 들거나 민감한 상황에서 매우 유용할 수 있습니다. 이러한 한계를 이해하고 모델 개발 프로세스에서 이를 고려한다면 합성 데이터 생성은 F5의 머신 러닝 무기고에서 강력한 도구가 됩니다. 합성 데이터는 신뢰할 수 있는 ML 모델의 형태로 고객에게 더 빠른 작업과 더 나은 결과를 제공하는 데 도움이 됩니다.