인공지능이 도입되었습니다: F5 2025 애플리케이션 전략 보고서에 따르면, 조사한 조직의 96%가 이미 AI 모델을 적용하고 있습니다.
AI는 조직이 더 스마트하고 빠르며 효율적으로 일할 수 있도록 돕지만, 동시에 우려와 위험도 함께 가져옵니다. 특히 머신러닝과 대규모 언어 모델(LLM)을 기반으로 하는 AI 시스템은 방대한 데이터로 구동되며, 이 데이터로 AI 모델을 학습하고 조정하며 엔진에 동력을 제공합니다. 여기에는 개인 식별 정보, 행동 패턴, 위치 데이터, 재무 및 건강 기록과 같은 민감한 정보가 포함될 수 있습니다. AI가 일상 업무에 점점 더 많이 통합됨에 따라 개인 데이터 노출이나 오용 위험도 커집니다. AI 데이터 개인정보 보호가 지금 가장 중요한 과제로 떠올랐습니다.
이 블로그 게시물에서는 AI 개인정보 보호의 개념을 살펴보고, AI가 어떻게 데이터 개인정보 위험과 문제를 발생시키는지 다룹니다. 또한 AI 개인정보 보호법을 검토하고 AI 애플리케이션에서 데이터 프라이버시를 안전하게 지키는 방법을 알려드립니다.
AI 개인정보 보호는 AI 시스템이 수집, 저장, 처리하는 데이터를 안전하게 지키는 일련의 방법입니다. AI 개인정보 보호는 개인이 자신의 데이터 통제권을 가지는 데이터 개인정보 보호와 연관되지만, 고유한 개념으로서 핵심적으로 다른 점이 있습니다.
AI 시스템은 방대한 데이터를 활용합니다. 실제로, 더 많은 데이터를 처리할수록 이 시스템은 정확성과 기능이 향상됩니다. 예를 들어, ChatGPT-4는 약 1조 8천억 개의 매개변수를 가지고 있다고 추정되며, 그렇게 많은 데이터 수집은 개인정보 보호 문제를 불러옵니다. 이 시스템들이 인터넷이나 방대한 데이터 저장소에서 가져온 대규모 데이터로 학습되기 때문에, 개인 정보가 포함되지 않았는지 확인하기 어렵고, 포함되었다면 그것이 사용될 때 동의가 이루어졌는지도 알기 힘듭니다.
또한, 데이터 수집부터 애플리케이션 제공까지 이어지는 AI 파이프라인은 대부분 자동화되어 있어, 처음부터 개인정보 보호 장치를 설계하지 않으면 데이터 프라이버시 문제를 파악하기 어렵습니다. 개발자는 잠재적 문제를 미리 예측해야 합니다. 놓치면 나중에 해결하기 어려운 심각한 개인정보 영향이 발생할 수 있기 때문입니다. 훈련 데이터셋에 개인 정보가 포함되어 있고, 해당 개인이 데이터 삭제를 요청한다면 AI 모델에 어떤 영향을 미칠까요?
AI는 본질적으로 패턴을 매우 잘 인식하여, 연결되지 않은 데이터를 조합해 한 사람의 개인 정보를 정확히 추론할 수 있습니다. AI는 단순 암기가 아니라 상관관계를 학습하기 때문에, 여러 특성과 데이터를 결합해 누군가의 신원을 추론하거나 민감한 정보를 재구성할 위험이 커집니다.
AI 시스템 데이터가 익명화되었더라도 이러한 문제는 깊은 윤리적·규제적 문제를 제기합니다.
대중은 개인정보 보호에 대해 크게 우려하지만, 스스로를 지키는 방법은 잘 모릅니다. Pew Research에 따르면 미국인의 70%는 기업이 AI를 책임감 있게 사용한다고 믿지 않으며, 81%는 기관들이 개인 정보를 불편하게 느낄 방식으로 사용할 거라고 생각합니다. 조사에서는 응답자의 78%가 자신의 판단으로 개인 정보를 잘 보호할 수 있다고 믿는 반면, 56%는 온라인 개인정보 보호정책을 미리 읽지도 않고 항상 또는 자주 동의한다고 밝혔습니다.
개인 정보를 AI가 활용하는 것에 대해선 상황에 따라 대중의 반응이 크게 다릅니다. 동일한 Pew Research 보고서에 따르면, 응답자의 단 28%만이 AI가 공공 지원 자격을 판단하는 데 사용되는 것을 수용하는 반면, 42%는 스마트 스피커가 음성을 분석해 개별 이용자를 인식하는 데에 별다른 걱정을 하지 않습니다.
조직은 AI와 데이터 개인정보 보호에 관한 규제 요건뿐 아니라 개인 정보 활용에 대한 대중의 인식과 신뢰도 함께 고려해야 합니다.
AI 시스템은 전체 수명 주기에서 데이터 개인정보 위험에 노출되므로, 윤리적이고 안전한 데이터 활용을 위해 개발과 배포 각 단계에서 이 위험을 파악하고 대응해야 합니다.
생성 AI 시스템은 텍스트, 이미지, 코드 또는 오디오를 만드는 데 사용되는 LLM과 같이 특히 높은 데이터 개인정보 위험을 동반합니다. 대다수 AI 모델은 공개 인터넷에서 무단으로 수집된 데이터 세트로 학습되며, 출처나 콘텐츠 작성자의 명확한 허가나 동의 없이 진행됩니다. 아울러, 수집된 데이터에 개인 식별 정보가 포함될 수 있어 생성 AI가 추론 시 이를 노출할 위험이 있습니다.
생성형 AI 애플리케이션, 특히 대중이 이용하는 글쓰기 도우미, 챗봇, 이미지 생성기는 대부분 웹을 통해 상호작용하고 접근할 수 있습니다. 이로 인해 공격자가 입력 내용을 조작해 모델의 동작을 왜곡하거나, 제어 장치를 우회하거나, AI가 제한되거나 부적절하거나 기밀인 내용을 생성하도록 속일 위험에 노출됩니다. 또한, 사용자가 개인 정보나 민감한 내용을 AI 도구에 붙여넣을 때, 그 내용이 AI 시스템에 저장되어 추후 AI 모델 학습이나 조정에 사용될 수 있다는 점을 인지하지 못하면, 정보가 실수로 유출될 가능성이 커집니다.
이 두 가지 요소가 만나면, 동의 없이 또는 민감한 내용으로 훈련된 LLM이 그러한 내용을 다시 생성해 개인 정보를 유출할 위험이 커집니다. 동시에 사용자가 민감한 데이터를 프롬프트에 실수로 입력하면 그 정보가 무단 접근이나 재사용에 노출될 수 있습니다.
AI 도입이 빨라지면서 정부들은 개인 정보나 민감한 데이터를 사용하거나 저장하는 AI 시스템과 관련된 데이터 프라이버시 위험을 해결하기 위해 법률을 새로 만들거나 개정하고 있습니다. 현재 144개국이 국가 차원의 데이터 프라이버시 법률을 제정했고, 미국 같은 나라는 지역별 프라이버시 법이 복합적으로 운영되고 있습니다. 이들 데이터 프라이버시 규제가 모두 AI에 특화된 것은 아니지만, 대부분의 AI 시스템은 해당 규정을 반드시 준수해야 합니다.
데이터 개인정보 보호법의 사례는 다음과 같습니다.
White & Case 법률사무소가 AI Watch를 발행합니다. Global regulatory tracker는 AI 개인정보 보호 규정을 신속하게 파악할 수 있는 훌륭한 자료입니다.
AI 시스템이 점점 복잡해지고 영향력이 커질수록 AI 전 과정에서 데이터 프라이버시를 보호하는 일이 필수적입니다. 아래 모범 사례를 따르면 규정 준수를 지키고, 사용자 신뢰를 확보하며, 위험을 줄이는 데 도움이 됩니다.
AI 전용 규정에서 공통적으로 요구하는 사항은 AI 애플리케이션을 위험 수준에 따라 분류하는 것입니다. 이 위험 기반 방법 덕분에 조직은 AI 시스템의 잠재적 영향을 고려해 적합한 보호 조치와 감시 체계를 적용할 수 있습니다.
고위험 AI 애플리케이션은 다음과 같은 사례를 포함할 수 있습니다:
미국 미국 국립표준기술연구소(NIST)는 2023년 다양한 산업과 활용 분야를 위한 실용적인 지침을 제시하는 인공지능 위험 관리 프레임워크(AI RMF)를 발표했습니다. 위험이 높은 애플리케이션 범주를 단순히 광범위하게 구분하는 대신, 위험을 진단하고 완화하는 구체적인 방법을 제공하므로, AI 애플리케이션 개발자에게 특히 유용할 것입니다.
AI RMF 코어는 AI 위험 관리를 지속적이고 순환적으로 수행하는 네 가지 주요 기능으로 구성됩니다.
AI 혁신이 빠르게 진행되면서, 기술 발전과 강력한 데이터 프라이버시 보호 사이에서 균형을 찾아야 합니다. 현행 개인정보 보호 규정은 데이터 보안과 프라이버시를 지키면서도 지속적인 혁신을 촉진하는 환경을 조성하는 것의 중요성을 명확히 인식하고 있습니다.
GDPR과 CCPA 같은 일반 데이터 개인정보 보호법은 AI 관련 새로운 규칙이 나오더라도 데이터 보호 관리를 위한 기본 틀을 제공합니다. 조직은 AI 기능이 발전하거나 새로운 활용 사례가 생길 때마다 개인정보 보호 영향을 지속해서 평가해야 합니다.
조직의 AI 개인정보 보호 사항을 꾸준히 평가하고, 변화하는 기술, 규제 요구사항, 문화적 기대에 맞춰 데이터 거버넌스 정책을 주기적으로 업데이트하세요.