정보를 판매하여 생계를 유지하는 전문가가 있다고 상상해보세요. 사람들은 당신에게 질문하기 위해 돈을 지불합니다. 갑자기, 기계가 여러분의 마음에서 전문 지식을 빨아들이고, 여러분보다 더 빨리 질문에 답하는 법을 배우고, 여러분의 생계를 앗아갑니다. 생성적 AI의 등장 으로, 콘텐츠에 의존하는 사업 모델을 가진 기업은 바로 이러한 딜레마에 직면하게 되었습니다.
Gen AI가 우리를 어디로 데려갈지는 알 수 없지만, 확실히 이는 우리가 콘텐츠를 소비하는 방식을 바꾸어 놓을 것이고, 그렇게 하면서 콘텐츠 배포에 의존하는 기업들을 붕괴시킬 것입니다. 이는 인터넷이 뉴스와 엔터테인먼트 소비 방식을 바꾸어 놓고 많은 기존 뉴스 매체를 황폐화시킨 것과 유사합니다.
Gen AI 혁신은 미디어, 뉴스, 스톡 사진 등 콘텐츠를 판매하는 기업은 물론, 유료 광고로 시청자를 유치하기 위해 콘텐츠에 의존하는 기업에도 영향을 미칠 것입니다. 또한 이러한 혼란은 제품과 서비스를 홍보하기 위해 잠재 고객을 유치하거나, 브랜드 정체성과 고객 관계를 구축하거나, 행동 촉구로 고객을 움직이는 기업에도 영향을 미칠 것입니다.
검색을 위한 콘텐츠 크롤링은 웹의 초창기에 탄생했지만 ChatGPT와 같은 LLM 기반 앱은 근본적으로 다른 방식으로 작동합니다. 검색 엔진은 원본 콘텐츠로 돌아가는 링크가 포함된 요약을 제공함으로써 콘텐츠를 검색 가능하게 만들어 가치를 더합니다. 반면, LLM을 기반으로 하는 채팅 기반 앱은 반드시 원본 콘텐츠로 돌아갈 수 있는 링크를 제공하지 않습니다. 오히려 사용자가 채팅에 머물러 추가 프롬프트를 통해 더 많은 정보를 얻도록 유도하며, 콘텐츠를 만든 기업의 모든 가치를 낭비합니다.
조직은 크롤러의 범위를 선언하는 데 사용되는 robots.txt 파일에만 의존할 수 없습니다 . LLM 교육을 위한 콘텐츠를 크롤링하는 모든 조직이 robots.txt 파일을 존중하지는 않기 때문입니다. LLM이 단순히 콘텐츠를 복사하고 재생산하는 것인지, 아니면 다른 창작자처럼 콘텐츠를 합성하는 것인지는 논란 의 여지가 있습니다. 현재 법원에서는 저작권법이 LLM 스크래핑에 미치는 영향에 대해 논의 하고 있습니다. 법률과 규범이 어떻게 발전할지는 알 수 없지만, 기업은 지금부터 자사가 운영하는 비즈니스에서 의존하는 콘텐츠를 보호하는 방법에 대해 생각해야 합니다.
스크래핑은 완화될 수 있지만 쉽지는 않습니다. 사실 이는 새로운 문제가 아니다. 스크래퍼는 요금, 가격 및 요금 스크래핑을 통해 항공사 , 소매 체인 및 호텔에 대한 경쟁 데이터를 수집하려고 했습니다. 이러한 기업들은 경쟁 데이터의 손실을 피하고 싶어할 뿐만 아니라, 스크래퍼의 트래픽 부하(특히 최신 데이터를 찾는 경우)가 어떤 경우에는 사이트로 들어오는 모든 트래픽의 최대 98%를 차지하여 성능에 영향을 미치고 심지어 사이트가 중단될 수도 있습니다.
스크래퍼는 봇을 사용하여 데이터 수집을 자동화합니다. 안타깝게도 CAPTCHA나 IP 주소 거부 목록과 같은 봇을 완화하는 기존 메커니즘은 스크래퍼 봇에 대항하여 효과적 이지 않습니다. 스크래핑은 일반적으로 합법적인 것으로 간주되므로, CAPTCHA를 우회하기 위한 온라인 서비스가 많이 있습니다. CAPTCHA를 풀기 위해 머신 러닝이나 클릭 팜을 사용하는 이런 서비스는 빠르고 저렴하며, 대부분의 사람들이 성가신 퍼즐을 푸는 것보다 훨씬 더 효율적입니다. CAPTCHA의 가장 쉬운 대안인 IP 차단 목록은 스크래퍼가 이용할 수 있는 서비스로 인해 효과적이지 않습니다. 이러한 서비스를 이용하면 스크래퍼가 수천만 개의 주거용 IP 주소를 통해 요청을 발행할 수 있습니다. IP 주소의 숫자가 너무 많아서 거부 목록을 유지하는 것만으로는 전혀 불가능합니다.
여러 전문화된 봇 관리 솔루션조차도 신호 수집을 위한 계측에 의존하기 때문에 스크래핑에 어려움을 겪습니다. 대표적인 예가 로그인이다. 브라우저는 먼저 HTTP GET 요청을 보내 로그인 양식이 포함된 웹 페이지를 검색합니다. 해당 페이지에서 JavaScript는 백그라운드에서 실행되어 브라우저와 사용자의 타이핑 및 마우스 움직임 패턴에 대한 데이터를 수집합니다. 사용자가 자격 증명을 제출하면 JavaScript가 신호 데이터를 HTTP POST 요청에 삽입하고, 역방향 프록시 역할을 하는 봇 관리 솔루션이 이를 가로채서 분석하여 요청을 하는 에이전트가 봇인지 확인합니다.
그러나 많은 콘텐츠 사이트에서는 블로그 게시물, 뉴스 항목 또는 가격 등 콘텐츠에 액세스하는 데 GET과 POST를 조합할 필요가 없습니다. 오히려 단일 HTTP GET 요청은 스크래퍼가 원하는 모든 것을 반환하므로 계측의 가능성이 사라집니다.
우리는 많은 봇 관리 솔루션이 스크래핑을 보호하지 못한다는 것을 알고 있습니다. 스크래핑 콘텐츠에 대한 쉬운 API 액세스를 제공하는 여러 서비스 가 있기 때문입니다. 젠로우즈예를 들어, 우회할 수 있는 봇 방지 공급업체를 나열합니다.
다행히도 F5 Distributed Cloud Bot Defense는 인터스티셜이라는 기술을 통해 이 문제를 해결합니다. 인터스티셜은 빠르게 로드되고, 빠르게 데이터를 수집한 다음 요청된 페이지의 콘텐츠를 로드하는 페이지입니다. 수년간 대형 항공사와 소매업체의 스크래핑 행위를 방어해 온 F5는 이 기술을 빠르고 효율적이며 효과적으로 개선해 왔습니다. 에이전트가 인간으로 식별되면 리플레이 남용을 방지하는 것을 제외하고는 추가 검사가 불필요하므로, 중간 광고는 사용자 세션당 한 번만 실행됩니다.
가장 효과적인 봇 관리 솔루션인 Distributed Cloud Bot Defense는 콘텐츠 제작자에게 LLM 모델 구축을 위한 콘텐츠 스크래핑에 대한 최상의 방어 수단을 제공합니다. 콘텐츠와 비즈니스를 보호하려는 조직의 경우 Distributed Cloud Bot Defense가 가장 좋은 옵션을 제공합니다.