F5 용어집

스크래핑

스크래핑이란 무엇인가요?

스크래핑은 웹 스크래핑이라고도 하며, 웹사이트의 콘텐츠에서 특정 정보를 추출하고 수집하는 기술이나 관행을 말합니다. "스크래핑(scraping)"이라는 용어는 영어 단어 "scrape"에서 유래되었는데, "긁어내다" 또는 "제거하다"라는 뜻입니다. 웹사이트의 경우 스크래핑은 사이트에서 정보를 추출하는 것을 의미합니다.

웹 스크래핑은 웹사이트의 눈에 보이는 요소뿐만 아니라 웹사이트 내에 저장된 숨겨진 데이터도 타겟으로 삼을 수 있습니다. 여기에는 텍스트, 이미지, 비디오, HTML 코드, CSS 코드 등이 포함됩니다. 추출은 일반적으로 컴퓨터 프로그램이나 봇에 의해 수행되는데, 이는 마치 인간 사용자인 것처럼 웹사이트와 상호 작용합니다. 수집된 데이터는 처리되어 다양한 목적으로 사용됩니다.

스크래핑 대 크롤링

스크래핑은 종종 웹사이트와 관련된 또 다른 기술인 크롤링과 혼동됩니다. 크롤링은 포괄적인 데이터 수집을 위해 웹사이트의 HTML 소스를 체계적으로 탐색하는 것을 말하며, 종종 사이트를 "탐색"하는 것을 강조합니다. 이와 대조적으로 스크래핑은 구체적이고 필수적인 정보를 추출하는 데 중점을 둡니다. 예를 들어, Google의 검색 엔진은 크롤러를 사용하여 웹 페이지를 색인화하는데, 이는 크롤링의 대표적인 예입니다.

웹 스크래핑 사용 사례

웹 스크래핑의 일반적인 사용 사례는 다음과 같습니다.

  • 연락처 정보 수집: 마케팅 목록에 사용하기 위해 전자상거래 또는 구독 웹사이트의 멤버십 데이터베이스에 저장된 전화번호와 이메일 주소를 추출합니다.
  • 검색 순위 모니터링: Google과 같은 검색 엔진에서 회사 웹사이트의 특정 페이지가 어떤 순위를 차지하고 있는지 확인하고 이를 경쟁사의 순위와 비교합니다.
  • 제품 가격 및 리뷰 수집: 경쟁 분석을 위해 전자상거래 웹사이트에서 제품 이름, 가격, 리뷰를 추출합니다.
  • 동적 데이터 수집: 호텔 예약 가능 여부, 경매 가격 변동, 주가 등의 실시간 정보를 수집하여 새로운 콘텐츠나 서비스를 만듭니다.

웹 스크래핑으로 인해 발생하는 위협

웹 스크래핑은 합법적인 사용 사례가 있지만, 악의적으로 악용될 수도 있으며, 개인 정보 오용 및 보안 침해와 같은 위험을 웹사이트 운영자에게 초래할 수 있습니다. 일반적인 위협은 다음과 같습니다.

  • 무단 데이터 업로드를 통한 저작권 침해: 허가 없이 웹사이트에서 원본 이미지나 콘텐츠를 스크래핑하여 다른 사이트에 업로드하는 것은 저작권, 개인정보 보호 및 지적 재산권을 침해할 수 있습니다.
  • 과도한 모니터링과 사업 중단: 경쟁사 웹사이트를 과도하게 스크래핑하면 시스템 성능이 저하되거나 정상적인 탐색 및 거래가 중단될 수 있습니다. 어떤 경우에는 악의적인 스크래핑의 목적이 시스템 운영 비용을 증가시키는 것입니다.
  • 피싱 사기: 스크래핑된 웹사이트 데이터는 원래 웹사이트를 모방한 가짜 피싱 사이트를 만드는 데 사용되어, 사용자가 신용카드 정보와 같은 민감한 정보를 입력하도록 속일 수 있습니다.

웹 스크래핑으로 인한 위협 방지

웹 운영자는 스크래핑 위협에 대한 대책을 적극적으로 시행해야 합니다. 주요 방법은 다음과 같습니다.

  • 봇 관리 시스템 구현: 웹사이트나 웹 애플리케이션에서 데이터를 수집하려는 자동화된 봇을 탐지하고 차단하는 시스템을 구축합니다. 일부 시스템에서는 봇이 데이터를 추출하는 것을 특별히 차단하여 스크래퍼가 봇을 사용하여 데이터를 수집하는 것을 불가능하게 만듭니다.
  • 속도 제한 및 데이터 제한:
    • 속도 제한: 특정 기간 내에 사용자가 수행할 수 있는 작업 수를 제한합니다. 예를 들어, 비정상적으로 빠른 콘텐츠 요청은 봇 활동으로 표시되어 제한될 수 있습니다.
    • 데이터 제한: 사용자가 사이트에서 추출할 수 있는 데이터 양을 제한하여 정상적인 접근을 허용하는 동시에 과도한 데이터 수집을 방지합니다.