블로그

우리 자신의 폭죽에 의해 들어올려짐: 빅 더티 데이터

로리 맥비티 썸네일
로리 맥비티
2017년 8월 21일 게시

빅데이터. 비즈니스 가치 사슬 전반에 걸쳐 사물에 내장된 수백만 개의 센서와 모니터에서 매시간 생성되는 페타바이트 규모의 데이터입니다. 제조부터 배송까지, POS부터 소비자까지 전례 없는 양의 데이터가 생성되고 있습니다.

그 데이터 자체로는 아무런 의미가 없습니다. 데이터 자체는 특정 형태의 1과 0이 모여 이루어진 것으로, 앱에서 이를 해석하면 정보가 됩니다. 정보는 분석되었을 때에만 유용해지고, 실행되었을 때에만 가치가 됩니다.

사람들은 오늘 생성되는 데이터를 효과적으로 분석할 수 없으며, 앞으로 한 시간이나 하루, 일주일 동안 생성될 데이터는 더더욱 분석할 수 없습니다. 그럼에도 불구하고, 사업 결정은 점점 더 거의 실시간으로 이루어져야 합니다. 이를 달성하려면 매일 수집되는 수많은 노이즈 속에서 신호를 인식하도록 훈련된 컴퓨팅과 시스템이 필요합니다.

이는 단순한 추측이 아닙니다. " 기계 학습: 경쟁 우위를 위한 새로운 시험장 ” – MIT Technology Review Custom과 Google Cloud가 실시한 설문 조사에 따르면, 응답자의 60% 이상이 “이미 ML[머신러닝] 전략을 구현했으며, 거의 1/3이 이니셔티브가 성숙한 단계에 있다고 생각했습니다.” 그들이 이 새로운 기술에 적지 않은 투자를 하는 이유는 경쟁 우위를 확보하기 위해서입니다. "응답자에 따르면, ML의 주요 이점은 경쟁 우위를 확보할 수 있는 능력이며, 현재 ML 구현자의 26%는 이미 그 목표를 달성했다고 느꼈습니다."

이로 인한 혜택은 엄청날 것으로 예상된다.

일반적인 Fortune 1000 기업의 경우 데이터 접근성이 10%만 늘어나도 순이익이 6,500만 달러 이상 증가합니다.

빅데이터의 힘을 최대한 활용하는 소매업체는 영업 이익률을 최대 60%까지 높일 수 있습니다.

지금까지는 다 잘됐어요. 우리는 기업이 주도권을 잡고 성장할 수 있도록 하는 의사 결정을 내리기 위해 데이터를 활용하고 있습니다.

위험한 것은 어떠한 의존성에도 위험이 따른다는 것을 인식하지 못하는 데에 있다. 내가 사는 곳에 대중교통이 없기 때문에 식료품점에 가기 위해 차에 의존한다면, 그 차에 무슨 일이 일어날 위험이 있습니다. 위험이 많아요. 제 사업이 의사 결정을 위해 빅데이터에 의존한다면(전문가들의 예측을 그대로 받아들인다면 제게도 그럴 가능성이 있습니다), 그 데이터에 무슨 일이 일어날 위험이 있습니다.

이제 제가 이야기하려는 것은 명백한 데이터 손실이나 데이터 손상에 대한 것이 아닙니다. 저는 우리가 데이터의 진실성 에 두는 신뢰에서 비롯되는 더욱 교활한 위협에 대해 이야기하고 있습니다.

개인적, 업무적 삶에서 어떤 데이터에 대한 결정을 내리려면 먼저 해당 데이터의 정확성을 신뢰해야 합니다.

빅 더티 데이터

더러운 데이터는 새로운 것이 아니다. 가끔 인터넷에서 기사나 자료를 보려고 요청을 받을 때 개인 정보를 조작한 적이 있다는 걸 고백합니다. 하지만 새로운 데이터 스트림이 반드시 이런 종류의 무해한 손상으로 인해 위험에 처해 있는 것은 아닙니다. 그들은 당신의 사업을 잘못된 길로 이끌려는 악당들의 의도적인 부패로 위협받고 있습니다.

우리는 데이터에 근거하여 결정을 내리고 명백한 이질성이 나타날 때만 데이터에 의문을 제기하기 때문에 점진적인 부패의 위협에 대해서는 거의 눈이 멀었습니다. 은행 거래에서 푼돈을 횡령하는 일이 이제는 진부해진 것처럼, 데이터의 미묘한 변화는 눈에 띄지 않을 수 있습니다. 한 시장에서 제품 X에 대한 수요가 점진적으로 증가하는 것은 마케팅이나 홍보 활동의 성공으로 볼 수 있습니다. 거시경제학은 종종 다른 나라에서 제품 Y에 대한 수요가 갑자기 떨어지는 이유를 설명할 수 있습니다. 제가 제조나 유통에서 결정을 내리는 데 사용하는 데이터를 분석할 인내심과 결단력이 있다면, 귀사의 사업에 큰 영향을 미칠 수 있는 저의 능력이 발휘될 것입니다.

얼마나 중요한가? Ovum Research에 따르면, 데이터 품질이 좋지 않으면 수익이 약 30% 손실됩니다. Analytics Week에서는 나쁜 데이터의 유사한 결과를 초래하는 빅데이터 사실의 흥미로운 목록을 다음과 같이 정리했습니다.

불량한 데이터로 인해 기업은 운영 수익의 20~35%를 잃을 수 있습니다.

불량 데이터나 데이터 품질 저하로 인해 미국 기업은 매년 6,000억 달러의 손실을 입습니다.

가능성이 낮아 보이시나요? 기업 스파이 활동의 일환으로 정보를 수집하기 위한 웹 스크래핑은 실제로 존재하며, 이를 막기 위해 전담팀이 있습니다. API를 사용하면 이러한 작업이 더욱 쉬워지고 더욱 강력해집니다. 때로는 실시간으로 이루어집니다. 따라서 누군가가 의도적으로 여러분의 스트림에 나쁜 데이터를 넣을 가능성이 없다고 생각하는 것은 나쁜 행위자들이 (보통) 우리보다 두 발 앞서 있다는 현실을 고의로 무시하는 것과 같습니다.

레드락-csi-데이터

특히 많은 양의 빅데이터가 저장될 것으로 예상되는 클라우드의 보안 관행은 이러한 위협을 증폭시킵니다. Information Builders가 후원한 TDWI의 백서에는 더티 데이터로 인한 비용에 대한 더 많은 예가 나와 있습니다 . 대부분은 인수로 인한 데이터 통합에서 발생하는 일반적인 데이터 문제나 고객이 생성한 일반적인 조작된 정보와 관련이 있지만, 비용 모델은 손상되었을 수 있는 신뢰할 수 있는 데이터를 기반으로 비즈니스에 대한 위협을 이해하고 이에 대한 대처 방안을 파악하는 데 매우 중요합니다.

기본 구성에 의존한 것이 올해만 해도 여러 건의 침해 사고의 원인이 되었습니다. 1월에 있었던 MongoDB 사건을 기억하시나요? 기본 구성으로 인해 인터넷에서 관심이 있는 사람이라면 누구에게나 데이터베이스가 공개되었던 적이 있었나요? Kubernetes의 관리 콘솔 285개가 완전히 열려 있는 것을 발견한 RedLock CSI 연구는 어떨까요? 자격증이 필요하지 않습니다. 같은 보고서에 따르면 클라우드에 있는 암호화되지 않은 데이터베이스 중 31%가 인터넷에서 인바운드 연결을 허용하고 있는 것으로 나타났습니다. 곧장. 나와 당신의 데이터 사이에는 아무 것도 없습니다.

보안을 위한 아무런 노력도 하지 않아 27,000개가 넘는 데이터베이스가 인터넷을 통해 노출되어 접근 가능한 상태라면 데이터 스트림도 쉽게 오염될 수 있다고 상상할 수 있습니다. 기업이 클라우드 스토리지 서비스의 기본 보안 제어 기능을 의도적으로 제거하여 발각 및 손상에 쉽게 노출시키면, 악의적인 행위자가 더러운 데이터를 삽입할 수 있다는 개념이 가능성에서 가능성으로 떠오릅니다. 데이터에 의존하는 조직(오늘날 거의 모든 조직)은 데이터를 보호하는 방법뿐 아니라 데이터의 정확성을 검증하는 방법에도 주의를 기울여야 할 의무가 있습니다.

데이터 중심 비즈니스의 미래에서 보안은 단순히 유출을 방지하는 것 이상을 의미합니다. 침투라는 매우 현실적인 위협을 고려하고 이를 극복하는 방법도 고려해야 합니다.