블로그 | CTO 사무실

대부분의 누락된 통찰력은 데이터 편향으로 인해 발생합니다.

로리 맥비티 썸네일
로리 맥비티
2021년 7월 26일 게시


100명 중 단 5명만이 디지털 자산의 성능, 가용성, 보안을 추적하는 데 사용하는 수많은 모니터링 도구를 통해 필요한 통찰력을 얻고 있습니다 .

나머지 95명은요? 그들은 귀엽지만 효과적이지 못한 벤 다이어그램을 쳐다보고 있는 것과 다름없습니다.

벤 다이어그램

통찰력이 부족한 원인 중 하나는 도구 부족이나 데이터 부족이 아니라 데이터의 지속적인 편향입니다.

연속 데이터 편향

데이터 편향은 시스템 내의 의견이 엇갈린 큐레이션으로 인해 발생합니다. 의견을 바탕으로 한 큐레이션은 어떤 데이터를 어떤 시스템에서 수집할지부터, 대시보드에 시각화를 어떻게 표시할지까지 모든 것에 대한 결정의 결과입니다.

데이터 편향의 가장 중요한 원인 중 하나는 에이전트 기반 시스템의 기존 문제입니다. 이는 데이터를 수집하려는 모든 시스템에 추가 소프트웨어를 배포해야 하기 때문입니다. 에이전트는 일반적으로 분석 플랫폼과 짝을 이루며, 과거에는 이런 제품의 가격에 에이전트 비용이 포함되곤 했습니다. 물론, 대규모 배포에는 할인이 적용되지만 그래도 비용이 많이 드는 제안입니다.

에이전트를 배치하고 관리하는 데 드는 비용으로 인해 데이터를 수집할 수 있는 시스템이 제한되어 데이터 편향이 발생했습니다. 경험이 있든 없든, 주어진 애플리케이션이나 시스템을 모니터링하는 것의 가치에 대한 의견이 배포 결정을 내리는 데 영향을 미치는 경우가 많았습니다.

또한, 생성된 데이터의 양은 특정 데이터 포인트의 가치에 대한 의견에 따라 의사 결정을 내리게 하기 때문에 지속적인 편향의 원인이 됩니다. 정말 그 모든 측정 항목이 필요한가요? 아니면 3~4개로 제한하면 되나요? 의견이 엇갈린 지표 큐레이션은 전체 데이터의 변화나 변화를 검증할 방법이 없다는 것을 의미합니다. 이러한 변화나 변화는 잠재적인 문제나 위험을 나타낼 수 있지만 데이터가 중요하지 않다고 간주되어 간과되는 경우가 있습니다.

마지막으로, 대시보드 시각화에 대한 결정은 해석에 편향을 더하고, 대시보드를 사용하는 다른 사람과 공유되지 않는 기술과 경험에 기반을 두는 경우가 많습니다. 그래프를 선택하는 방식도 편향을 초래할 수 있습니다. 이는 성능이나 가동 시간과 같은 시계열 기반 운영 지표의 경우에 특히 그렇습니다.

두 개의 차트

막대형 차트는 시계열 데이터를 차트로 표현하는 데 자주 사용되지만 선형 차트만큼 영향력이 크지 않습니다. 막대형 차트는 선의 모양을 통해 무슨 일이 일어나고 있는지 보여주기보다는 막대 높이를 비교하여 반응 시간의 변화를 이해하도록 합니다. 이러한 간단한 결정은 시스템 운영 상태에 대한 통찰력을 제공하기 위해 시각화에 의존하는 운영자에게 큰 영향을 미칠 수 있습니다.

이러한 모든 결정은 데이터에 지속적으로 편견을 가져오고, 데이터를 해석하는 우리의 능력에 영향을 미칩니다. 따라서 데이터의 실제 의미에 대한 통찰력을 얻는 데에도 영향을 미칩니다.

데이터 편향 제거

디지털이 기본이 되는 세상에서 더 나은 결정을 내리려면 더 나은 데이터가 필요하며, 이는 가능한 한 많은 데이터 편향을 제거하는 것을 의미합니다.

이는 OpenTelemetry 가 매우 유망한 이유 중 하나입니다. 오픈 소스(따라서 비용이 낮거나 무료) 에이전트를 사용하여 원격 측정 데이터를 생성하고 수집하는 방식을 표준화하면 데이터 편향의 근본 원인 중 하나인 IT 예산을 제거하는 데 큰 도움이 될 것입니다. "가치 있는" 것으로 간주되는 몇몇 시스템만이 아니라 모든 시스템에서 원격 측정 데이터를 수집할 수 있도록 하면 데이터의 상당한 편향 원인을 제거할 수 있습니다. 그렇기 때문에 당사의 에지 비전에는 원격 측정 생성 기능을 플랫폼 자체에 내장하여 언제 어디서나 사용할 수 있도록 하는 개념이 포함됩니다.

서비스로서의 데이터 레이크 역시 시간이 지남에 따라 저장 용량과 비용으로 인해 큐레이션으로 인해 발생하는 편향을 해결하는 효과적인 수단이 될 수 있습니다. 규모와 용량을 아웃소싱함으로써 조직은 더 자유롭게 더 많은 원격 측정 데이터를 수집하여 성능에 영향을 미치는 이상 징후와 패턴을 더 쉽게 발견할 수 있습니다. 지난 5년 동안 우리는 이러한 서비스 메뉴가 점점 더 늘어나는 것을 보았는데, 이는 종종 XaaS 범주의 일부로 통합되어 IT 예산을 점점 더 빠른 속도로 소모하고 있습니다. Deloitte는 올해 XaaS에 대한 보고서에서 거의 절반의 기업이 IT 지출의 절반 이상을 XaaS에 할당할 것이라고 언급했습니다 .

마지막으로 시각화에서 통찰력으로 이전함으로써 운영 데이터의 대시보드 제공에 대한 편향 문제를 해결할 수 있습니다. 특정 시점에 따른 데이터 포인트의 스냅샷을 표시하는 것이 아니라, 데이터에서 발견된 패턴과 관계를 기반으로 한 정보를 제공합니다. 더욱이, 통찰력을 통해 이진 메트릭에 대한 의존으로 인해 발생하는 불필요한 화재 훈련을 없앨 수 있습니다. 현대 시스템은 자동으로 실패하고 복구되도록 만들어졌습니다. 이런 일이 발생할 때마다 알림을 받으면 경계심이 생겨 생산성이 떨어질 수 있습니다. 전체 사용자 흐름의 맥락에서 원격 측정을 분석하는 능력은 실패한 구성 요소에 개입이 필요한 경우와 그렇지 않은 경우를 이해하는 것을 의미합니다. 여러 시각화를 해석하는 모드에서 포괄적인 통찰력을 활용하는 모드로 전환하면 시각화에 내재된 편견 중 일부를 제거할 수 있습니다.

기업이 기본적으로 디지털 모델에 접근함에 따라 필연적으로 데이터에 대한 의존도가 점점 더 높아지게 됩니다. 해당 데이터의 편견을 없애는 것은 해당 데이터를 기반으로 한 의사 결정이 고객과 기업에 최선의 결과를 가져오는 데 중요한 단계가 될 것입니다.