블로그

애플리케이션 상태 측정 교정의 중요성

로리 맥비티 썸네일
로리 맥비티
2020년 5월 11일 게시

최근, 저는 산호초 관리에 다시 뛰어들면서 측정을 교정하는 것의 중요성을 깨달았습니다. 애플리케이션 환경의 빠른 변화와 마찬가지로 리프 관리도 지난 5년 동안 엄청나게 바뀌었습니다. 

요즘은 자동으로 추적하고, 이상이 있으면 알려주는 연결된 모니터와 프로브를 사용하고 있습니다. 웹 및 모바일 대시보드를 통해 탱크의 상태와 탱크를 작동시키는 수많은 장치의 상태를 한 눈에 보고 모니터링하고 프로그래밍할 수 있습니다. 

눈치 빠른 독자라면 PH가 "최소 이하"인 것으로 보인다는 점을 알아차릴 것입니다. 걱정할 필요 없어요. 다 잘 될 거예요. 프로브(센서)가 제대로 보정되지 않은 것을 확인할 수 있습니다. 이는 흔한 문제입니다. 프로브를 교정하는 것은 실패가 잦은 과정입니다. 현재 저는 프로브가 낮은 수준으로 교정되어 있다는 것을 알고 있으며, 그 지식에 따라 측정값을 자동으로 조정합니다. 

산호초 탱크의 건강과 마찬가지로, 애플리케이션의 건강을 위해서는 주요 지표에 주의 깊게 주의해야 합니다. 특히 급격한 변동은 문제를 나타낼 수 있습니다. 애플리케이션과 관련해서 수동으로 메트릭을 조정하는 것은 바람직하지 않은 프로세스입니다. 수동 조정은 하나 또는 두 개의 애플리케이션에 효과적일 수 있지만, 평균적인 기업은 디지털 포트폴리오에 100~200개의 애플리케이션을 보유하고 있습니다. 일반적인 건강 패턴에 맞춰 정확한 측정값이 필요합니다.

대부분의 네트워크 및 애플리케이션 메트릭과 마찬가지로 이는 일정 기간 동안 샘플을 수집하여 "최고"와 "최저"를 학습하는 것을 의미합니다. 그런 다음 임계값을 사용하여 비정상적인 동작을 확인할 수 있습니다.

문제는 원칙이 아니라 실행입니다.

첫째, 우리는 일반적으로 하나의 측정 지점, 즉 애플리케이션에만 초점을 맞춥니다. 흥미로운 점은, 산호초 수조의 건강을 위해서는 온도와 함께 염도와 pH도 측정해야 한다는 것입니다. 왜냐하면 두 값 모두 온도의 영향을 받기 때문입니다. 애플리케이션 상태를 측정하는 것도 거의 비슷합니다. 네트워크 성능이나 부하 등과 같은 다른 측정 항목의 영향을 받습니다. 안타깝게도 대부분의 조직은 애플리케이션 상태를 전체적인 관점에서 보지 못하고 있습니다. 애플리케이션 자체는 괜찮을 수 있지만, 연결된 장치나 네트워크의 성능이 좋지 않으면 고객 경험이 형편없을 수 있습니다. 

측정 대상을 확대하여 애플리케이션 상태에 대한 관점을 넓혀야 합니다. 게다가, 무엇이 전형적인지, 무엇이 아닌지를 식별할 수 있도록 추가적인 측정값을 보정해야 합니다. "일반적이지 않은 것"은 문제를 나타내거나, 더 나쁜 경우 공격을 나타낼 수 있기 때문입니다.

두 번째로, 규모의 문제는 모니터링해야 하는 모든 애플리케이션에 대해 여러 지점에서 보정을 해야 할 필요성에서 발생합니다( 스포일러: 이것이 전부입니다 ). 운영자가 그렇게 많은 데이터 포인트를 수동으로 보정할 것이라고 기대할 수는 없습니다. 인간적으로는 불가능한 일이죠.

여기서 기계가 등장합니다.

고급 분석

고급 분석과 머신 러닝은 규모의 문제에 대한 답 중 하나입니다. 기계는 엄청난 양의 원격 측정 데이터를 놀라운 속도로 처리할 수 있고, 실제로 처리합니다. 그들은 인간으로서는 도저히 관리할 수 없는 엄청난 양의 데이터를 수집하고, 정규화하고, 패턴과 관계를 분석할 수 있습니다. 이런 방식으로 머신 러닝은 다양한 관련 데이터 포인트에서 "정상" 상태를 보정하고 문제를 나타내는 이상 패턴을 즉시 감지하는 기능을 제공합니다.

월요일 아침 로그인 급증과 애플리케이션의 성능 문제를 연관시키는 것은 어렵지 않습니다. 쉬운 일이 아닌 것은 밥이 대개 월요일 오후까지 로그인하지 않는다는 것입니다. 그리고 오늘도 그는 그렇습니다. 인간 운영자가 쉽게 알아차릴 수 없는 이상 현상인데, 그 정도의 가시성이 없기 때문입니다. 코드-고객 경험을 구성하는 애플리케이션, 클라이언트, 애플리케이션 서비스에서 충분한 원격 측정 데이터를 방출하면 고급 분석을 통해 이러한 이상을 감지 할 수 있습니다 . 또한 Bob이 실제로 로그인을 시도하고 있다는 것을 확인하기 위해 플래그를 지정하거나 새로운 비즈니스 흐름을 푸시할 수도 있습니다.

이러한 기능은 오늘날 많은 애플리케이션이 장치 수준에서 수행하는 기능과 같습니다. 많은 디지털 프로세스가 확인 코드를 입력하고 흐릿한 이미지에 있는 모든 자동차를 식별하여 인간임을 증명하도록 요구합니다. 하지만 새로운 비즈니스 흐름을 촉발하는 것은 하루 중 특이한 시간에 로그인하는 행동이 아니라 기기 세부 정보입니다. 앞으로는, 특히 분산된 인력을 계속 지원해야 하는 경우, 두 가지 모두를 기반으로 흐름을 트리거할 수 있어야 합니다.

그래서 교정은 프로세스의 중요한 부분이 됩니다. 그리고 교정은 (많은) 측정을 수행하고 "정상"이라는 결과를 도출함으로써 달성됩니다. 이 역시 인간의 규모로는 감당하기 어려운 과정이며, 기계가 막대한 양의 원격 측정 데이터를 수집하고 분석해야 합니다.

고급 분석을 통해 궁극적으로 관찰 가능성이 가능해지고, 숨겨진 애플리케이션 통찰력(DEM)을 발견하고, 보다 스마트한 앱 서비스 오케스트레이션(AI Ops)을 가능하게 하며, 이전에는 발견할 수 없었던 비즈니스 가치(AI 강화 서비스)를 창출할 수 있는 새로운 서비스가 탄생할 것입니다.

그렇게 하려면 대량의 원격 측정 데이터를 생성해서 애플리케이션, 사용자 및 그 사이의 데이터 경로에 있는 모든 것에 대한 "정상적인" 동작을 교정해야 합니다.