블로그

COVID-19 위기 동안 네트워크 PoP를 원격으로 배포한 방법

니코 카트론 썸네일
니코 카트론
2020년 5월 19일 게시

SaaS 기반 제어 평면의 일부로, 우리는 PoP 간에 여러 개의 100G 및 400G 링크를 사용하여 자체 글로벌 백본(AS35280)을 구축하고 운영했습니다.

이런 방식으로 우리는 지역 에지 간의 엔드투엔드 연결을 완벽하게 제어할 수 있을 뿐만 아니라, 프라이빗 데이터 센터, 에지 사이트, 퍼블릭 클라우드 VPC(AWS, Azure, GCP) 및 SaaS 공급업체 전반에서 고객에게 동일한 고성능 연결과 낮은 대기 시간을 제공할 수 있습니다.

팝-블로그-1
Volterra 글로벌 인프라 및 프라이빗 백본

요구사항

우리의 유럽 사업 영역은 이미 파리, 런던, 암스테르담, 프랑크푸르트에 꽤 많이 있었지만, 기존 고객과 신규 고객을 위해 포르투갈 리스본에 새로운 PoP가 필요했습니다.

이 모든 사항은 2020년 초에 합의되었으며, 배포는 2020년 3분기에 계획되었습니다. 물론, 이건 코로나19 이전 이야기예요 :)

위기로 인해 우리 백본에는 훨씬 많은 트래픽(그리고 DDoS 공격도 있었지만 이에 대해서는 향후 블로그 게시물에서 자세히 설명하겠습니다)이 발생했고, 고객들도 마찬가지였습니다.

그들은 PoP가 최대한 빨리 필요했기 때문에 3분기 전에 배치해 달라고 요청했습니다. 더 정확히 말하면 5월 말까지요. 그리고 Volterra의 우리는 친절한 사람들이고 도전을 좋아하기 때문에 고객 수요를 충족하는 데 필요한 시간을 신중하게 살펴보았습니다.

  • 배포하고 테스트하는 데 최소 2주가 걸렸습니다.
  • 그리고 검증하는 데 일주일이 걸립니다

4월 초순이라는 걸 알고 있었기에 상황이 좋아 보였고, 실제로는 다음과 같은 이유로 프로젝트를 계속 진행하여 시작하기로 결정했습니다.

  • 여행 금지,
  • 데이터센터 접근 불가
  • 글로벌 부품 부족
  • 건강에 대한 위험은 말할 것도 없고요.

무엇이 필요한가?

새로운 PoP를 구축하는 것은 라우터, 스위치, 케이블만을 다루는 것이 아닙니다. 또한 다음이 필요합니다.

  • 네트워크 엔지니어링을 수행하여 파도에 가장 적합한 위치와 공급자를 선택합니다.
  • 선택한 데이터 센터(이 경우 Equinix LS1)와 거래/협상을 진행합니다.
  • 피어링 포트를 보호하기 위해 IXP와 거래합니다.
  • 물론 관련 하드웨어/자재(라우터, 스위치, 케이블, 방화벽 등)를 주문합니다.

우리가 어떻게 했는지

계속되는 위기로 인해 필요한 하드웨어를 제때 확보하는 것이 불가능했습니다. 그래서 우리는 연구실에 있던 재료 중 일부를 재활용하기로 했습니다. 이는 수용 가능한 타협이었습니다(예: 계획된 MX10K 대신 Juniper QFX10K를 라우터로 사용).

일반적으로 데이터 센터에서 하는 스테이징(전력과 랙 공간이 필요하고…소음도 있기 때문에!)을 봉쇄로 인해 집에서 해야 합니다. 인프라 부문 CTO인 라파엘은 사무실이 충분히 넓어서(60암페어 계약 포함, 최대 16암페어를 사용하는 장비를 부팅/전원 공급할 때 유용할 수 있음!) 모든 스테이징을 혼자 해낼 수 있었고, 다른 직원이 개입하거나 나가야 하는 상황도 피할 수 있었습니다.

팝-블로그-2
준비 및 스테이징

모든 것이 구성되고 여러 번 테스트된 후, 우리는 리스본으로 배송했습니다.

팝-블로그-3
배송 준비 완료!

Equinix remote-hands의 리스본 랙 설치

우리가 한 설정에 자신감이 있었고(어쨌든 OOB나 백본을 통한 원격 액세스가 가능했음) 새로운 PoP를 우리가 직접 배포하지 않고 다른 사람이 배포한 것은 이번이 처음이었습니다 😅

팝-블로그-4
우리 랙 중 하나가 이미 배치됨

우리는 전 세계적으로 동일한 랙 디자인을 사용하며, 이 새로운 리스본 PoP에서도 일관성을 유지하고 동일한 설정을 갖는 것이 목표였습니다.

그래서 우리는 Equinix 원격 작업자가 따라할 수 있도록 지침을 매우 정확하게 제공해야 했고 그저 "가이드를 따르기만 하면" 되었습니다.

아래는 Equinix에 보낸 절차의 일부로, 이를 통해 모든 것을 쉽게 랙에 올리고 연결할 수 있습니다.

처리해야 할 구성 요소가 많습니다. 하드웨어 장치(라우터, 스위치, 방화벽, 서버)뿐만 아니라 케이블 연결, 그리고 더 중요한 것은 케이블을 연결하는 스위치와 서버 포트가 필요합니다.

팝-블로그-5

아래에서 볼 수 있듯이, 절차는 최대한 자세하게 설명되어 있으며, Equinix 기술자는 설치해야 할 작업이 많기 때문에 더 정확할수록 더 좋습니다!

팝-블로그-6

효과가 있었나요?

예! 5월 5일에 설치가 시작되었고, 모든 장치가 랙에 장착되고 전원이 공급되었으며 하드웨어 오류는 없었습니다. 우리는 운이 좋았거나, 아니면 우리의 경험 덕분에 운송 및 포장이 제대로 이루어졌거나, 아니면 둘 다였을 수도 있지만, 어쨌든 모든 것이 잘 작동했습니다.

다음 날, Equinix 기술자가 케이블(구리/광섬유) 설치를 마쳤고, 오후 11시 30분에 파리에서 리스본 PoP로 ping을 보낼 수 있었습니다!

설치는 5월 7일에 완료되었으며, PDU 구성, OOB 포트의 교차 연결, IXP 포트의 종단 간 확인 등의 마지막 작업을 수행해야 했습니다. 심지어 스위치/방화벽 구성도 완벽하게 작동했고, Equinix에 구성 변경을 요청할 필요가 없었습니다.

최종 설치는 다음과 같습니다.

팝-블로그-7

우리는 매우 까다롭기 때문에 100% 만족할 수는 없습니다. 예를 들어 랙의 뒷면 패널이 원하는 만큼 깨끗하지 않습니다. 하지만 위기가 진정되고 포르투갈로 다시 여행할 수 있게 되면 이 문제를 해결할 것입니다.

"사후 분석" - 무엇이 효과가 있었는지, 왜 효과가 있었는지, 무엇을 개선할 수 있는지

우리는 도전을 이겨낸 것을 매우 기쁘고 자랑스럽게 생각하지만, 무엇이 효과가 있었는지, 특히 무엇을 개선할 수 있을지 한 걸음 물러서서 돌아보고 싶습니다.

효과가 있었던 것:

  • Equinix: 상황이 잘못되었을 때 공급업체에 알리는 것은 중요하지만, 상황이 순조롭고 그 이상일 때 알리는 것이 더 중요합니다. 이번 경우가 그렇습니다. 영업 및 고위 경영진부터 데이터센터 기술자까지, 우리가 받은 지원과 반응성은 정말 놀라웠습니다. 특히 어려운 시기에 말이죠. Equinix에 정말 찬사를 보냅니다!

왜 그게 효과가 있었을까?

  • Volterra는 원래 분산형 원격 중심 기업이었습니다. 특히 NetOps를 담당하는 프랑스 팀은 프랑스 전역에 퍼져 있으며 협업 도구를 사용하여 원격으로 작업하는 데 익숙합니다.
  • 우리는 사용할 수 있는 충분한 여분/실험실 하드웨어를 가지고 있었기 때문에 시간을 맞출 수 있었습니다.
  • 위에서 간략하게 설명한 절차는 수년간의 배포와 경험, 반복적인 개선을 통해 얻은 결과이며, 그 성과가 있었습니다.
  • 공급업체와 좋은 관계를 맺는 것은 우리에게 매우 중요합니다. 문제가 생기면 우리는 전화를 걸어 주저하지 않고 그들에게 알립니다. 반면에 이를 통해 그들은 우리뿐만 아니라 모든 고객을 위해 개선을 이룰 수 있습니다.
  • 속도/가격/품질에 대한 요구: 높은 기대치를 가져야 합니다. 여기에는 필요하기 전에 리소스에 투자하는 것도 포함됩니다!

무엇을 개선할 수 있을까요?

  • 우리는 회사에서 이러한 배포를 처리할 수 있는 사람이 소수(3~4명)에 불과하다는 사실을 깨달았습니다. 따라서 확장 방법을 찾아야 했습니다.
  • 또한, 우리는 전체 스테이징을 먼저 수행하지 않아도 되도록 스테이징 수행 방법을 개선하고 싶습니다.
  • 마지막으로, 이러한 배포는 단순히 기술적인 문제가 아닙니다. 영업/사전 영업팀은 전체 프로젝트와 각 단계에 얼마나 많은 시간이 필요한지 알고 있어야 하며, NetOps가 무엇이든 해결할 수 있다고 가정하고 적절한 타이밍 적격성 평가 없이 프로젝트를 중단해서는 안 됩니다.

우리는 첫 번째 원격 RIPE 회의(RIPE 80)에서 이 배포를 발표했으며, 여기에서 녹화 영상을 볼 수 있습니다.

https://ripe80.ripe.net/archive/video/raphael-maunier 3-코로나19 제한 하의 운영의 과제 main-20200513-132226.mp4