Il existe des dizaines de milliards de statistiques sur l’omniprésence des logiciel libre dans les entreprises de tous les secteurs. Les applications sont composées à plus de 80 % de composants open source, et Internet fonctionne essentiellement sur le logiciel libre NGINX .
Il existe tout autant de normes ouvertes. Ces normes, développées et améliorées grâce à une approche communautaire open source, créent des écosystèmes remarquables de produits, projets et infrastructures de soutien.
OpenTelemetry est l’un de ces efforts et est devenu la norme pour la génération, l’ingestion et le traitement des données opérationnelles, également appelées télémétrie . Près d'un tiers (32 %) des répondants au rapport Observability Innovation Report 2023 indiquent que « le support d'OpenTelemetry est nécessaire et 50 % disent qu'il est très important dans les produits des fournisseurs. Un peu plus d'un tiers (36 %) des répondants utilisent OpenTelemetry au sein de leur organisation.
Standardiser la télémétrie est crucial parce que l’observabilité dépend des points de données issus de toute la pile informatique. Cela inclut les métriques réseau, les journaux des serveurs et les traces, provenant de types d’infrastructures et de systèmes très variés. Il n’existe pas de source unique fiable, car même une application simple comporte trop de composants en mouvement pour que vous puissiez collecter toutes les données nécessaires à observer son état à un instant donné. Standardiser la génération de la télémétrie vous permet d’homogénéiser les signaux numériques et garantit que l’analyse exploite tous les points de données pertinents pour offrir des insights précis et exploitables.
Mais même la standardisation de la télémétrie ne résout pas tous les défis associés à l’atteinte du Saint Graal de l’observabilité full-stack.
L’un des gros problèmes liés au traitement des données opérationnelles est leur volume. Les signaux numériques sur lesquels les organisations s’appuient pour se tenir informées des problèmes potentiels de performances ou des tentatives d’attaques sont générés plus rapidement et plus furieusement que tout autre type de données. Nous le savons de près et personnellement car chez F5, nous avons adopté OpenTelemetry comme norme dans l’ensemble de notre portefeuille. La nature et le rôle de nos produits, comme BIG-IP et NGINX, dans la fourniture et la sécurisation applications et de services numériques signifient que des volumes importants de données telles que des métriques et des journaux sont générés pour diverses raisons. Le transport et le traitement de ces données représentent une part importante du coût associé aux pipelines de télémétrie.
Pour relever ce défi, l'ingénieur distingué Laurent Quérel s'est impliqué dans Apache Arrow et a commencé à travailler avec le projet OpenTelemetry pour augmenter son efficacité avec des volumes de télémétrie élevés.
Nos résultats de référence montrent qu’Apache Arrow offre des avantages significatifs pour le transport et le traitement des données de télémétrie, en particulier lorsqu’elles peuvent être regroupées en lots de plusieurs centaines d’entités ou plus. L'organisation en colonnes des données améliore la compressibilité, et cette disposition de la mémoire améliore considérablement la vitesse de traitement en optimisant l'utilisation de différents niveaux de cache et instructions SIMD. De plus, l’écosystème Arrow constitue un excellent complément à OpenTelemetry, améliorant son intégration avec les moteurs de requête, les pipelines de traitement de flux et les formats de fichiers d’analyse spécialisés.
Vous pouvez en savoir plus sur Apache Arrow et le travail de Laurent dans le premier de deux articles sur nos expériences avec la technologie sur le site Apache Arrow.