从网络问题到网络攻击再到应用代码中的缺陷,原因可能涉及方方面面。但庆幸的是,您的网络、开发和安全团队已经开始着手处理问题,他们首先从共用的门户中进行了一些排查。在这个共用门户中,他们可以检查一个聚合来自许多源代码的应用遥感数据集(内容丰富且具备一致性)。此类数据和相关应用见解可以明确指示症结所在,因此团队可以迅速进行诊断,并对问题予以修复。三十分钟后,应用开始顺利运行,应用业务所有人对此大加赞赏;而在这之中,最值得称道的是,在 DevOps、NetOps 或是 SecOps 团队中,没有人推诿责任,彼此埋怨。
您的公司是否会呈现上述景象?或者更像是如下情景:新鲜出炉的应用终于上线,然后问题发生了;但根本无人发现,直到几天后,应用所有者在半夜给您发了一条措辞极其恼怒的短信您才有所察觉,出于某种原因,客户无法在购物车中结算,只好抱憾放弃购买(在这之后,客户为了发泄自己的失望之情,开始在 Twitter 上疯狂发推文,因此应用所有者才意识到发生了问题)。得知发生问题后,各个团队都想尽办法推卸责任,证明并非是因为自己工作失职才会出错(这样他们就可以继续睡觉,谁的问题谁买单)。在同一时刻,正在调查问题根源的人员却只能排查自己负责的工作部分。造成这种情况的原因可能是开发人员由于时间紧迫,并未与运维团队交接;也有可能是两个团队的系统并未集成,所以无法实现“互动”。无论造成中断的原因为何,可以明确的一点就是从一个平台跳转到另一平台会使寻找错误根源这件事变得繁琐而艰巨。
几天或是几周后,为了避免引发全盘崩塌,您别无选择,只能将应用恢复到之前的版本。既然已经得知出现了问题,并(也许?希望如此?)进行了修复后,您打算再试一次。但这次工作氛围更加水深火热,IT 团队每日处于崩溃边缘,跨职能部门的争吵更是家常便饭。总而言之,重新部署势在必行,但压力着实不小。
事实上,在复杂的多云环境中找到应用故障的根本原因并予以修复实非易事。这其中牵扯不少技术因素,如本身的应用代码、所有网络资源和参数,还有无法估量的安全定义和设置;而所有这些技术组件往往还会因企业层面的考量(如哪类人员可以访问哪类数据以及哪些团队正在竭力人员等)而受到影响。
必须要有更好的解决之道。(剧透:的确 有 更好的解决之道。)
有没有可以越过上述障碍并使难题迎刃而解的诀窍?答案就是:更好的云可视性、更高程度的可视化。对所有人员的操作了如指掌,对应用、云和网络中的情况一目了然,以易于理解的惯用界面实现轻松访问。可见性是获取一切有价值见解的先决条件。
是不是正中下怀?
当可见性实现扩展,所有团队可轻松共享这种可视化时,团队即能够迅速查清症结,并一同解决问题。在有关应用可用性和性能方面,可视化能够帮助团队实现监测、追踪和报告等工作,其价值远不止步于高效的故障排除或根源分析。具备全局可见性后,对于 IT 和业务负责人的一些常见问题(例如有多少应用在本地运行?有多少运行于特定的共有云中?应用有多少预留空间?所有应用的运行状态如何?有哪些应用无法为客户提供卓越的服务体验?),您均能够对答如流。
无论您关注的是性能、运行状况、安全性或是三者,应用生态的顺畅运行均需要访问大量信息及用到众多见解。此类信息通常并不拘泥于单一来源,而是源自广泛的应用生态系统产品组合,如负载均衡器、防火墙及控制器,还有 Datadog、Uptime Robot、Telegraf 等分析、监控和集成等消耗程序。
借助遍及所有应用、云架构和数据源的适当可视化,从应用所有者及运营负责人到业务经理及企业管理负责人,全员均应当能够以自己关心的术语(如成本中心、部门、位置和业务部门)或任何自定义的元数据查看整个产品组合。启用此类功能后,各用户皆可获得切实可行的有针对性见解,从而做出明智的数据化决策。应用所有者和网络运营商当然也可以受益于应用产品组合的全局视图,包括影响性能、可视化和安全性的依赖项,从而使部署和故障排除快人一筹。
最为关键的一点是,部署了先进应用可视化和管理解决方案的企业能够更加游刃有余地处理日常和突发的应用难题。在此类组织中,相应的团队可以轻松登录单一门户,并迅速开始分析应用堆栈相关的各类数据。这些团队可以查看流量遥测数据、网络遥测数据,甚至是平台遥测数据,并利用已有基准,迅速识别异常行为,然后快速部署修复程序。
要实现上述情景并非望尘莫及之事,只要实际掌握对云的可视化并获得深入见解,那么一切即会触手可及;否则,难免一叶障目。