加入收藏 | 设为首页 | 会员中心 | 我要投稿 宁德站长网 (https://www.0593zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 服务器 > 安全 > 正文

58集团监控业务实践:将网站运行信息透明化

发布时间:2021-01-12 13:52:06 所属栏目:安全 来源:网络整理
导读:副标题#e# 《58集团监控业务实践:将网站运行信息透明化》要点: 本文介绍了58集团监控业务实践:将网站运行信息透明化,希望对您有用。如果有疑问,可以联系我们。 作者介绍 龚诚,58集团技术工程平台部高级经理,硕士毕业于哈尔滨工业大学计算机应用专业.曾

A7:当前对我们最重要的一些告警指标是:页面监控和Nginx后端集群状态的指标.这些指标出现异常,那么肯定会对用户的访问产生不利影响.其他一些指标包括:各种业务数据、流量数据、接口是否正常、端口是否存活、系统资源使用情况等.

Q8:我们目前也在建设监控平台,目前使用定时器轮询check,实现“实时”监控.有没有更好的方案,实现真正的实时监控.还有声音告警是什么样的概念?

A8:声音告警就是有告警事件的时候使用程序拨打告警接收人的电话,通话中用语音播报异常的内容.实时的监控是使用agent周期性的采集数据上报给监控服务端,在处理数据过程中使用流式计算的模型,监控后端模块每时每刻都在处理agent传输过来的数据.

Q9:如何解决告警风暴的问题?

A9:首先按照上面一个问题的回答做好告警收敛问题.另外采用合理的策略对同一个集群、同种类型的异常进行告警合并.更进一步的可以做好告警根源原因分析,直接告诉用户是什么原因导致的大量告警.例如某个交换机故障导致这个网段的服务器不可达.

Q10:针对项目后端接口的监控是无侵入式的吗?

A10:有两种:一种是无侵入式的,通过agent调用plugin对接口进行探测;另一种是类似侵入式的,需要在编译打包的时候包含一个监控相关的库文件.

Q11:怎么能尽快确认引起故障的点呢?因为故障发生时很可能有告警风暴.我这边想的是把异常日志按照时间先后汇总,有什么更好的方法吗?

A11:为了方便了解网站在全局的运行状态,根据各服务之间的依赖关系自动分析故障的根源原因.为了方便排查相关服务的异常,系统可以按照时间轴组织的监控异常事件展示功能,从而方便用户快速定位故障的根源原因.

Q12:2.5全局系统结构视图的建立,能否展开来说下来

A12:在程序中编译打包了监控相关的库,那么监控系统就能够知道服务之间的调用关系,例如知道了A调用了B,也知道了B调用了C.那么根据这些信息就可以完整的拼出整个网站系统的调用关系网,这就是所说的全局视图.

文章来自微信公众号:高效开发运维

(编辑:宁德站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!