本文根据高效运维系列微信群「坐而论道」活动整理而成。“高效运维”公众号作为本系列群的官方唯一公众号,原创并独家首发。 欢迎关注“高效运维”公众号,以免费参加「运维讲坛」每月一次的线下交流活动;并抢先赏阅干货满满的各种原创文章(详见文末)。 编辑
主要讨论人员
嘉宾介绍
引言「坐而论道」是高效运维社区独创的一种技术交流形式,由技术高手之间互相提问并进行解答,每周讨论一个话题,由其中一位发起提问并指定下一位进行解答,解答完的人继续提出新的问题并指定下一位回答者,以此类推。 精彩回答
Q1 :QQ产品线和历史如此悠久,历史上的遗留问题和遗留工具一定很多,作为用运维人员,如何去解决历史遗留问题;作为运维开发人员,如何吸纳历史上的工具系统,降低重构的代价。这方面有没有经验和案列可以分享。答:这个问题真的说到运维的痛点上了,运维面对最困难的问题,我们统称历史遗留问题。我们面对的历史遗留问题也挺多的,如无标准化包管理、配置有硬IP、监控点覆盖不全等。 所幸我们从09年就开始着手进行运维的标准化统一,得益于和开发、测试团队的良好合作关系(6年前就可以说开发、测试、运维间就已经萌芽了devops的文化),运维推动的包管理系统、配置管理系统、cmdb、质量监控规范都被很好的贯彻落地了。 我举个简单例子
现在游离在运维标准化体系外的业务还是有的,原因很多,有并购的公司、有组织架构调整引入的老架构等等,对这部分的管理,只要还要增长的服务,运维都会提出可运维规范要求,如打包、接入织云,如稳定期,不需要继续增长的服务,我们就不求自动化运维效率多高,只要求有路由的自动容错,保障服务的质量,维持现状即可。 Q2 :作为QQ这样成熟的产品,“织云”未来的技术上的发展规划是怎么样的,还会不会有一些新的设计思路。答: 织云解决了运维持续部署的难题,实现服务的快速自动上下线,基本上满足了80%运维效率的诉求,目前我们主要做的还是在不断的打磨让系统用的更顺,标准化流程的适用面更广。提到新的设计思路,根据SNG的业务场景和不同时期运维关注点的不同,我们针对服务调度、跨IDC搬迁、SET复制、成本管控的场景,都有开发相应的工具,但这一切都是基于自动上线这个核心功能的。 Q3 :织云 和 蓝鲸都是腾讯系的比较成功的运维产品,而蓝鲸已经从服务内部开始走向服务外部游戏客户了,织云有没有类似的走出去的规划?答: 走出去的案例是有的,如织云的核心模块包管理系统,简化版tars已经在腾讯云的应用市场对外开放,大家可以在腾讯云上搜下。在一些腾讯系的企业,如webank、富途、滴滴,都有或多或少的使用织云的一些模块。 但是整个织云体系的对外开放,目前的计划是有所限制的,暂时只会对腾讯系的企业输出,原因有二:
Q4 :QQ的运维,和微信的运维,你觉得有差异或者不同的挑战吗?答: QQ和微信,分属腾讯的SNG和WXG,这两款产品都算得上是国内IM的巨头,在IM的运维场景下,有着相同的运维挑战。 不同点,我列3点我的个人理解:
Q5 :从QQ的运维出发,在“容量管理”和“故障的根源分析和自动处置”这个两个运维的难点来看,分享一下你的经验。答: 监控相关的问题,涉及的背景比较大,我尽量简单的说:
还有一个《智子》的apm项目,主要是针对移动APP运维的场景,类似听云和oneapm的方案,在app的每个方法中都注入我们的耗时计算逻辑,实现移动端的卡慢、异常分析,是代码级的监控系统。 好消息:欢迎加入开放运维联盟开放运维联盟(OOPSA)是运维行业第一个全国性、非盈利的正式组织,指导单位为工信部电信研究院数据中心联盟(DCA)。旨在融合运维最佳实践、减少公司运维重复投入,建设运维人员共有家园,让运维不再“苦逼”。 目前会员注册开放中(个人会员免费)。热衷欢迎作为运维同仁的您(无论从业年限),加入我们,共谋发展。OPPSA,已有大量运维同仁汇聚。单位会员享有更多权益,更多详情,请点击如下链接: |