首页 存档 技术 查看内容

我的大型移动电商运维之道By京东无线运维负责人

2018-3-30 13:00 |来自: 互联网 460 0

摘要: 本文根据高效运维系列微信群「坐而论道」活动整理而成。“高效运维”公众号作为本系列群的官方唯一公众号,原创并独家首发。 编辑 高浩淼(整理) 主要讨论人员 提问: 梁定安(大梁) 解答: 徐奇琛(civicxu) ...

本文根据高效运维系列微信群「坐而论道」活动整理而成。“高效运维”公众号作为本系列群的官方唯一公众号,原创并独家首发。

编辑

  • 高浩淼(整理)

主要讨论人员

  • 提问: 梁定安(大梁)

  • 解答: 徐奇琛(civicxu)

嘉宾介绍

徐奇琛

10年运维老兵,曾任职于腾讯、易迅、史泰博等公司,从事过网游、网媒门户、社交网络、电商等业务场景的运维及技术管理工作。致力于海量业务的技术运营保障工作,对架构规划、性能调优、用户体验提升等运维增值服务感兴趣。目前就职于京东,负责京东无线业务的运维和测试团队。

精彩问答

Q1.你认为电商领域的应用运维和互联网应用运维的主要区别有哪些?应用运维应该在电商的角色定位是怎样的,负责的工作内容是什么?

电商领域和互联网领域应用运维有重合部分也有明确差异,主要体现在业务特点上。

1)首先是运维支持的链条较长,包括B2C、O2O在内的电商业务模式,除了“互联网线上”部分还会涉及ERP、仓配供应链等“传统线下”的延伸场景。所以针对长链条上的不同运维场景,电商的应用运维成本相对互联网会大一些。

2)其次由于业务特点,社交UGC业务和电商业务对于Consistency的诉求是不同的。比如我们看这张图会诠释的比较清楚:

基于cap分布式理论,社交的运营价值观就是有损(腾讯海量运营的价值观就是万有一失用户重试),金融业务对于一致性的要求是极高的,电商则介于两者之间是一种最终一致。所以到运维这层,大家基于A和C的架构设计以及业务的降级策略也是不同的。

3) 电商业务流量的突发特点(季节性大促),圈定了团队的备战保障职责,每年都会有至少2次以上数十倍的流量“洗礼”,对于电商应用运维也是比较特别的挑战。每年都会圈定占比不小的时间做大促前的演习和预案设计等工作。

再来说下电商应用运维主要负责的内容,这个问题答案不唯一,取决于所在公司的运维职能划分以及业务的架构,在我任职过的几家电商公司也都不完全一样。我也就简单说下B2C通用的方式:

1、线上线下应用的高可用管理。

2、架构设计规划,这里主要集中在对线下的支持,因为这里还不是标类,不像线上云架构那么容易标准归类。

3、工具平台建设,基于行业特点,电商的研发测试日常的工作被各业务部门的需求排的较满,运维会更多主动建立在DO合作的基础上主导持续集成、ITIL、自动化等方向的建设,再交由整个团队使用并提供持续的维护支持。

4、用户体验的管理,会集中在接入层持续的提供优化服务,有专人会建立数据运营的能力长期跟进体验。以上这些各家的运维服务目录可能也多少都有涉及。

如果要说些不同的,可以简单聊下营销活动的支持这点,电商平台重营销活动模式多频率高,秒杀、爆款、周年大促等等几乎每日都有成百上千的活动每季都有超大型推广,运维会更加要求在架构设计规范、内外部沟通协调、资源管理有更好的主动服务意识和能力。

Q2.你团队中运维和运营开发是不同的角色分工还是二合一的全栈运维?如果是不同的角色,请问如何保证运维的需求能够有效的被运营开发理解,做出最好用最符合运维需要的系统,并且如何妥善处理运维和运营开发目标不一致的问题?如果是二合一的运维角色,请问对不同运维之间的建设需求,如何避免重复造轮子,如何权衡共性和个性需求优先级和重要性?

Daliang这个问题是运维团队组建、定位和职能优化都会遇到的问题。我负责team目前运维和开发团队是分开的,但不能理解为运维不做开发或开发也关心业务运维,两者的关系其实还是强关联的。

主要看团队目前所处阶段决定,平台建设初期需要高速补齐短板,需要把平台快速搭建完备起来,需要更高的开发效率和执行力。

运维劳动力解放后会有更多的精力从事建立在一定框架上的开发自定制工作类似蓝鲸的发展历程。真正的全栈运维,我理解还是相对的,会去无限接近。

Daliang提到的运维需求如何被理解确实是我们在实际运作中会遇到的问题,需要一定的团队管理方法。

非运维出身运维开发或开发方向的应届毕业生,我们通常的方式是轮岗和承担一定比例的业务运维工作,以真正理解和融入团队。还有很多方法,比如交叉分享、闭环的敏捷项目等等。最终目的是统一大家的方法论共识,也促进团队能力的互补。

“不懂业务运维的开发不是好规划”运营规划是我们持续引导一部分高潜运维去成长的一个方向,这对业务运维的全局能力要求更高。更多通过规划的角色来解决优先级、划分出共性维度等决策。

Q3.请问你们运维团队对移动互联网时代运维能力建设做了怎样的适配(管理系统、指标考核、监控体系等)?在移动互联网的运维建设上,你认为最有挑战的点是什么?为什么?

由于移动互联网网络场景和终端设备的局限性,问题的分析排查、用户体验优化确实面临挑战,这是无线业务运维体系建设的挑战。

团队都是从PC网站时代过来的,移动端的运维能力算是以前基础上的提高,更加侧重在针对性的质量优化和监控建设。

经过摸索,我们根据和PC业务的差异性,在应用架构优化方面推进服务端接入层重构,端到端的各层架构系统都有相应的管理系统来支持。

客户端架构也分出策略、网络基础组件层这为各项优化工作的快速开展打下了重要基础。

监控体系方面,在用户端维度相对更加侧重,围绕用户异常上报、性能、体验各种维度都规划了明确的目标,联合客户端、平台开发团队、以及集团级的多支公线团队联合加速建设,补齐数据缺失并建立长期的运营数据的能力。

监控体系建设作为团队的重点任务,绩效上占40%的权重考核。

谈移动互联网运维建设的挑战:

在用户体验优化服务,由于移动网络的特点,特别是在中国的移动网络带高整个运维在体验和速度端的建设成本,每天我们关注用户反馈平台都会有大量的页面加载吐槽,80%的反馈量集中在2g\小运营商用户。

可以看到2g/小运营商用户的网络环境是相当恶略的,高延迟丢包、运营商劫持导致用户体验直线下降甚至不可用。

团队会建立大量的接入层优化项目联合内外部门,从网络出口、精简各类型开销、对低质用户的降级服务策略与调度、组件与协议的移动化适配等等方面开展长期的持续优化工作,效果还是立竿见影的,google和tencent的“1秒原则”也是团队一直在努力追求的目标。

Q4.在质量、效率、成本、安全,4个运维关注的纬度都建设完善后,你觉得运维团队的方向该如何设定,是否方便把JD未来3年的运维规划介绍并说明下?对于运维个人的发展又该如何规划,是否有成功案例可以分享出来?

质量、效率、成本、安全是四个高度概括的运维建设维度,每隔一定时(考)间(核)周期,都会围绕这些建立提升指标或项目,所以这里是一个持续完善和延续能力建设的过程。

概括说,团队做好服务管理的同时,以运维运营数据为基础建立各层更精细化的运营能力。

第二个子问题比较大我简述下,第一阶段工作是夯实基础,这是目前团队所处的阶段。电商行业整体的增速很快,基于独具特色的商业模式,京东的业务增长更快,运维支持也得跟上,不拖后腿。

其实和之前早期腾讯经历过程一样,业务高速扩张,倒逼技术体系建立了海量运营运营能力。京东目前正处在这个阶段。集团统一战略驱动的多中心分布、弹性云的诺亚项目、各层监控数据的精化、工具平台的重构升级等项目都在稳步推进中。

同时,随着移动用户的快速转化,移动业务场景的运维能力也是会去重点规划的。从用户体验提升、基于DO合作的移动架构不断升级改造、移动平台的内外部开放平台和服务的建设。

所以,总结来说是基于集团公共 业务端垂直能力提升的运维工作规划,道阻且长,行则将至。

第三个子问题,运维个人发展如何规划?团队会根据运维个人自身的能力模型分工,首先归类到运维服务支持、运维工具平台开发、运维规划等团队。

当然也会尊重员工的发展意愿制定学习计划或者转型计划。比如,运维支持的资深员工非常熟悉业务流程和当前平台的缺陷,我们会引导到规划或运维平台产品经理方向发展,尊重员工发展的同时也制定相应的个人及业务提升目标,力求双赢。

也有运维和开发互相转型的案例,对于能力模型的补充是主要诉求,都想往全栈发展。

同时,我也个人是希望运维发展也要考虑走出去,学习业务和学习其他技术团队的一些专项能力,比如技术周边的测试、业务安全、大数据等,再到产品运营的理解学习等等方向。职责是内部部门,但能力和视野是需要建立全局观的。

Q5.请问你如何看待企业级服务市场的兴起,众多运维创业的现象,能否列举5个你正面和负面的看法,并加以说明?假设你来创业,你会进入哪个运维创业领域,为什么?

企业级服务市场近年来确实越来越受到创业者和市场关注,相信大家周围都有不少朋友杀入这个领域其中也不乏运维领域。个人还是比较正向的看待这个创业方向与市场。

首先中国2b市场空间是巨大的,对比美国非常蓬勃的企业服务市场我们就知道这里的空间,不少运维服务领域还是空白;

其次时机,这点非常重要,消费习惯已经养成,除了大型企业,众多中小公司也已能接受这样的服务模式(这当然和云服务前几年打下的基础有密不可分的关系),更多企业愿意为痛点去消费。正面的看法还有很多观点,比如资本市场关注、优秀运维人才走出去扩展自身能力等等就不一一展开了。

负面观点谈不上,就说2点通用的挑战吧,首先做企业级服务大家都想建立一些标准化的服务(行业标杆)或产品足够的竞争力,行业和需求碎片化导致起步阶段需要做大量的定制化需求,产品的发展方向和积累会有挑战,渐渐的就会沦为外包化模式了,公司生存没有问题但和初衷就偏离了。第二,就是销售能力,是非常重要的2b公司能力模型,也是技术人员创业都会遇到的一座大山。

运维作为比较内置的服务部门,对外营销能力这点上是相对吃亏,即便是行业深具影响力的大牛们也是在不断加强补充产品营销能力。当然这些也只是我个人的认知,不一定最贴切,欢迎已在路上的实干者们补充。

基于运营支撑的saas服务是比较看好的方向,比如移动安全风控、混合云的管理工具、持续集成、监控服务、大数据等等,这些都是运维在大公司做运营支撑的强项可以深度积累的领域也是众多中小公司需要补强的,把短路径的专项服务做精打磨到足够的强是很有机会的。

先把点上的事做的足够好,再谈面,再融入生态。

GOPS 2016 全球运维大会深圳站 欢迎您

是的!2016年第一场技术盛宴,就在深圳。超豪华阵容!四大运维体系在引爆上海之后,携手20多位顶级运维专家,和您相聚深圳,共同期待和规划运维之春。

现在个人报名8折(650元),3人以上团体报名还可以尽享7折哟(截止2016年1月14日)。详情请猛戳如下链接。

声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系 [邮箱地址] 删除


路过

雷人

握手

鲜花

鸡蛋

相关分类

返回顶部