首页 ›存档› 技术 › 查看内容

GitLab事故之技术详叙：抢救后恢复在线，已确定下一步计划

2018-3-30 13:00 |来自: 互联网 292 0

摘要: 编辑 | 木环策划 | 郭蕾本文对GitLab事件进行了全盘回顾，继续追踪GitLab在2月1日发布的申明，追溯各种问题根本原因。随后列举，恢复在线后，GitLab声明了哪些下一步的举措。最后摘录了一些网友在Twitter和YouTube的 ...

编辑 | 木环

策划 | 郭蕾

本文对GitLab事件进行了全盘回顾，继续追踪GitLab在2月1日发布的申明，追溯各种问题根本原因。随后列举，恢复在线后，GitLab声明了哪些下一步的举措。最后摘录了一些网友在Twitter和YouTube的评论，大多数人都对GitLab表达了自己的支持和宽容。

事件总览

2017年1月31日18:00（UTC时间），GitLab通过推特发文承认300GB生产环境数据因为UNIX SA的误操作，已经被彻底删除（后发文补充说明已经挽回部分数据），引起业界一片哗然。

2017年2月1日 18:14（UTC时间），GitLab.com恢复在线。通过使用一个之前的6小时备份数据库，GitLab申明1月31日下午17:20（UTC时间）至晚上23:25（UTC时间）之间的数据已经被恢复并可以在生产环境使用，包括项目、问题、合并请求、用户、注释等等。

GitLab背景

GitLab目前是硅谷一颗冉冉升起的新星，它估值3.29千万美元并且存放着宝贵的用户数据。自2012年上线以来，GitLab已经被超过10万个公司或组织使用，包括IBM、Alibaba.com、UBer、Intel、VMWare等等。

基于 Ruby on Rails 开发的一个开源的版本管理系统，它实现了一个自托管的Git项目仓库，支持通过Web界面进行访问公开的或者私人项目。

GitLab拥有与Github类似的功能，能够浏览源代码，管理缺陷和注释。可以管理团队对仓库的访问，非常易于浏览提交过的版本并提供一个文件历史库。团队成员可以利用内置的简单聊天程序进行交流。此外，GitLab提供了一个代码片段收集功能，可以轻松实现代码复用，便于日后有需要的时候进行查找。

事件影响

一句话概述

GitLab申明指出其一个数据库出现了异常，导致GitLab.com丢失6个小时的数据库数据（问题、合并请求、用户、注释等等），不过Git / wiki存储库和自托管安装不受影响。

五点详情

1、大约6个小时的数据丢失

2、大约丢失5037个项目（其中4613个常规项目，74个fork, 350个import）。由于Git的repository没有任何损失，所以GitLab可以重建数据事故之前已经存在的用户/组的全部项目，但是并不能修复事故中的任何问题。

3、丢失了大约4979（即5000）左右的注释。

4、可能丢失了707个用户，很难准确进行评估（部分源自Kibana记录）

5、受影响的时间点：1月31日17:20之后创建的数据

挣扎，Offline前的种种

首次事故：垃圾邮件用户的数据库负载的峰值

2017年1月31日18:00（UTC时间）发现垃圾邮件发送者正在通过创建片段方式攻击数据库，目的是让数据库不稳定。工作人员随即开始寻找问题并准备应对方案。

2017年1月31日18:00-21:00（UTC时间），工作人员（team-member-1 ）正在预发布环境安装pgpool和备份工具，为了拿到最新的生产环境数据他创建了一个LVM快照，这个快照会用于预发布环境，他希望可以重用这个快照用于引导其他的副本。这个操作在丢失数据前的6小时完成。

副本启用的过程中发现存在问题，并且需要消耗大量时间（根据估计仅仅是初始化pg_basebackup同步过程就需要耗时20个小时以上）。LVM快照在工作人员可以修复问题之前又不能再其他副本上使用。整个修复过程都被这个问题耽搁下来。

2017年1月31日21:00（UTC时间），开始出现锁定数据库写操作，并引起一些停机情况。进一步进行处理，措施包括锁定垃圾邮件的发送IP、删除一个用户并启用仓库（造成47000个IP使用了相同的账户签名，进而导致数据库高负载）、删除垃圾邮件用户。

第二个事故：复制延迟触发警报

2017年1月31日22:00（UTC时间），数据库备份进展出现落后情况，查明造成原因是备份数据库写入操作时出现异常，导致没有跟上备份节奏。

采取处理措施包括：尝试修复db2数据库，这时候备份落后了大概4GB。然后db2集群开始拒绝执行备份作业，db2集群拒绝连接到db1，调整max_wal_senders为db2，重启PostgreSQL数据库，随即PostgreSQL数据库提醒存在很多打开的连接，并拒绝启动服务。管理人员随即调整max_connections参数至8000个，PostgreSQL随即启动。注意，此时db2集群依然拒绝执行备份，处于未知原因的挂起状态。

第三个事故：误删操作

2017年1月31日23:00（UTC时间），工作人员（team-member-1 ）感觉pg_basebackup拒绝执行的原因是PostgreSQL数据文件夹已经存在，所以决定去移除这个文件夹。执行rm操作之后，该工作人员意识到命令正在db1.cluster.gitlab.com执行，而不是db2.cluster.gitlab.com。

2017年1月31日23:27（UTC时间），工作人员（team-member-1 ）终止了删除操作，300GB的数据仅剩余4.5GB。

下线，进入紧急状态

GitLab决定下线GitLab.com并将事故通过推特向外公布，并且通过YouTube对外进行了修复过程的直播。

思考，罗列问题清单

GitLab进一步对遇到的问题进行梳理和逐一解释，包括：

LVM镜像默认每24小时执行一次。工作人员（team-member-1 ）事故发生6小时之前手动执行了一次。
常规备份也是24小时执行一次，但是工作人员（team-member-1 ）无法确定存放于何处。另外一名工作人员（team-member-2）认为这意味着失效，因为产生的文件只有几个字节。

一名工作人员（Team-member-3）：PostgreSQL9.2的二进制文件开始运行，导致pg_dump失败。由于数据库版本设置为PostgreSQL9.6，最终导致SQL备份不启用。
Azure上的磁盘镜像只是针对NFS服务器，没有针对数据库服务器。
同步过程移除了webhooks。除非我们可以从过去24小时的常规备份中提取这些内容，否则将丢失。
复制过程极度脆弱，很易出错，依赖于一系列Shell脚本，而这些脚本的注释很差。
S3 备份过程没有正常工作。
当备份失败时，没有可靠的警报/分页，在dev host上面现在也看到这一点

综上所述，5个备份/复制技术都没有正常工作。无奈之下，我们最终启用6小时之前的备份。

pg_basebackup需要等待主机启动复制过程完毕，这个过程需要10分钟。这个过程会导致我们认为复制过程卡住了。使用strace命令也看不出什么问题原因。

行动，恢复过程

GitLab的官方声明中说明了恢复过程的执行步骤：

2017年2月1日00:36（UTC时间），备份db1.staging.gitlab.com数据。
2017年2月1日00:55（UTC时间），挂载db1.staging.gitlab.com到db1.cluster.gitlab.com。从/var/opt/gitlab/postgresql/data/拷贝数据到生产环境/var/opt/gitlab/postgresql/data/。
2017年2月1日01:05（UTC时间），nfs-share01服务器被征用作为临时备份服务器，放置于/var/opt/gitlab/db-meltdown。
2017年2月1日01:18（UTC时间），包括还存在的生产环境数据，包括pg_xlog，命名为20170131-db-meltodwn-backup.tar.gz。

下面这张图显示了删除和随后恢复事件的时间。

未完，GitLab的下一步技术计划

Todo list

为不同的环境改变Linux终端的格式或者颜色，例如红色代表生产环境，黄色代表测试环境。针对所有用户在shell提示符处显示机器的完整名字，例如db1.staging.gitlab.com，而不是仅仅是“db1”。： https://gitlab.com/gitlab-com/infrastructure/issues/1094
针对postgresql的文件夹拒绝执行rm -rf这样的命令？可以设置命令执行保护或者针对数据库文件夹有对应的备份措施。
为备份增加提醒：检查S3仓库之类的体型。增加图形化界面，显示时间变化后的备份大小，当下降超过10%时发出警报。：https://gitlab.com/gitlab-com/infrastructure/issues/1095
找出为什么PostgreSQL在max_connections被设置为8000之后突然出现问题，这个设置在2016年5月13日就已经完成了。因为这个问题的突然出现导致了其他很多问题。https://gitlab.com/gitlab-com/infrastructure/issues/1096
通过WAL归档增加备份阈值，这个方法对审计失败也许有用。https://gitlab.com/gitlab-com/infrastructure/issues/1097
针对上线产品创建常见问题查找指南手册。
从一个数据中心移动数据到另一个数据中心可以通过AxCopy完成：微软声称这个工具比rsync要快很多。看上去这是Windows上面的问题，但是没有任何Windows专家参与。

五天内公开自省报告

GitLab官方申明指出丢失生产环境数据是不可以接受的错误，5天之内GitLab将对外发布错误发生及保护措施失效的原因，并将发布一系列措施避免悲剧再次发生。

网友们的关注

GitLab致谢网友

GitLab申明最后感谢了共计42位网友的外援，他们通过Twitter和其他渠道上给出的技术建议。

网友留言

“keturu ta”的评价

我们在日本工作，我们能够理解你们的痛苦和精神上的挫折。我们会一如既往地支持你们。

“Axel Dreyfus”的评价

现在已经很少看到这么开放的工作态度了。祝你们好运，永远支持你们。千万不要针对那个UNIX SA，他已经瘦了20磅（开玩笑）。

“Neer”的评价

这样的事故对于任何人都有可能发生，我鼓励涉及团队不要有挫折感。这篇文章已经开始在社交媒体上流传开来了，让我感到这是一家非常公开和透明的公司。我之前没有听说过这个产品，但是从此以后我会开始使用它。

“Codepotato”的评价

感谢这样的全面解释。问题发生确实让人感觉很丢脸，但是同时也体现了你们对外的开放态度。当务之急我们需要找到办法提升恢复速度。

公开，直播修复过程

除了在网络上对事故进行文字说明，GitLab还在YouTube上直播了其数据库修复过程。该过程视频时长8小时，共计有31万人次观看。https://www.youtube.com/watch?v=nc0hPGerSd4

写在后面

事故处理过程中，GitLab采用了开放的态度，事故发生后第一时间对外公布，并对处理过程进行现场直播，让全世界所有程序员都有机会一起参与恢复过程。GitLab也针对网友提出的关于肇事工作人员如何处理问题进行了官方回应，表态不会因为这次事件解雇事故相关技术人员。

正是由于这样的开放性姿态，网友并没有对事故的发生而进行谩骂、嘲讽，而是一起通过网络对GitLab进行鼓励，对处理事故团队提供积极的技术建议。这样的处理方式可以作为IT公司生产环境经典解决案例被写入教科书。

参考资料

https://docs.google.com/document/d/1GCK53YDcBWQveod9kfzW-VCxIABGiryG7_z_6jHdVik/pub

https://about.gitlab.com/2017/02/01/gitlab-dot-com-database-incident/

https://www.theregister.co.uk/2017/02/01/gitlab_data_loss/

声明：文章版权归原作者所有部分文章转自互联网如有侵权请联系 <span id="email-placeholder">[邮箱地址]</span> 删除 </div> <script> (function() { // 邮箱地址使用 Base64 编码伪装，防止爬虫直接抓取 var encodedEmail = "YWRtaW5AaGFja2Jhc2UubmV0"; // admin@hackbase.net 的 Base64 编码 var email = atob(encodedEmail); // 解码得到真实邮箱 var container = document.getElementById("email-placeholder"); if (container) { container.textContent = email; } })(); </script> </td></tr> </table> <div id="diycontentbottom" class="area"></div> <script src="data/cache/home.js?zj6" type="text/javascript"></script> <div id="click_div"><table cellpadding="0" cellspacing="0" class="atd"> <tr><td> <a href="https://www.hackbase.net/home.php?mod=spacecp&ac=click&op=add&clickid=1&idtype=aid&id=238276&hash=c27c2a64735c4c0930d5f4c30043d867&handlekey=clickhandle" id="click_aid_238276_1" onclick="showWindow(this.id, this.href);doane(event);"> <img src="static/image/click/luguo.gif" alt="" /><br />路过</a> </td> <td> <a href="https://www.hackbase.net/home.php?mod=spacecp&ac=click&op=add&clickid=2&idtype=aid&id=238276&hash=c27c2a64735c4c0930d5f4c30043d867&handlekey=clickhandle" id="click_aid_238276_2" onclick="showWindow(this.id, this.href);doane(event);"> <img src="static/image/click/leiren.gif" alt="" /><br />雷人</a> </td> <td> <a href="https://www.hackbase.net/home.php?mod=spacecp&ac=click&op=add&clickid=3&idtype=aid&id=238276&hash=c27c2a64735c4c0930d5f4c30043d867&handlekey=clickhandle" id="click_aid_238276_3" onclick="showWindow(this.id, this.href);doane(event);"> <img src="static/image/click/woshou.gif" alt="" /><br />握手</a> </td> <td> <a href="https://www.hackbase.net/home.php?mod=spacecp&ac=click&op=add&clickid=4&idtype=aid&id=238276&hash=c27c2a64735c4c0930d5f4c30043d867&handlekey=clickhandle" id="click_aid_238276_4" onclick="showWindow(this.id, this.href);doane(event);"> <img src="static/image/click/xianhua.gif" alt="" /><br />鲜花</a> </td> <td> <a href="https://www.hackbase.net/home.php?mod=spacecp&ac=click&op=add&clickid=5&idtype=aid&id=238276&hash=c27c2a64735c4c0930d5f4c30043d867&handlekey=clickhandle" id="click_aid_238276_5" onclick="showWindow(this.id, this.href);doane(event);"> <img src="static/image/click/jidan.gif" alt="" /><br />鸡蛋</a> </td> </tr> </table> <script type="text/javascript"> function errorhandle_clickhandle(message, values) { if(values['id']) { showCreditPrompt(); show_click(values['idtype'], values['id'], values['clickid']); } } </script> </div> <div id="diycontentclickbottom" class="area"></div> </div> <div class="o cl ptm pbm"> <a href="https://www.hackbase.net/home.php?mod=spacecp&ac=favorite&type=article&id=238276&handlekey=favoritearticlehk_238276" id="a_favorite" onclick="showWindow(this.id, this.href, 'get', 0);" class="oshr ofav">收藏</a> <a href="https://www.hackbase.net/home.php?mod=spacecp&ac=share&type=article&id=238276&handlekey=sharearticlehk_238276" id="a_share" onclick="showWindow(this.id, this.href, 'get', 0);" class="oshr">分享</a> <a href="misc.php?mod=invite&action=article&id=238276" id="a_invite" onclick="showWindow('invite', this.href, 'get', 0);" class="oshr oivt">邀请</a> </div> <div class="pren pbm cl"> <em>上一篇：<a href="https://www.hackbase.net/techdoc/tech/238275.html">Gitlab从删库到恢复 - 数据库备份恢复容灾HA的靠谱姿势</a></em><em>下一篇：<a href="https://www.hackbase.net/techdoc/tech/238277.html">Gitlab.com 因疲劳误删数据导致宕机超24小时</a></em></div> </div> <div id="diycontentrelatetop" class="area"></div> <div id="diycontentrelate" class="area"></div> <div id="diycontentcomment" class="area"></div> </div> <div class="sd pph"> <div class="drag"> <div id="diyrighttop" class="area"></div> </div> <div class="bm"> <div class="bm_h cl"> <h2>相关分类</h2> </div> <div class="bm_c"> <ul class="xl xl2 cl"><li><a href="https://www.hackbase.net/techdoc/info/">资讯</a></li> <li><a href="https://www.hackbase.net/techdoc/tech/">技术</a></li> </ul> </div> </div> <div class="drag"> <div id="diy2" class="area"></div> </div> </div> </div> <div class="wp mtn"> <div id="diy3" class="area"></div> </div> <input type="hidden" id="portalview" value="1"></div> <div id="ft" class="footer cl"> <div class="wp"> <div id="flk" class="y"> <p> <a href="https://www.hackbase.net/forum.php?mod=misc&action=showdarkroom" >黑名单</a><span class="pipe">|</span><a href="https://www.hackbase.net/archiver/" >存档</a><span class="pipe">|</span><a href="https://www.hackbase.net/forum.php?showmobile=yes" >手机版</a><span class="pipe">|</span><a href="sitemap.html" target="_blank" >网站地图</a><span class="pipe">|</span><a href="exemption.html" target="_blank" >免责条款</a><span class="pipe">|</span><a href="legal.html" target="_blank" >法律声明</a><span class="pipe">|</span><a href="privacy.html" target="_blank" >隐私保护</a><span class="pipe">|</span><strong><a href="https://www.hackbase.net" target="_blank">HACKBASE</a></strong> </p> <p class="xs0"> GMT+8, 2026-7-26 06:08<span id="debuginfo"> </span> </p> </div> <div id="frt"> <p>Powered by <strong><a href="https://www.discuz.vip/" target="_blank">Discuz!</a></strong> </p> </div></div> </div> <div id="scrolltop"> <span hidefocus="true"><a title="返回顶部" onclick="window.scrollTo('0','0')" class="scrolltopa" ><b>返回顶部</b></a></span> </div> <script type="text/javascript">_attachEvent(window, 'scroll', function () { showTopLink(); });checkBlind();</script> </body> </html>