没有执行过rm -rf /*的开发不是好运维

  • 774
  • 0

没有执行过rm -rf /*的开发不是好运维

没有执行过rm -rf /*的开发不是好运维

起因

突然收到用户反馈说网站在手机端打开是白屏, 很奇怪的问题.

在电脑端试了下,确实也是白屏,HTML加载进来了,好像有个核心JS加载失败.

看到一个错误是: We're sorry but house doesn't work properly without JavaScript enabled. Please enable it to continue.

还有一个http请求的错误是: ERR_INCOMPLETE_CHUNKED_ENCODING

于是尝试了一下的解决方案:

  • 无脑重启看看能不能解决问题?重启了一下对应Docker容器,无果

  • 可能是现在版本引入的Bug?回滚代码重新build,无果.

  • nginx的问题? 重启nginx,无果.

  • 查看nginx日志,没什么有用的东西,无果.

灵机一闪,不会是磁盘空间满了吧.

df -h 看了一眼,99.99%的磁盘使用率.

某个Docker容器的磁盘空间用掉了34G.

看一眼Docker容器,直觉告诉我应该是Elasticsearch服务...

不算太重要的服务,先停了清理空间再说.

删掉了容器删了data文件,重启nginx,一切都正常Work了.

问题解决!!!

不过Elasticsearch总要重新回复回来嘛,看了下腾讯云云硬盘盘价格,也不是很贵嘛.

单独给Elasticsearch 起个数据盘吧.

作死开始

首先根据腾讯云的指示,挂在了数据盘到服务器上面.

然后给数据盘分区,接着mount到对应的路径.

嗯,好像有个警告.

难道不是这个磁盘么?换另外一个看看.

执行另外一个mount.

全程命令如下:

进入对应目录清空一下云盘数据吧.(PS:脑子有病才做这个,刚刚初始化的云盘哪有东西.)

ls 看一下,咋这么多奇奇怪怪的文件,难道是原来Elasticsearch docker 容器留下来的.

先删了再说.

执行 rm -rf ./*

咦,怎么有文件busy无法删除.

额,咋ls都没有了.

哈?cat 也没有了.

噗,copy也炸了.

cd 还在.

哇卡,这可咋办了.

先复盘一下做了什么事情

  • 初始化磁盘的时候没有格式化,但是mount失败

  • mount失败后没有检查原因,直接尝试把另一个磁盘mount进去

  • mount系统盘到指定文件夹后并没有检查内容,直接rm -rf ./*

  • rm -rf ./* 此时已经基本没救了

拯救尝试

还在跑的服务基本是活着的,所以暂时来说API和Web网站都是好的。

服务器上面跑的基本都是Docker容器, Docker镜像都在阿里云上面存着,基本不怕丢失的问题。

不过应用配置文件/服务器证书之类的东西都在上面,这个估计要折腾一下了。

cd 还能用,ls没了,cat也没了。

尝试cat xxx.conf也没用了,难道只能一点点翻配置文件么.

群里的朋友提了一句,看看你的云盘有没有备份之类的.

咦,好像两个星期前找腾讯云技术支持的时候做过一次系统镜像.

是不是可以直接拿回来直接用?

看了下具体的镜像版本和备注信息,看起来那时候上面的内容和现在的估计没太多变化.

直接重装之后更新一下各个服务的镜像到最新版本应该就好了.

放弃拯救,直接使用备份的系统镜像重装

Work...

系统备份镜像拯救世界!!!

后续操作 + 总结

  • 数据盘和系统盘分开,不要让程序的数据导致系统不可用

  • 在费用允许的情况下设置磁盘快照策略,我这边最极端的情况下也应该能回滚到一个星期前的版本

  • 下次大影响操作前先手动备份系统镜像,救命稻草一般的存在.