机房那点事儿

等到 IaaS 普及的那一天,开发者的线下运维就真要成为历史了。现在就想写点什么,以此留念。

我们团队很长一段时间没有专职运维,和硬件打交道的事,都是两三个研发抽空搞一搞。代码写久了,搬搬机器换换脑子,我倒是挺乐此不疲的。我们从最初一个机房几台机器,发展到后来两个机房几十台机器,在精力人力都受限的情况下,怎么管理和维护倒是有一些积累。

先说装备,每次去机房我会过一遍的 checklist:

  • 出入证,身份证,出门前检查一下;
  • 待上架的设备,最沉的东西请自行找好苦力;
  • 网线,电源线,视频线,条件好的机房有提供;
  • 机架位分布图,记录每台机器的位置和连接端口;
  • 键盘,我用一个 IBM 外接键盘,机房专用的,当然也可以管机房借;
  • 笔记本电脑,万一要访问个 Web 界面什么的,iPad 也行,想好怎么连内外网;
  • 标签贴,给每台设备贴上 IP 和主机名;
  • 手机和 Evernote,用来记录各种密码和备忘录;
  • 手电筒,有些设备很短,卡在架子上露头不露尾,要用手电照明;
  • 蓝牙耳机,当你需要场外援助时,能解放双手;
  • 系统恢复盘和外接光驱,不一定每次都用到,不过留在机房以防万一;
  • 外套,机房太冷最好预备着以防被冻死。

再有一些注意事项:
网线用超五类,长度适中,不要太长否则堆在一起不好梳理。把每根网线的两头都贴上标号,方便辨认同一根线的两头。
电源线用服务器专用的立头,扁头的容易被不小心掀掉。有备用电源的一定要接上。
每上架一台服务器,都要严格记录好它的位置,所用网线标号,和连接的交换机端口号。
提前设置好机器的系统账户和网络配置,省得到机房手忙脚乱。

系统容量规划的事情要早点做,设备提早采购,等真到觉得机器不够用时,再去搞往往就晚了。我们在每个机房都留有一两台备机,真到需要时可以立马顶上。

采购流程因公司而异,要和财务法务打交道,把所有材料和手续准备好,这事考验的是细心和耐心,当然还有人品和人脉。新机器拿到手,装好系统,通常先跑一周测试,看看内存、磁盘、主板、电源有什么问题。

没有不会坏的机器,只有早坏或晚坏的问题,小概率事情必然发生。我们之前新买了一台刀片开始都好好的,放那儿没管,一个月后准备搬到机房时,发现内存自检怎么也过不去,最终厂商给换了主板才好。这事也提醒我们永远把服务备份和机器备份当作首要任务。

随着国内公有云不断成熟,小项目为节约各项成本可以试着用。但可控性必定不如自建,当需要优化系统内核,调整配置参数会不太自由,系统性能和稳定性也有待验证。现阶段把云服务如小文件存储,作为系统架构的一个组成部分,而不是全盘使用,会是更实用的解决方案。

-EOF-