4、在IT领域,不存在魔法,但是却存在幸运
就像 Thomas Jefferson 说的那样:“我发现我工作的越努力,我就越幸运。”在IT领域,也是这样的。你花费越多的时间来研究你的基础设施,关注路由器,交换机,服务器和其他设备的特定的工作条件,你的基础设施就会运行的越流畅。这些日常工作可以让你在问题的早期阶段就发现这些问题,当问题真的发生的时候,你可以更加快速地作出反应。另外,在IT领域,有很多种方法可以“制造”幸运。例如,使用一些工具,让网络设备配置的备份自动化;如果使用这种方法的话,当你的交换机发疯的时候,你可以在几分钟内恢复它,而不是几个小时。
5、在你修改每个配置文件以前,要对它们进行备份
这条规则只适用于Unix服务器和几乎各方面的配置都提供了配置文件的网络设备。在你弄坏敏感的配置以前,首先对交换机和TFTP(Trivial File Transfer Protocol)主机的配置文件进行备份。在Unix系统上,可以简单地把something.conf cp到 something.conf.orig。
在必要的时候,如果想恢复到过去那个良好的状态,只需要简单地把文件拷贝回去,然后重启那个服务就可以了。因为注册表的存在和Windows喜欢把简单的概念复杂化,所以,在Windows系统上,这通常是不可能的。即便如此,你还是可以在胡乱摆弄注册表以前,对注册表进行备份,这样的话,如果天下大乱了。你可以重新导入备份的注册表文件。记住:当你对Windows注册表进行修改的时候,服务器的生命就掌握在你的手中。
6、监控,监控,还是监控
一点点预防工作就可以省去一个月的周末加班时间。你应该对你的数据中心的方方面面进行监控,从房间的温度,机架,和服务器,到服务器进程检查,正常运行时间检查......你还应该为所有网络设备构建一个集中式的日志系统,除此之外,你还应该安装一些趋势分析工具来监控带宽利用率,温度,磁盘空间的使用率,和其他的参数。当这些参数超过正常的阀值的时候,那些监控工具应该通过必要的手段来通知你。
如果在一个数据库由于分区过满而被破坏的一个小时以前,能收到一个email或短信,那么可以省去无数的工作时间和宕机时间。对你的数据中心进行监控刻不容缓。
这些规则不仅仅是需要遵守的规则——在你日常的工作中,这些规则应该是贯彻始终的。在IT领域中,对于许多人来说,它们是核心理念,但是对于其他人来说,它们是神秘的——有点像忍者。
原文:The six immutable laws for troubleshooting IT 作者:Paul Venezia