成就大型高性能网站的十项规则-技术开发专区

成就大型高性能网站的十项规则

作者：程序员杂志编辑：胡铭娅 2010-05-05 09:42 来源：程序员杂志

　　【IT168技术评论】在我们公司ChinaNetCloud，见过多种不同类型的网站和系统，有好也有差。其中有些系统拥有良好的服务器/网络架构，并且进行了合理的调整和监控;然而一般的系统都会有安全和性能上的问题，不能良好运行，也无法变得更流行。

　　在中国，开源的LAMP栈是最流行的网络架构，它使用PHP开发，运行在Apache服务器上，以MySQL作为数据库，所有这些都运行在Linux上。它是个可靠的平台，运行良好，是现在全球最流行的Internet系统架构。然而，我们很难对其规模进行正确的扩展并保持安全性，因为每个应用层都有其自身的问题、缺陷和非常好的实践。我们的工作就是帮助企业用最低的操作成本来创建并运行高性能的、可伸缩的、安全的系统，因此对于这类问题我们有很丰富的经验。

　　当前的实际情况是，很多网站都是由开发人员快速而廉价地创建，通常没有任何IT人员或者经理，只是由程序员来管理系统。造成的结果是，虽然花费很低的成本，网站就可以开始运行，但是当拥有大量用户、需要扩展规模的时候，通常就会面临真正的问题。毕竟，中国拥有三亿八千万的Internet用户，如果其中的0.01%访问这个站点，就很容易引发25 万~50万的页面访问量。这些问题在各个级别上都会产生，下面总结的规则是对最一般的问题进行概述，并且说明为什么这些规则如此重要，以及最好采用什么方法来修正它们。遵循这些建议的站点会提高它的可伸缩性、安全性以及操作上的稳定性。

　　1. 使用合适的会话管理

　　第一个想到的扩展系统的方法就是添加更多硬件。例如，使用两台服务器而不是一台。这听着合理，但会产生潜在问题：会话管理。这对Java程序来说是很严重的问题，在PHP中也会产生可延展性问题，对于数据库的负载尤其如此。

　　会话被定义为单独的最终用户登录或者连接一段时间，其中通常会包含多个TCP/IP的HTTP连接、几个Web页面，通常还包括几十个甚至上百个页面元素，如框架、菜单、Ajax更新等。所有这些 HTTP请求都需要知道用户是谁，才能满足安全的要求，并向用户传送适当的内容，因为这些都是会话的组成部分。通常每个会话都会包括相互关联的会话数据，如用户名、用户ID、历史、购物车、统计资料等等信息。

　　问题在于，在有两台Web服务器和多个 HTTP连接的情况下，用户流量会在两台服务器之间分配和移动，服务器很难知道用户是谁，并对所有数据进行跟踪，因为每个页面或者页面的组成部分都可能来自不同的服务器。在PHP中，通常是这样解决的，在第一次连接或登录的时候就创建一个会话ID并将其放在Cookie中，然后这个Cookie会和每个 HTTP请求一起发送。

　　这样做带来一个问题，接下来每段PHP脚本都需要基于ID来查找会话数据。由于PHP无法在执行过程之间保持状态(这与Java不同)，这个会话数据需要存储在某个地方，通常是在数据库中。但是，如果复杂的页面需要在每个页面载入过程中对其进行十次查找(这是经常要做的)，那就意味着每个页面都要执行10次SQL查询，这会导致数据库上很大的负载。

　　在前面所举的中国 Internet用户0.01%的例子中，可能很容易在每秒内仅仅为了管理会话就生成上百个查询。解决方法是一直使用位于Cookie中的会话ID，并且使用像Memcached之类的服务来缓存会话数据以获得高性能。

　　还要注意其中存在安全性的问题，因为黑客可以伪造另一个用户的会话ID，这是很容易找到或看到的，特别是在公用的Wi-Fi中。解决方法是对会话ID进行恰当的加密或者签名，并将其与时间区间、 IP地址以及其他关键信息像浏览器或者其他细节相绑定。在Internet上有很多不错的关于良好的会话管理的例子，你可以根据需要找到最适合的。

　　2. 总是要考虑安全性

　　尽管编写像防止SQL注入和登录安全之类的代码涉及很多安全问题，但不幸的是，几乎没有人考虑过安全性，而那些考虑到的人也没有对其进行很好地理解。而本文要关注的是操作性的系统安全。对于这类安全，我们的焦点集中在三个安全领域：防火墙、运行的用户以及文件访问权限。

　　除了配置专门的硬件防火墙(像Cisco的 ASA)之外，所有服务器都还应该运行像Iptables之类的防火墙，它会保护服务器免受其他威胁和攻击。这些威胁和攻击可能来自公共的Internet、其他服务器或本地服务器，也包括使用VPN或者SSH通道的开发和操作人员。我们仅对指定的IP开放确实需要的端口。Iptables可能会很复杂，但是有很多不错的模板，我们通常可以使用它们来帮助客户创建Iptables。例如，默认的RedHat或者CentOS防火墙的配置说明只有10行，显然并不实用。我们非常好的实践的Iptables配置大概有5页，这其中包含了Linux所能提供的较高级的安全防范。

　　所有公用的服务，都应该运行在专门的用户下，如Apache。切记永远都不要使用Root用户运行，因为这会让任何闯入到Apache的用户接管整个服务器。如果Apache只是运行在Apache用户下或者运行在Nobody下，那么闯入Apache就不是一件容易的事情了。

　　Web服务器运行或者服务的文件 (像.php和.html文件)对于Web服务器的用户应该是不可写的。这意味着Apache或者Nginx用户不应该拥有Web目录的写权限。有很多方法都可以做到这一点，而最简单的就是将这些文件为其他用户所有，然后让Apache/Nginx等用户归属于能够使用640权限读取文件的组中。这会防范几乎所有的黑客和针对页面的攻击。

　　此外，永远不要使用FTP来上传文件，特别是在公用的Wi-Fi环境中，因为在其中黑客很容易盗取用户名和密码。取而代之的是使用SFTP会更加安全。另外，每个雇员都应该拥有自己的用户ID和随机密码。

　　3. 使用标准的路径和安装配置

　　一个令人讨厌的部署问题是，开发者很少考虑他们的软件会被部署到生产Web服务器的什么位置，以及如何部署。我们看到过许多大型的系统将它们的PHP代码部署在/home/xiaofeng或者/web/code路径下。事实上，这两个路径都是非常不标准的，并且会带来操作和安全性的问题。当这些系统从开发环境转移到测试环境再到生产环境中时，因为每个安装配置都是非标准的，所以经常会出现问题，这时就需要开发者调整才能够正常工作。

　　你应该总是使用标准的安装包和二进制文件来安装像Apache之类的服务器。不要从源代码编译或者安装Tarball，因为这会导致长期稳定性和管理上的问题，另外在服务器上安装多个不同的版本也会造成混淆。

　　Web站点应该总是在指定的平台和 Linux发布的标准路径下进行测试和部署，像 RedHat 或者CentOS下的/var/www/html路径。这有助于对系统进行有效的权限管理、备份、配置、监控以及其他操作。

　　Web服务器的日志应该存放在/var/logs或者/var/logs/app_name下，而不应该位于主代码区域。这样做的原因不仅仅是因为这些标准的路径很重要，更应该关注的是，恰当地配置服务器会将/var配置为分离的文件系统。如果应用程序突然写入了大量日志并占用所有磁盘空间，由于我们做了以上的配置就不会导致系统崩溃，或者其他严重的问题。如果日志位于其他位置，就可能会产生问题。

　　4. 总是使用日志

　　在Web系统中做多少日志都不为过。所有系统都应该将重要的数据写入到日志中，不管是它们自己的日志还是系统的Syslog。Cron的Job以及其他Shell脚本或者C语言的程序，对日志都有相应标准以及简单的函数。在Shell脚本中，只需要使用Logger命令就可以实现日志的写入。在脚本启动/停止、重要的脚本执行以及实时数据产生的情况下都要执行写入日志操作。这样出现问题的时候，查看主要的系统日志就可以很容易地看到发生了什么。

　　大型系统经常会使用专门的工具如Local5来记录日志，并配置Syslog或者Syslog-ng来将其存放在单独的文件中，这样会更容易使用。需要注意的是，Syslog工具和 Logger(以及任何Syslog调用)默认优先使用user.notice，如有必要，你可以对其进行调整。

　　一个好的系统会对程序进行配置，用来打开或者关闭日志，并可以选择在每模块或者功能的级别上应用不同级别的日志。这使得我们可以记录非常详细和强大的日志，用来分析和调试在生产操作中所发生的问题。

第1页：使用合适的会话管理第2页：使用良好的数据库设计和SQL

关注我们