技术开发 频道

详解Python 3.1新变化之性能改善篇

  【IT168 技术文档】Python 3.0发布七个月之后,Python核心开发人员于2009年6月27日发布了新的Python 3.1版本。虽然此3.1版本只是对Python 3.0的一次小型升级,但是它不仅为开发者带来许多让人感兴趣的特性,同时在性能方面也有所改善。在上一篇中,我们为读者详细介绍了Python 3.1版本在标准程序库方面的变化,本文则要为读者介绍新版本在性能方面的改善。

  在Python 3.1的开发计划中,很大一部分都是关于性能的,那么这一版本发布后,都是哪些性能得到改善呢?下面我们将一一加以介绍。

  相关文章:详解Python 3.1的新变化之标准程序库篇
                      详解Python 3.1新变化之核心语言篇

  一、利用C语言实现了I/O库

  Python 3.0曾以使用Python实现了一个新的I/O库而引以为豪,但是其性能大家可想而知——和您估计的一样,非常的低。在Python 3.1中,人们利用C语言重新实现了此程序库,所以它的性能得到了极大的提升,大概快了2到20倍。为此,我们写了一段代码:向一个文件中写入5,000,000字节的内容,连续写入10次,然后计算其平均耗时。我们分别在Python 2.5、2.6、3.0和3.1下运行该代码,然后比较其结果。

  from __future__ import with_statement

  
import sys

  
import time

  
if sys.version_info[0] == 3:

  
exec("c = b'X'")

  
else:

  c
= 'X'

  
def test_write_speed():

  start
= time.time()

  with open(
'1.txt', 'wb') as f:

  
for i in range(5000000):

  f.write(c)

  end
= time.time() - start

  
print (end)

  
return end

  times
= [test_write_speed() for i in range(10)]

  times.remove(max(times))

  times.remove(min(times))

  
print('Average:', sum(times) / len(times))

  这里是上面代码在不同版本下的平均时间(这里以秒为单位):

  * Python 2.5 - 3.0146874487400055

  
* Python 2.6 - 4.4676837027072906

  
* Python 3.0 - 33.0755852461

  
* Python 3.1 - 5.7733258903

  看到这样的结果,是不是既让人感兴趣又让人很困惑呀:对于这个向文件逐字节写入的基本I/O任务,不同Python版本之间的性能差别是不是很明显呢?Python 3.0的性能有了很大的下降,这是可以理解的,原因前面已经提过。不过,Python 2.6的性能比Python 2.5低了50%,而Python 3.1的性能有几乎是Python 2.5的两倍。

  对于同样的测试,如果文件作为文本文件打开(即把wb换成w),并且向文件写入字符串“1”而非写入字节,如下:

  ...

  with open(
'1.txt', 'w') as f:

  
for i in range(5000000):

  f.write(
'X')

  ...

  则它们的平均时间为(以秒为单位):

  * Python 2.5 - 3.1337025165557861

  
* Python 2.6 - 2.9250392615795135

  
* Python 3.0 - 68.4243619442

  
* Python 3.1 - 3.43869066238

  从中我们可以了解到些什么呢?首先,对于该任务Python 3.0的性能是惨不忍睹的,它写入字符的耗时是写入字节的两倍,并且几乎比Python 3.1的性能地了二十倍。 Python 2.5、2.6和3.1所用的时间大体相当。

  二、字符解码

  从Python 2.x升级到Python 3.0的时候,Unicode的处理有了明显的改善。以下程序将对一个存放在缓冲区的1,000,000个希伯来语单词“shalom”在UTF-8和UTF-16之间来回进行编码和解码处理。此缓冲区总大小为五百万字节。

  from __future__ import with_statement

  
import sys

  
import time

  
def test_encode_decode():

  shalom
= ' \u05dd\u05d5\u05dc\u05e9'

  text
= shalom * 1000000

  start
= time.time()

  text_utf8
= text.encode('utf-8')

  text_utf16
= text.encode('utf-16')

  
assert text_utf8.decode() == text

  
assert text_utf16.decode('utf-16') == text

  end
= time.time() - start

  
print (shalom, end)

  
return end

  test
= test_encode_decode

  
if __name__=='__main__':

  times
= [test() for i in range(10)]

  times.remove(max(times))

  times.remove(min(times))

  
print('Average:', sum(times) / len(times))

  当分别在Python 2.5、2.6、3.0和3.1下运行该程序的时候,得到的结果如下所示:

  * Python 2.5 - 1.6552573442459106

  
* Python 2.6 - 1.6100345551967621

  
* Python 3.0 - 0.280230671167

  
* Python 3.1 - 0.205590486526

  在Python 2.5和2.6下运行此程序的时候,两种的速度大体相当;然而,Python 3.0却要快得多(大约快了5-6倍),而Python 3.1则要比Python 2.x快了近八倍,比Python 3.0快40%左右。

  三、JSON方面的改进

  在Python 3.1中,json模块获得了一个C扩展,这使得它的性能有了显著的提高。以下程序将创建一个嵌套的数据结构,该数据结构由一个字典列表构成,而字典又包含其他存放基本值的字典的列表。此程序将整个列表串行化为一个JSON,然后又返回。下面给出了原始数据结构(重复了100次):

  'z': [{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'}],

  
'zzz': [{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'}],

  
'zz': [{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},

  {
'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'}]}

  下面是处理清单 1 中的数据的程序:

  from __future__ import with_statement

  
import sys

  
import time

  
import json

  
def test_json():

  x
= dict(a=1, b='BBBB', c=4.56)

  x6
= 6 * [x]

  y
= dict(z=x6, zz=2 * x6, zzz=3 * x6)

  
print (y)

  sys.exit()

  o
= 100 *[y]

  start
= time.time()

  j
= json.dumps(o)

  
assert json.loads(j) == o

  end
= time.time() - start

  
return end

  test
= test_json

  
if __name__=='__main__':

  times
= [test() for i in range(10)]

  times.remove(max(times))

  times.remove(min(times))

  由于Python 2.5没有提供标准的json模块,所以下面是从Python 2.6、Python 3.0和Python 3.1中得到的结果:

  * Python 2.6: 0.58422702550888062

  
* Python 3.0: 0.580562502146

  
* Python 3.1: 0.0455559492111

  这些结果表明,Python 2.6和Python 3.0之间没有明显的差别。Python 3.1的速度则提高了一个数量级。这一点非常重要,因为JSON是Web 服务的通用语,如果您的web服务会接收或返回大量的JSON数据的话,编码/解码工作将会占据处理每个请求的很大一部分时间。

  还有另一个变化,就是json模块只能跟str(Python 3的Unicode字符串)一起使用,而不能跟字节一起使用。

  四、封装属性的管束

  Pickle 模块现在会对封装对象的属性名称进行管制,这意味着如果您封装了许多同名对象,那么这些对象必须具有相同的属性名称。因此,您不必给每个对象多次存放相同的字符串(属性名称),只需保存一个包含所有属性名称的一个表,并保存每个属性的索引即可(或者,仅保存向每个对象的标准属性名称集合中增加或删除的放动态属性)。这样做能够做到尽量减小封装,所以能够更快的加载(或拆封)。

  下面的代码中的测试程序定义了一个类A,它有三个很长的属性名称;然后又创建了一个列表,其中含有100000个字典;而每个字典都有一个长的键,并且用对象作为其值。 最后,它将整个列表封装成一个文件,然后对其进行拆封。下面我们看看它所需的时间。

  * Python 2.6: 0.58422702550888062

  
* Python 3.0: 0.580562502146

  
* Python 3.1: 0.0455559492111

  对于Python 3.0和3.1来说,此封装的大小都是200359字节。用时如下所示:

  * Python 2.6: 0.58422702550888062

  
* Python 3.0: 0.580562502146

  
* Python 3.1: 0.0455559492111

  五、其他变化

  下面是新版本中一些其他方面的性能改善:

  u 元组和字典仅仅存放垃圾收集器不再跟踪的不可跟踪对象

  u 一个新的配置选项--with-computed-gotos。这个选项能够使字节码估价循环使用一个新的调度机制,并能提速20%(并非所有编译器都可用)。

  u 在之前的版本中整数占据15位,现在可以在15位或者30位之间进行选择。30位整数在64 位系统上速度更快,但是在32位系统上的速度尚不清楚。 所以,在64 位系统上时默认为30位,在32位系统上默认为15位。对于UNIX操作系统,可以使用另一个新的配置选项即--enable-big-digits来覆盖这个默认设置。

  六、Python 3的程序库迁移

  您可能已经听说了,Python 3是一个颇具争议的版本,因为它缺乏对Python 2.x的向后兼容性。Python开发团队虽然在简化从Python 2.x到Python 3.x的迁移方面做了大量的工作,但是他们仍然没有将所有现有的第三方程序库全部迁移到Python 3版本。遗憾的是,对于许多项目来说,这仍然是一个主要问题。所以,这里还有一个先有鸡还是先有蛋的问题。程序库开发人员不会积极将其程序库移植到Python 3,除非他们的用户要求他们这样做。同时,用户也在等待所有依赖的程序库全部移到Python 3,这是它们才会将项目移植到Python 3。

  Python语言的程序包索引中包含了大约5000个通用的软件包,同时还有50个专门用于Python 3的软件包。 当然,这5000个软件包中可能含有一些已经无人维护的软件包。但是被大量项目所使用的一些“轴心”软件包却是要移植的关键软件包。人们通常认为,Python 3之所以没有引起太大的轰动,是因为许多“轴心”软件包,例如numpy、PIL和twisted还没有移植到Python 3的缘故。毫无疑问,重要的软件包通常更大,并也更复杂,所以移植起来也更加费时。

  七、小结

  就像您看到的那样,在Python 3.1中的关键功能、方便性和性能方面发生了许多改进。这个版本再次向世人证明,Python语言是多么的稳固,它的开发人员和社区又是多么的可信赖的。它是一个非常均衡的版本,无论是核心语言还是标准程序库,两个方面都照顾到了。用一句话概括:这是一个产品级的版本。

0
相关文章