【IT168 技术文档】Python 3.0发布七个月之后,Python核心开发人员于2009年6月27日发布了新的Python 3.1版本。虽然此3.1版本只是对Python 3.0的一次小型升级,但是它不仅为开发者带来许多让人感兴趣的特性,同时在性能方面也有所改善。在上一篇中,我们为读者详细介绍了Python 3.1版本在标准程序库方面的变化,本文则要为读者介绍新版本在性能方面的改善。
在Python 3.1的开发计划中,很大一部分都是关于性能的,那么这一版本发布后,都是哪些性能得到改善呢?下面我们将一一加以介绍。
相关文章:详解Python 3.1的新变化之标准程序库篇
详解Python 3.1新变化之核心语言篇
一、利用C语言实现了I/O库
Python 3.0曾以使用Python实现了一个新的I/O库而引以为豪,但是其性能大家可想而知——和您估计的一样,非常的低。在Python 3.1中,人们利用C语言重新实现了此程序库,所以它的性能得到了极大的提升,大概快了2到20倍。为此,我们写了一段代码:向一个文件中写入5,000,000字节的内容,连续写入10次,然后计算其平均耗时。我们分别在Python 2.5、2.6、3.0和3.1下运行该代码,然后比较其结果。
import sys
import time
if sys.version_info[0] == 3:
exec("c = b'X'")
else:
c = 'X'
def test_write_speed():
start = time.time()
with open('1.txt', 'wb') as f:
for i in range(5000000):
f.write(c)
end = time.time() - start
print (end)
return end
times = [test_write_speed() for i in range(10)]
times.remove(max(times))
times.remove(min(times))
print('Average:', sum(times) / len(times))
这里是上面代码在不同版本下的平均时间(这里以秒为单位):
* Python 2.6 - 4.4676837027072906
* Python 3.0 - 33.0755852461
* Python 3.1 - 5.7733258903
看到这样的结果,是不是既让人感兴趣又让人很困惑呀:对于这个向文件逐字节写入的基本I/O任务,不同Python版本之间的性能差别是不是很明显呢?Python 3.0的性能有了很大的下降,这是可以理解的,原因前面已经提过。不过,Python 2.6的性能比Python 2.5低了50%,而Python 3.1的性能有几乎是Python 2.5的两倍。
对于同样的测试,如果文件作为文本文件打开(即把wb换成w),并且向文件写入字符串“1”而非写入字节,如下:
with open('1.txt', 'w') as f:
for i in range(5000000):
f.write('X')
...
则它们的平均时间为(以秒为单位):
* Python 2.6 - 2.9250392615795135
* Python 3.0 - 68.4243619442
* Python 3.1 - 3.43869066238
从中我们可以了解到些什么呢?首先,对于该任务Python 3.0的性能是惨不忍睹的,它写入字符的耗时是写入字节的两倍,并且几乎比Python 3.1的性能地了二十倍。 Python 2.5、2.6和3.1所用的时间大体相当。
二、字符解码
从Python 2.x升级到Python 3.0的时候,Unicode的处理有了明显的改善。以下程序将对一个存放在缓冲区的1,000,000个希伯来语单词“shalom”在UTF-8和UTF-16之间来回进行编码和解码处理。此缓冲区总大小为五百万字节。
import sys
import time
def test_encode_decode():
shalom = ' \u05dd\u05d5\u05dc\u05e9'
text = shalom * 1000000
start = time.time()
text_utf8 = text.encode('utf-8')
text_utf16 = text.encode('utf-16')
assert text_utf8.decode() == text
assert text_utf16.decode('utf-16') == text
end = time.time() - start
print (shalom, end)
return end
test = test_encode_decode
if __name__=='__main__':
times = [test() for i in range(10)]
times.remove(max(times))
times.remove(min(times))
print('Average:', sum(times) / len(times))
当分别在Python 2.5、2.6、3.0和3.1下运行该程序的时候,得到的结果如下所示:
* Python 2.6 - 1.6100345551967621
* Python 3.0 - 0.280230671167
* Python 3.1 - 0.205590486526
在Python 2.5和2.6下运行此程序的时候,两种的速度大体相当;然而,Python 3.0却要快得多(大约快了5-6倍),而Python 3.1则要比Python 2.x快了近八倍,比Python 3.0快40%左右。
三、JSON方面的改进
在Python 3.1中,json模块获得了一个C扩展,这使得它的性能有了显著的提高。以下程序将创建一个嵌套的数据结构,该数据结构由一个字典列表构成,而字典又包含其他存放基本值的字典的列表。此程序将整个列表串行化为一个JSON,然后又返回。下面给出了原始数据结构(重复了100次):
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'}],
'zzz': [{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'}],
'zz': [{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'},
{'a': 1, 'c': 4.5599999999999996, 'b': 'BBBB'}]}
下面是处理清单 1 中的数据的程序:
import sys
import time
import json
def test_json():
x = dict(a=1, b='BBBB', c=4.56)
x6 = 6 * [x]
y = dict(z=x6, zz=2 * x6, zzz=3 * x6)
print (y)
sys.exit()
o = 100 *[y]
start = time.time()
j = json.dumps(o)
assert json.loads(j) == o
end = time.time() - start
return end
test = test_json
if __name__=='__main__':
times = [test() for i in range(10)]
times.remove(max(times))
times.remove(min(times))
由于Python 2.5没有提供标准的json模块,所以下面是从Python 2.6、Python 3.0和Python 3.1中得到的结果:
* Python 3.0: 0.580562502146
* Python 3.1: 0.0455559492111
这些结果表明,Python 2.6和Python 3.0之间没有明显的差别。Python 3.1的速度则提高了一个数量级。这一点非常重要,因为JSON是Web 服务的通用语,如果您的web服务会接收或返回大量的JSON数据的话,编码/解码工作将会占据处理每个请求的很大一部分时间。
还有另一个变化,就是json模块只能跟str(Python 3的Unicode字符串)一起使用,而不能跟字节一起使用。
四、封装属性的管束
Pickle 模块现在会对封装对象的属性名称进行管制,这意味着如果您封装了许多同名对象,那么这些对象必须具有相同的属性名称。因此,您不必给每个对象多次存放相同的字符串(属性名称),只需保存一个包含所有属性名称的一个表,并保存每个属性的索引即可(或者,仅保存向每个对象的标准属性名称集合中增加或删除的放动态属性)。这样做能够做到尽量减小封装,所以能够更快的加载(或拆封)。
下面的代码中的测试程序定义了一个类A,它有三个很长的属性名称;然后又创建了一个列表,其中含有100000个字典;而每个字典都有一个长的键,并且用对象作为其值。 最后,它将整个列表封装成一个文件,然后对其进行拆封。下面我们看看它所需的时间。
* Python 3.0: 0.580562502146
* Python 3.1: 0.0455559492111
对于Python 3.0和3.1来说,此封装的大小都是200359字节。用时如下所示:
* Python 3.0: 0.580562502146
* Python 3.1: 0.0455559492111
五、其他变化
下面是新版本中一些其他方面的性能改善:
u 元组和字典仅仅存放垃圾收集器不再跟踪的不可跟踪对象
u 一个新的配置选项--with-computed-gotos。这个选项能够使字节码估价循环使用一个新的调度机制,并能提速20%(并非所有编译器都可用)。
u 在之前的版本中整数占据15位,现在可以在15位或者30位之间进行选择。30位整数在64 位系统上速度更快,但是在32位系统上的速度尚不清楚。 所以,在64 位系统上时默认为30位,在32位系统上默认为15位。对于UNIX操作系统,可以使用另一个新的配置选项即--enable-big-digits来覆盖这个默认设置。
六、Python 3的程序库迁移
您可能已经听说了,Python 3是一个颇具争议的版本,因为它缺乏对Python 2.x的向后兼容性。Python开发团队虽然在简化从Python 2.x到Python 3.x的迁移方面做了大量的工作,但是他们仍然没有将所有现有的第三方程序库全部迁移到Python 3版本。遗憾的是,对于许多项目来说,这仍然是一个主要问题。所以,这里还有一个先有鸡还是先有蛋的问题。程序库开发人员不会积极将其程序库移植到Python 3,除非他们的用户要求他们这样做。同时,用户也在等待所有依赖的程序库全部移到Python 3,这是它们才会将项目移植到Python 3。
Python语言的程序包索引中包含了大约5000个通用的软件包,同时还有50个专门用于Python 3的软件包。 当然,这5000个软件包中可能含有一些已经无人维护的软件包。但是被大量项目所使用的一些“轴心”软件包却是要移植的关键软件包。人们通常认为,Python 3之所以没有引起太大的轰动,是因为许多“轴心”软件包,例如numpy、PIL和twisted还没有移植到Python 3的缘故。毫无疑问,重要的软件包通常更大,并也更复杂,所以移植起来也更加费时。
七、小结
就像您看到的那样,在Python 3.1中的关键功能、方便性和性能方面发生了许多改进。这个版本再次向世人证明,Python语言是多么的稳固,它的开发人员和社区又是多么的可信赖的。它是一个非常均衡的版本,无论是核心语言还是标准程序库,两个方面都照顾到了。用一句话概括:这是一个产品级的版本。