利用Python抓取和解析网页(下)-技术开发专区

利用Python抓取和解析网页(下)

作者：IT168 宇文编辑：覃里 2009-07-07 10:20 来源：IT168�

　　【IT168 技术专稿】对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说，经常用到对网页(即HTML文件)的解析处理。事实上，通过Python语言提供的各种模块，我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文上篇中，我们介绍了一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块。在本文中，我们将论述如何使用Python模块来迅速解析在HTML文件中的数据，从而处理特定的内容，如链接、图像和Cookie等。同时还会介绍如何规范HTML文件的格式标签。

　　一、从HTML文档中提取链接

　　Python语言还有一个非常有用的模块HTMLParser，该模块使我们能够根据HTML文档中的标签来简洁、高效地解析HTML文档。所以，在处理HTML文档的时候，HTMLParser是最常用的模块之一。

　　import HTMLParser

　　import urllib

　　class parseLinks(HTMLParser.HTMLParser):

　　def handle_starttag(self, tag, attrs):

　　if tag == 'a':

　　for name,value in attrs:

　　if name == 'href':

　　print value

　　print self.get_starttag_text()

　　lParser = parseLinks()

　　lParser.feed(urllib.urlopen("http://www.python.org/index.html").read())

　　处理HTML文档的时候，我们常常需要从其中提取出所有的链接。使用HTMLParser模块后，这项任务将变得易如反掌。首先，我们需要定义一个新的HTMLParser类，以覆盖handle_starttag()方法，我们将使用这个方法来显示所有标签的HRef属性值。

　　定义好新的HTMLParser类之后，需要创建一个实例来返回HTMLParser对象。然后，就可以使用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。

　　为了解析HTML文件的内容并显示包含其中的链接，可以使用read()函数将数据传递给HTMLParser对象。HTMLParser对象的feed函数将接收数据，并通过定义的HTMLParser对象对数据进行相应的解析。需要注意，如果传给HTMLParser的feed()函数的数据不完整的话，那么不完整的标签会保存下来，并在下一次调用feed()函数时进行解析。当HTML文件很大，需要分段发送给解析器的时候，这个功能就会有用武之地了。下面是一个具体的例子

　　import HTMLParser

　　import urllib

　　import sys

　　#定义HTML解析器

　　class parseLinks(HTMLParser.HTMLParser):

　　def handle_starttag(self, tag, attrs):

　　if tag == 'a':

　　for name,value in attrs:

　　if name == 'href':

　　print value

　　print self.get_starttag_text()

　　#创建HTML解析器的实例

　　lParser = parseLinks()

　　#打开HTML文件

　　lParser.feed(urllib.urlopen( \

　　"http://www.python.org/index.html").read())

　　lParser.close()

　　上述代码的运行结果太长，在此省略，您可以自己运行代码试试。

第1页：一、从HTML文档中提取链接第2页：二、从HTML文档中提取图像第3页：三、从HTML文档中提取文本第4页：四、从HTML文档中提取Cookies 第5页：五、为HTML文档中的属性值添加引号

关注我们