首页
手机
笔记本平板
家电厨卫
数码影音
DIY整机
企业IT
服务器
网络通信
存储
网络安全
虚拟化
数据中心
无线组网
企业商用
技术开发
信息化
云计算
大数据
办公
办公频道
打印机
复合机
投影机
3D打印
耗材
互动
Chinaunix
ITPub社区
IT文库
数据库大会
架构师大会
社区
本友会
机友会
索尼论坛
技术开发
频道
IT168首页
>
技术开发
>
技术开发技术
> 正文
通用网页抓取设计
作者:ITPUB论坛
编辑:
nancy
2008-04-02 20:23
分享
【IT168技术文档】
网页抓取是一个比较简单的工作,主要分为以下三步:一:分析要抓取的网页,获取待抓取的页面地址;二、用下载方式缓存网页,如果网站设置有访问时间限制,就要用这步来缓存;三、分析缓存中的网页,整理数据
在所有步骤中,对于所有的网站,只有获取换取地址、缓存网页、处理网页这几个方式不一定一样,其它的处理方式,都可以认为是一样的
总体接口设计
接口设计
包括地址抓取、处理、文件缓存、消息传递委托类型,消息类型;
0
相关文章
关注我们