|
技术:Java、JSP等
摘要:
本课题的主要目的是介绍网络爬虫的历史和发展历程,介绍了一些网络爬虫中常见算法,根据算法实现简单的网络爬虫,并对网络爬虫的动态抓取策略进行探究。
网络爬虫出现的不是很晚,但它在最近结合大数据时代后得以实现迅猛的发展。爬虫的种类很多,不同种类爬虫的区别实际上在于对资源的取舍问题。我关注的基本网络爬虫通过Python语言中的BeautifulSoup对网站资源进行分析,获得相应URL;利用Set集合的无重复性对url进行去重。然后我还对网络爬虫中的动态抓取问题进行了探索。随着互联网的发展,以AJAX为代表的动态刷新技术越来越受到网站开发者的喜爱,原本的抓取方法无法抓取动态的页面。为了适应不同需求,编制网络爬虫之前我们需要根据预先设定的目标对资源所存在的网站进行细致的分析。我分别采用了两者不同的方式来实现对动态目标进行抓取。
关键词: 网络爬虫;遍历算法;数据抓取
目录:
摘 要 i
Abstract ii
第一章 绪论 1
第一节 课题背景 1
第二节 课题意义 1
第三节 网络爬虫的历史 1
第四节 网络爬虫的分类 3
一、批量型爬虫(Batch Crawler): 3
二、增量型爬虫(Incremental Crawler): 3
三、垂直型爬虫(Focused Crawter): 4
第二章 相关技术背景 5
第一节 网络爬虫的定义 5
第二节 搜索策略剖析 5
一、深度优先搜索策略: 5
二、宽度优先搜索策略: 6
三、聚焦搜索策略: 6
第三节 开发方法概述 8
一、所使用的语言: 8
二、使用到的关键类库: 9
第三章 基本网络爬虫模型的分析和设计 11
第一节 基本流程分析: 11
第二节 百度百科词条爬虫设计 11
一、需求确定: 12
二、分析目标: 12
三、系统设计: 13
四、代码编写: 14
五、运行爬虫 17
第三节 动态加载技术分析: 18
第四节 花瓣网图片抓取爬虫设计: 19
一、需求确定: 19
二、分析目标: 19
三、系统设计 24
四、代码编写 24
五、爬虫运行 29
第五节 QQ空间说说的抓取 30
一、需求确定 30
二、分析目标 31
三、系统设计 40
四、代码编写 40
五、运行爬虫 45
结论 47
参考文献 49
致 谢 50
附录: 51
外文资料: 51
中文翻译 62
论文字数:52094
包含资料:
截图:
百度网盘下载地址(金币充值):
游客,本付费内容需要支付 200金币 才能浏览 支付
|
|