网络爬虫的设计与实现
技术:Java、JSP等摘要:
搜索引擎作为一种信息检索技术,在当今互联网时代有巨大的应用,与此同时,也有较为广阔的发展前景,并且已经成为互联网行业新的经济增长点。随着社会的飞速发展,互联网上信息容量急剧增加,人们对搜索引擎的依赖愈发强烈。网络爬虫是搜索引擎的关键技术之一,同时也是快速获取网络上可用资源的有效工具。为了能够对网络爬虫更深入的了解并熟练合理的应用于各种的应用和系统中,经过对网络爬虫的框架、基本工作流程、抓取策略的分析和了解,使用Java与MySQL数据库实现一个网络爬虫,简单爬取搜狐新闻。
关键词:搜索引擎;网络爬虫;抓取策略;Java;MySQL;
目录:
1绪论 1
1.1搜索引擎的发展介绍 1
1.2网络爬虫技术研究现状 1
1.3网络爬虫的相关技术 3
1.4论文结构 4
2相关技术分析 5
2.1抓取页面 5
2.1.1深入理解URL 5
2.1.2通过指定的URL抓取网页内容 6
2.2宽度优先爬虫和带偏好的爬虫 8
2.2.1图的广度优先遍历 9
2.2.2广度优先遍历互联网 10
2.2.3带偏好的爬虫 13
2.3设计爬虫队列 14
2.3.1Berkeley DB数据库 15
2.3.2布隆过滤器 16
2.4设计爬虫架构 16
2.5分布式爬虫的架构 16
2.6限定爬虫和主题爬虫 18
2.6.1主题爬虫 18
2.6.2限定爬虫 19
3网络爬虫系统的设计与实现 21
3.1HtmlParser的了解 21
3.2 NodeList对象 22
3.2.1单个标签本身过滤的情况 22
3.2.2单个标签同级过滤的情况 23
3.2.3单个标签上级过滤的情况 23
3.2.4单个标签下级过滤的情况 23
3.2.5两个标签组合的情况 23
3.2.6根据标签属性或标签属性和标签属性值过滤 24
3.2.7标签类过滤的情况 25
3.3网络爬虫系统的设计 25
3.4网络爬虫系统的具体实现 25
3.5主要代码展示 27
3.6数据库的设计 31
4功能测试 32
4.1实验环境设置 32
4.2系统测试 32
5总结与展望 35
5.1研究工作的总结 35
5.2下一步工作的展望 36
参考文献 37
致谢 38
附录: 39
外文原文: 39
中文翻译: 44
论文字数:23591
包含资料:
截图:
百度网盘下载地址(金币充值):
**** 本内容需购买 ****
页:
[1]