admin 发表于 2016-7-11 15:22:15

网络爬虫的设计与实现

技术:Java、JSP等
摘要:
搜索引擎作为一种信息检索技术,在当今互联网时代有巨大的应用,与此同时,也有较为广阔的发展前景,并且已经成为互联网行业新的经济增长点。随着社会的飞速发展,互联网上信息容量急剧增加,人们对搜索引擎的依赖愈发强烈。网络爬虫是搜索引擎的关键技术之一,同时也是快速获取网络上可用资源的有效工具。为了能够对网络爬虫更深入的了解并熟练合理的应用于各种的应用和系统中,经过对网络爬虫的框架、基本工作流程、抓取策略的分析和了解,使用Java与MySQL数据库实现一个网络爬虫,简单爬取搜狐新闻。
关键词:搜索引擎;网络爬虫;抓取策略;Java;MySQL;

目录:
1绪论    1
1.1搜索引擎的发展介绍    1
1.2网络爬虫技术研究现状    1
1.3网络爬虫的相关技术    3
1.4论文结构    4
2相关技术分析    5
2.1抓取页面    5
2.1.1深入理解URL    5
2.1.2通过指定的URL抓取网页内容    6
2.2宽度优先爬虫和带偏好的爬虫    8
2.2.1图的广度优先遍历    9
2.2.2广度优先遍历互联网    10
2.2.3带偏好的爬虫    13
2.3设计爬虫队列    14
2.3.1Berkeley DB数据库    15
2.3.2布隆过滤器    16
2.4设计爬虫架构    16
2.5分布式爬虫的架构    16
2.6限定爬虫和主题爬虫    18
2.6.1主题爬虫    18
2.6.2限定爬虫    19
3网络爬虫系统的设计与实现    21
3.1HtmlParser的了解    21
3.2 NodeList对象    22
3.2.1单个标签本身过滤的情况    22
3.2.2单个标签同级过滤的情况    23
3.2.3单个标签上级过滤的情况    23
3.2.4单个标签下级过滤的情况    23
3.2.5两个标签组合的情况    23
3.2.6根据标签属性或标签属性和标签属性值过滤    24
3.2.7标签类过滤的情况    25
3.3网络爬虫系统的设计    25
3.4网络爬虫系统的具体实现    25
3.5主要代码展示    27
3.6数据库的设计    31
4功能测试    32
4.1实验环境设置    32
4.2系统测试    32
5总结与展望    35
5.1研究工作的总结    35
5.2下一步工作的展望    36
参考文献    37
致谢    38
附录:    39
外文原文:    39
中文翻译:    44

论文字数:23591
包含资料:


截图:



百度网盘下载地址(金币充值):
**** 本内容需购买 ****


页: [1]
查看完整版本: 网络爬虫的设计与实现