admin 发表于 2016-5-5 13:01:26

网络爬虫毕业设计

技术:Java、JSP等
摘要:
因特网目前是一个巨大、分布广泛、全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务。但Internet所固有的开放性、动态性与异构性,使得准确快捷地获取网络信息存在一定难度。
本文的目的就是对网站内容进行分析,解析其中的超链接以及对应的正文信息,然后再通过URL与正文反馈网站内容,设计出抓取网页链接这个程序。
    抓取网页中的所有链接是一种搜集互联网信息的程序。通过抓取网页中的链接能够为搜索引擎采集网络信息,这种方法有生成页面简单、快速的优点,提高了网页的可读性、安全性,生成的页面也更利于设计者使用。

关键词: 网页解析;JAVA;链接;信息抽取

目录:
摘要    I
ABSTRACT    II
1绪论    1
1.1课题背景    1
1.2网页信息抓取的历史和应用    1
1.3抓取链接技术的现状    2
1.3.1网页信息抓取的应用    3
1.3.2网页信息提取定义    4
2系统开发技术和工具    7
2.1项目开发的工具    7
2.1.1Tomcat简介    7
2.1.2MyEclipse简介    7
2.2项目开发技术    8
2.2.1JSP简介    8
2.2.2Servlet简介    10
2.3创建线程    11
2.3.1创建线程方式    11
2.3.2JAVA中的线程的生命周期    12
2.3.3JAVA线程的结束方式    12
2.3.4多线程同步    12
3系统需求分析    14
3.1需求分析    14
3.2可行性分析    14
3.2.1操作可行性    14
3.2.2技术可行性    14
3.2.3经济可行性   15
3.2.4法律可行性    15
3.3业务分析    15
3.4功能需求    17
4概要设计    18
4.1运行工具    18
4.2抓取网页中所有链接的体系结构    18
4.3抓取网页中链接工作过程    19
4.4   页面的设计    21
4.4.1页面的配置    21
4.4.2系统主页面    21
5系统详细设计与实现    24
5.1抓取链接工作    24
5.2URL解析    25
5.3抓取原理    26
5.3.1初始化URL    26
5.3.2读取页面    27
5.3.3解析网页    27
5.4URL读取、解析    29
5.4.1URL读取    29
5.4.2URL解析    30
6系统测试    33
6.1软件测试简介    33
6.2软件测试方法    33
6.3测试结果    34
结论    38
参考文献    39
致谢    40
外文原文    41
外文译文    46

包含资料:


截图:





百度网盘下载地址(金币充值):
**** 本内容需购买 ****


1123412557 发表于 2020-1-30 19:41:23

确实是难得好帖啊,顶先
页: [1]
查看完整版本: 网络爬虫毕业设计