搜索引擎的研究与实现
技术:Java、JSP等摘要:
网络中的资源非常丰富,但是如何有效地找到自己需要的信息却是一件困难的事情。网络搜索引擎应运而生。本文首先详细介绍了网络搜索引擎的系统结构,然后从网页信息抓取、网页内容分析、网页索引建立、用户检索与结果排序等方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎,能够实现网页内容的抓取和搜索功能,也能够自己添加内容并显示在搜索结果中。
网络搜索引擎根据初始配置,自动从网络上抓取信息并处理,将提取到的信息结构化,然后建立索引。然后通过web服务器接收用户请求,在索引库中找到相关结果并排序,最终通过页面的形式呈现给用户。
本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了搜索引擎的实现代码来说明,图文并茂、易于理解。
关键词:搜索引擎;网络;Lucene
目录:
摘要 i
Abstract ii
1 引言 1
2 搜索引擎研究 2
2.1 搜索引擎发展历史 2
2.1.1 分类目录时代 2
2.1.2 文本检索时代 2
2.1.3 整合分析时代 2
2.1.4 用户中心时代 2
2.2 搜索引擎的结构 2
2.2.1 Web 搜索引擎体系结构 2
2.2.2 网络机器人 3
2.2.3 网页分析器 4
2.2.4 网页索引器 5
2.2.5 网页搜索器 5
2.3 现代搜索引擎的主要技术 6
2.3.1 倒排索引技术 6
2.3.2 分布式技术 6
2.4 小结 7
3 开发平台和技术 8
3.1 Java编程语言 8
3.2 MyEclipse 9
3.3 Tomcat 9
3.4 Lucene 10
3.4.1 什么是Lucene 10
3.4.2 索引和搜索 10
3.4.3 lucene能做什么 10
3.4.4 lucene的工作方式 11
3.5 Spring 11
3.6 Struts2 12
3.7 Mybatis 12
4 搜索引擎的总体设计 13
4.1 系统概述 13
4.2 系统需求 13
4.3 系统结构: 13
4.4 小结 14
5 网络机器人的实现 15
5.1 什么是网络机器人 15
5.2 网络机器人结构分析 15
5.2.1 如何解析HTML 16
5.2.2 工作流程 17
5.3 网络机器人的实现 17
5.3.1 实现说明 17
5.3.2 HTML页面结构 17
5.3.3 代码分析 18
5.4 内容处理 18
5.4.1 正文提取 19
5.5 小结 22
6 网页索引程序的实现 23
6.1 索引程序简介 23
6.2 准备工作 23
6.2.1 分词 23
6.2.2 特征值抽取 24
6.3 Lucene索引器 26
6.3.1 实现原理 26
6.3.2 存储结构 27
6.3.3 提高性能 28
6.4 实现 28
6.4.1 代码说明 28
6.5 小结 30
7 网络搜索程序和客户端的实现 31
7.1 网络搜索程序简介 31
7.2 检索 31
7.3 排序 31
7.3.1 Jaccard coefficient 32
7.3.2 向量空间模型(Vector Space Model,VSM) 32
7.4 Web客户端实现 33
7.4.1 JavaEE与Web容器 33
7.4.2 查询的基本方法 34
7.4.3 请求处理 34
7.4.4 主要代码 34
7.4.5 前端界面 35
7.5 小结 37
结论 38
参考文献 39
致 谢 40
外文原文 41
中文翻译 45
包含资料:
截图:
百度网盘下载地址(金币充值):
**** 本内容需购买 ****
确实是难得好帖啊,顶先 正需要,支持楼主大人了!
页:
[1]