搜索引擎语义排序的研究与实现
技术:Java、JSP等摘要:
为了适应网络信息的飞速增长,并且能够迅速、方便地从网络中获取有效信息, 搜索引擎逐渐走进了人们的生活,“飞梦”搜索引擎系统在这样的条件下,应运而生。本文首先系统的介绍了搜索引擎的概念、发展历史、和搜索引擎的分类。使读者能够初步了解搜索引擎技术。然后,详细介绍了“飞梦”搜索引擎系统。
“飞梦”搜索引擎是基于Web的搜索引擎。系统的前端以MVC模式来实现,Struts作为视图层,Spring做中间层,Hibernate作后端来开发实现的。本系统分为四个子模块,抓取模块实现的功能为:将web上的海量网页抓取到系统中,采用的实现方法是使用Heritrix来完成对网页的抓取。处理模块实现的功能为:解析网页,提取其中的有用内容,为网页建立词库,对解析网页生成的信息文件进行分词,并建立索引,将索引存入数据库中,采用的实现方法是:通过Lucene的API来实现对网页内容的建索,使用HTMLParser的API实现了对网页内容的解析。语义排序模块实现的主要功能是:对数据库中索引进行排序,通过核心排序算法实现语义排序,存于缓存中供用户查询。用户模块实现的主要功能是:用户模块是系统的用户接口,用户通过此模块完成与系统的交互,当用户在查询界面上输入要检索的信息后,系统将在可以接受的时间内,返回用户所需的结果集;采用DWR(Direct Web Remoting)封装了AJAX技术,处理用户请求;
关键词:搜索引擎,Lucene,Heritrix,语义排序
目录:
1 引言 1
2 课题背景 2
2.1搜索引擎的概念 2
2.2搜索引擎的发展历史 3
2.2.1搜索引擎的起源 3
2.2.2第一代搜索引擎 3
2.2.3第二代搜索引擎 3
2.2.4当前著名的搜索引擎简介 4
2.3搜索引擎的分类 5
2.3.1全文索引 5
2.3.2目录索引 5
2.3.3元搜索引擎 6
2.3.4垂直搜索引擎 6
2.3.5其他非主流搜索引擎形式 6
3系统需求分析 7
3.1搜索引擎的工作原理 7
3.2系统功能需求 7
3.3系统性能需求 8
4 系统总体设计 9
4.1“飞梦”搜索引擎系统总体介绍 9
4.1.1 “飞梦”搜索引擎系统工作机制 9
4.1.2 几种常见的语义WEB排序技术 9
4.1.3 语义本体概念 10
4.1.4 语义搜索 10
4.1.5 基于本体的语义排序 11
4.2系统逻辑设计 13
4.2.1系统时序图 13
4.2.2系统流程图 14
4.2.3系统数据流程图 15
4.3系统模块介绍 16
4.3.1 模块功能介绍 16
5系统详细设计 21
5.1模块总体介绍 21
5.2抓取子模块 22
5.2.1运行Heritrix子模块 22
5.2.2分析网页子模块 27
5.3信息检索子模块 30
5.3.1解析网页子模块 30
5.3.2创建词库子模块 31
5.3.3生成持久化类子模块 31
5.3.4创建Document子模块 32
5.3.5存储数据子模块 33
5.4语义排序模块 33
5.4.1概念定义 33
5.4.2算法实现原理 34
5.4.3 语义排序部分代码 35
5.5用户子模块 38
5.5.1搜索页面 38
5.5.2详细信息页面 38
5.5.3后台信息管理 39
6 结论 40
参 考 文 献 41
致 谢 43
包含资料:
截图:
百度网盘下载地址(金币充值):
**** 本内容需购买 ****
页:
[1]