职场大变样社区

标题: 基于Python的搜索引擎设计与实现 [打印本页]

作者: admin    时间: 2018-3-15 11:37
标题: 基于Python的搜索引擎设计与实现
此套毕业设计百度网盘下载地址(金币充值):
**** 本内容需购买 ****

技术:Python
摘要:
本论文说明了一个使用Python程序设计语言作为主体的全文搜索引擎的设计与实现过程。全文使用图文并茂的方式,详细论述了搜索引擎的概念、原理、历史、发展渊源、趋势,并介绍了一个自主设计实现的以Python作为实现语言的搜索引擎---Doodle。
论文中分章节详细讲述了搜索引擎Doodle的设计初衷、设计思路、最终的实现方法和每阶段的思考过程等。可以预计,本设计实现的搜索引擎系统运用在现实中会很有意义,它可以由定向爬虫定制检索内容。同时相比于百度,此搜索引擎公平公正,与谷歌运用相同的PageRank系统,没有广告的干扰,提供专业化的检索服务。在论文中的优化部分解决了一些效率和检索结果显示的问题,优化之后,使得系统可以更方便、更准确的提供搜索服务,使得使用此搜索引擎的每个人可以快速而且一目了然的找到自己想要的东西,不会由于搜集资料而浪费了宝贵的时间。本设计的最大价值在于,为每个人的日常学习生活提供极致的便利。

关键词:Python;搜索引擎;专业化;精准搜索

目录:
摘  要    I
ABSTRACT    II
1  前言    1
1.1  课题背景    1
1.2  搜索引擎发展概述    1
1.3  本文主要研究内容    2
1.4  本文结构    2
2  关于Doodle搜索引擎    3
2.1  工作原理    3
2.2  开发工具和关键技术    4
2.2.1  Python语言介绍    4
2.2.2  Django框架介绍    5
2.2.3  Scrapy框架介绍    6
2.2.4  ElasticSearch介绍    6
3  爬虫的设计    7
3.1  Doodle爬虫的介绍    7
3.1.1  概述    7
3.1.2  Scrapy框架的应用    7
3.2抓取策略与去重算法    10
3.2.1不重复抓取策略    10
3.2.2使用Bloom Filter算法进行URL去重    10
3.3  实现代码    15
4  索引与检索的设计    21
4.1  索引与检索系统的构成    21
4.2  倒排索引及其构建过程    21
4.2.1  为什么在Doodle中使用倒排索引    21
4.2.2  倒排索引=词典+倒排文件    22
4.3  索引管理器( Index Manager)    23
4.4  文档管理器(Document Manager)    23
4.5  索引检索器(Index Searcher)    24
4.6  索引构建器(Indexer)    24
4.6  Doodle中使用的PageRank系统    25
4.7  实现细节    26
4.7.1  ElasticSearch python客户端pyes建立索引和搜索    26
4.7.2  解决Django中同步数据库syncdb时的编码问题    27
4.7.3  Python下的分词插件 jieba 结巴分词    27
5  测试与优化    29
5.1  搜索引擎系统测试    29
5.1.1  测试概述    29
5.1.2  测试用例    30
5.2  系统优化    32
5.2.1  文档压缩    32
5.2.2  Django内建模板标签中关键字的高亮显示    35
结论    37
参考文献    38
致谢    39
附录:外文资料    40
中文翻译    42

论文字数:24609
包含资料:


截图:



作者: jackian    时间: 2021-2-6 19:57
非常好




欢迎光临 职场大变样社区 (http://zcdby.com/) Powered by Discuz! X3.2