【电子书下载】《自制搜索引擎》高清PDF、epub、mobi下载-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 考研考博>>

考研

>>

【电子书下载】《自制搜索引擎》高清PDF、epub、mobi下载

【电子书下载】《自制搜索引擎》高清PDF、epub、mobi下载

发布:虎虎856 | 分类:考研

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

【电子书下载】《自制搜索引擎》高清PDF、epub、mobi下载作者:[日]山田浩之/[日]末永匡原作名:検索エンジン自作入門译者:胡屹出版年:2016-1内容简介《自制搜索引擎》聚焦于Google和Yahoo!等Web搜索服务幕后的搜索引擎 ...
坛友互助群


扫码加入各岗位、行业、专业交流群


【电子书下载】《自制搜索引擎》高清PDF、epub、mobi下载


作者: [日]山田浩之 / [日]末永匡
原作名: 検索エンジン自作入門
译者: 胡屹
出版年: 2016-1


内容简介
《自制搜索引擎》聚焦于Google和Yahoo!等Web搜索服务幕后的搜索引擎系统,首先讲解了搜索引擎的基础知识和原理,接着以现实中的开源搜索引擎Senna/Groonga为示例,使用该引擎的源代码引导读者亲自体验搜索引擎的开发过程。这部分讲解涉及了倒排索引的制作和压缩、检索的处理流程以及搜索引擎的优化等内容。又简单介绍了一些更加专业的搜索引擎的知识和要点,为读者今后进一步学习打下了基础。本书适合所有对搜索引擎感兴趣的技术人员阅读。

作者
山田浩之(作者)
信息工程学博士。先后于日本IBM、雅虎从事分布式搜索引擎的研发工作。目前在东京大学生产技术研究所从事高性能并行数据库的研发工作。

末永匡(作者)
开源搜索引擎Senna/Groonga的开发者。每天都在奋斗,梦想着能创建一个更加自由、更加无拘无束的,而不是一家独大的应用程序平台。

胡屹(译者)
多年从事Web开发工作。热爱编程,关注设计模式,致力于提升软件开发的质量。曾获得SCJP和PHP ZCE证书。译有《计算机是怎样跑起来的》。

目录
第1章 搜索引擎是如何工作的  1
1-1 理解搜索引擎的构成  3
什么是搜索引擎  3
构成搜索引擎的组件  4
与搜索引擎相关的组件  5
1-2  实现了快速全文搜索的索引结构  7
全文搜索的两种方法  7
倒排索引的结构  8
倒排索引的构建方法  9
倒排索引中的术语  10
1-3 深入理解倒排索引  12
倒排索引=词典+倒排文件  12
从倒排索引中查找单词  13
将单词的位置信息加入倒排文件中  13
从倒排索引中查找短语  14
1-4 制作中文文档的倒排索引  16
分割中文句子的方法  16
权衡分割方法  17
1-5 实现倒排索引  19
实现词典  19
实现倒排文件  22
1-6 使用倒排索引进行检索  24
布尔检索  24
使用倒排索引的检索处理流程  24
关联度的计算方法  26
信息检索中的检索  27
1-7 构建倒排索引  29
使用内存构建倒排索引  29
使用二级存储构建倒排索引  29
静态索引构建和动态索引构建  32
1-8 准备要检索的文档  34
收集数据  34
数据规范化  35
第2章 准备全文搜索引擎的检索样本  37
2-1 全文搜索引擎wiser  39
wiser的构成  39
准备用于检索的文档  40
2-2 安装wiser  42
构建wiser  42
启动wiser  43
解压缩Wikipedia的副本  44
2-3 运行wiser  45
构建倒排索引  45
使用倒排索引查询  46
比较grep和wiser的运行速度  46
第3章 构建倒排索引  49
3-1 复习有关倒排索引的知识  51
提取词元  51
为每个词元创建倒排列表  53
3-2 构建倒排索引  54
在存储器上创建倒排列表  54
倒排列表和倒排文件的数据结构  54
从源代码级别梳理倒排索引的构建顺序  56
进一步阅读源代码  59
专栏 根据实际情况设计搜索引擎(系统)  68
第4章 开始检索吧  71
4-1 检索处理的大致流程  73
充分理解检索处理的流程  73
4-2 使用倒排索引进行检索  75
从源代码级别梳理检索处理的流程  75
解读split_query_to_tokens()函数的具体实现  76
使用具体示例加深对检索处理流程的理解  77
解读函数search_docs()的实现细节  80
解读函数search_phrase()的实现  84
专栏 如何实现标签检索  88
第5章 压缩倒排索引  89
5-1 压缩的基础知识  90
压缩倒排索引的好处  90
专栏 压缩的目的  90
倒排索引的压缩方法  91
倒排文件的压缩方法  91
压缩的原理  94
5-2 实现wiser中的压缩功能  97
压缩功能源代码的概要  97
了解无需进行压缩时的操作  99
抓住Golomb编码的要点  101
解读Golomb编码中的编码处理  105
解读Golomb编码的解码处理  108
第6章 挑战wiser的优化及参数的调整  113
6-1 提高检索处理的效率  115
优化检索处理  115
将查询分割为无重复部分的词元序列  116
6-2 禁用短语检索  119
分析对2字符的字符串进行检索时的行为  119
分析对3字符的字符串进行检索时的行为  120
6-3 改变检索结果的输出顺序  122
作为检索结果排序核心的指标  122
按照文档大小降序排列的检索结果  124
专栏 排名欺诈  128
6-4  让1个字符的查询也能检索出结果  29
获取以特定字符开头的词元的列表  129
合并检索到的结果  131
专栏 如何实现相似文档的检索  131
6-5  调整控制倒排索引更新的缓冲区容量  133
确认由缓冲区容量的差异带来的不同效果  133
用sar命令分析负载  134
6-6  调整只有英文字母的词元的分割方法  135
如何避免用英文单词检索时准确率下降的问题  135
如何判断某字符是否属于索引对象  135
修改负责分割词元的函数  136
6-7 确认压缩的效果  138
观察Golomb编码的效果  138
对比压缩启用前后的索引大小  138
专栏 避免滥用全文搜索引擎  139
第7章 为今后更加深入的学习做准备  141
7-1 wiser没能实现的功能  143
倒排索引之外的全文搜索索引  143
高效处理大规模数据的存储器  143
利用缓存提高检索的速度  143
使用各种各样的压缩方法  144
优化搜索结果的排名  144
调整准确率和召回率  145
降低检索结果排序处理的负载  147
并行处理  147
结合对属性的筛选过滤  148
分面搜索  148
专栏 时延和吞吐量  149
7-2  全文搜索引擎Groonga的特点  150
通过词元的部分一致检索提升召回率  150
使用内存映射文件  151
片段  152
专栏 宣传活动的重要性  152
7-3  实现出考虑到用户意图的搜索引擎  153
引入停用词  153
应对词素解析的错误  153
专栏 断句错误  154
处理全角字符和半角字符  155
对查询进行归一化  156
留意布尔检索的解析过程  156
通过词素解析器适当地解析查询  157
对错误的输入进行修正  157
输入补全  158
建议用户检索相关的关键词  159
7-4 收集、提取文档时的要点  160
制作爬虫时的处理要点  160
在提取文本时需要处理的要点  163
Appendix 附录  165
A-1 深度话题 166
近几年的压缩方法  166
动态索引构建  169
分布式索引  174
A-2 wiser中的文本提取和存储  178
用于处理XML的2 种API——DOM和SAX  178
提取文档的标题和正文  179
掌握状态的迁移  182
构建文档数据库  187
后记  191

觉得可以就回复一下吧,让更多的人看见优秀的资料!!


扫码或添加微信号:坛友素质互助


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-6563499-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。