走进搜索引擎「pdf+epub+mobi+txt+azw3」
本书由搜索引擎开发研究领域三位年轻的博士生精心编写,作者们希望将自己对搜索引擎的理解和实际应用相结合,让未接触过搜索引擎原理和方法的读者也能轻松读懂该书的大部分内容。
部分内容:
1.3 搜索引擎的4大系统
搜索引擎在本书中被分为下载、分析、索引和查询4大系统进行论述。这4大系统相互配合,共同实现了搜索引擎的快、全、准、稳的4个主要需求,而本书最后的优化章节主要从“省”这个需求考虑,使得有限的资源可以发挥最大的效能。
1.3.1 搜索引擎的体系结构
搜索引擎的结构清晰,分工明确。按照各自的功能划分,分为以下4大系统:
(1)下载系统;
(2)分析系统;
(3)索引系统;
(4)查询系统。
其中下载系统负责从万维网上下载各种类型的网页,并且保持对万维网变化的同步,将在第2章中详细介绍。
分析系统负责抽取下载系统得到的网页数据,并进行PageRank和分词计算,将在第3章中详细介绍。
索引系统负责将分析系统处理后的网页对象索引入库,将在第4章中详细介绍。
查询系统负责分析用户提交的查询请求,然后从索引库中检索出相关网页并将网页排序后,以查询结果的形式返回给用户,将在第5章中详细介绍。