关联模板【结束】节点,请勿手动操作节点内的内容!!!
基本信息
书名:搜索引擎——原理、技术与系统
原价:48.00元
作者:李晓明、闫宏飞、王继民
出版社:科学出版社
出版日期:2012-05-01
ISBN:9787030342584
字数:472750
页码:330
版次:1
装帧:平装
开本:16开
目录
目录
第二版前言
版前言
章 引论
节 搜索引擎的概念
第二节 搜索引擎的发展历史
第三节 一些著名的搜索引擎
第四节 小结
上篇 Web搜索引擎基本原理和技术
第二章 Web搜索引擎工作原理和体系结构
节 基本要求
第二节 网页搜集
第三节 预处理
第四节 查询服务
第五节 体系结构
第六节 小结
第三章 Web信息的搜集
节 概述
一、超文本传输协议
二、一个小型搜索引擎系统
第二节 网页搜集
一、定义URL类和Page类
二、与服务器建立连接
三、发送请求和接收数据
四、网页信息存储的天网格式
第三节 多道搜集程序并行工作
一、多线程并发工作
二、控制对一个站点并发搜集线程的数目
第四节 如何避免网页的重复搜集
一、记录未访问、已访问URL和网页内容摘要信息
二、域名与IP的对应问题
第五节 搜集信息的类型
第六节 小结
第四章 对搜集信息的预处理
节 索引网页库
第二节 网页编码识别
一、基本而重要的概念
二、常用字符编码
三、常用字符编码算法
四、字符的输入和显示
五、编码识别
第三节 中文自动分词
第四节 分析网页和建立倒排文件
第五节 小结
第五章 信息查询服务
节 检索的定义
第二节 查询服务的实现
一、结果集合的形成
二、查询结果显示
第三节 小结
中篇 对质量和性能的追求
第六章 可扩展搜集子系统
节 天网系统概述和集中式搜集系统结构
一、天网系统结构
二、集中式搜集系统
第二节 利用并行处理技术高效搜集网页的一种方案
一、节点间URL的划分策略
二、关于性能的讨论
三、性能测试和评价
四、系统的动态可配置性设计
第三节 天网分布式搜集系统
第四节 对Deep Web的认识
一、Deep Web的成因
二、搜索Deep Web的方法
第五节 小结
第七章 网页净化与消重
节 网页净化与元数据提取
一、DocView模型
二、网页的表示
三、提取DocView模型要素的方法
四、模型应用及实验研究
第二节 网页消重算法
一、消重算法
二、算法评测
第三节 小结
第八章 高性能检索子系统
节 检索系统基本技术
一、系统设计与结构
二、索引创建
三、检索过程
第二节 适于查询的网页索引结构
一、倒排索引结构
二、平面位置索引
第三节 倒排索引压缩
一、倒排索引压缩技术
二、词典与倒排表的压缩
第四节 索引剪枝
一、静态索引剪枝方法
二、动态索引剪枝方法
第五节 混合索引技术
一、混合索引的原理
二、混合索引的实现
第六节 倒排文件缓存机制
一、倒排文件缓存
二、负载特性
三、缓存策略的选择
第七节 小结
第九章 相关排序与系统质量评估
节 传统IR的相关排序技术
第二节 链接分析与相关排序
一、链接分析
二、Web查询模式下的新信息
第三节 相关排序的一种实现方案
一、形成网页中词项的基本权重
二、利用链接的结构
三、收集用户反馈信息
四、计算终的权重
第四节 信息检索技术评估
一、信息检索技术评估指标
二、TREC和CWIRF信息检索评估
三、搜索引擎技术评估
第五节 小结
下篇 Web信息资源的组织与应用服务
第十章 大规模Web历史网页仓储系统的构建
节 国外Web历史网页保存现状
一、Internet Archive
二、PANDORA
三、其他相关Web保存项目
第二节 中国Web信息博物馆的系统设计
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有