關聯模闆【結束】節點,請勿手動操作節點內的內容!!!
基本信息
書名:搜索引擎——原理、技術與係統
原價:48.00元
作者:李曉明、閆宏飛、王繼民
齣版社:科學齣版社
齣版日期:2012-05-01
ISBN:9787030342584
字數:472750
頁碼:330
版次:1
裝幀:平裝
開本:16開
目錄
目錄
第二版前言
版前言
章 引論
節 搜索引擎的概念
第二節 搜索引擎的發展曆史
第三節 一些著名的搜索引擎
第四節 小結
上篇 Web搜索引擎基本原理和技術
第二章 Web搜索引擎工作原理和體係結構
節 基本要求
第二節 網頁搜集
第三節 預處理
第四節 查詢服務
第五節 體係結構
第六節 小結
第三章 Web信息的搜集
節 概述
一、超文本傳輸協議
二、一個小型搜索引擎係統
第二節 網頁搜集
一、定義URL類和Page類
二、與服務器建立連接
三、發送請求和接收數據
四、網頁信息存儲的天網格式
第三節 多道搜集程序並行工作
一、多綫程並發工作
二、控製對一個站點並發搜集綫程的數目
第四節 如何避免網頁的重復搜集
一、記錄未訪問、已訪問URL和網頁內容摘要信息
二、域名與IP的對應問題
第五節 搜集信息的類型
第六節 小結
第四章 對搜集信息的預處理
節 索引網頁庫
第二節 網頁編碼識彆
一、基本而重要的概念
二、常用字符編碼
三、常用字符編碼算法
四、字符的輸入和顯示
五、編碼識彆
第三節 中文自動分詞
第四節 分析網頁和建立倒排文件
第五節 小結
第五章 信息查詢服務
節 檢索的定義
第二節 查詢服務的實現
一、結果集閤的形成
二、查詢結果顯示
第三節 小結
中篇 對質量和性能的追求
第六章 可擴展搜集子係統
節 天網係統概述和集中式搜集係統結構
一、天網係統結構
二、集中式搜集係統
第二節 利用並行處理技術高效搜集網頁的一種方案
一、節點間URL的劃分策略
二、關於性能的討論
三、性能測試和評價
四、係統的動態可配置性設計
第三節 天網分布式搜集係統
第四節 對Deep Web的認識
一、Deep Web的成因
二、搜索Deep Web的方法
第五節 小結
第七章 網頁淨化與消重
節 網頁淨化與元數據提取
一、DocView模型
二、網頁的錶示
三、提取DocView模型要素的方法
四、模型應用及實驗研究
第二節 網頁消重算法
一、消重算法
二、算法評測
第三節 小結
第八章 高性能檢索子係統
節 檢索係統基本技術
一、係統設計與結構
二、索引創建
三、檢索過程
第二節 適於查詢的網頁索引結構
一、倒排索引結構
二、平麵位置索引
第三節 倒排索引壓縮
一、倒排索引壓縮技術
二、詞典與倒排錶的壓縮
第四節 索引剪枝
一、靜態索引剪枝方法
二、動態索引剪枝方法
第五節 混閤索引技術
一、混閤索引的原理
二、混閤索引的實現
第六節 倒排文件緩存機製
一、倒排文件緩存
二、負載特性
三、緩存策略的選擇
第七節 小結
第九章 相關排序與係統質量評估
節 傳統IR的相關排序技術
第二節 鏈接分析與相關排序
一、鏈接分析
二、Web查詢模式下的新信息
第三節 相關排序的一種實現方案
一、形成網頁中詞項的基本權重
二、利用鏈接的結構
三、收集用戶反饋信息
四、計算終的權重
第四節 信息檢索技術評估
一、信息檢索技術評估指標
二、TREC和CWIRF信息檢索評估
三、搜索引擎技術評估
第五節 小結
下篇 Web信息資源的組織與應用服務
第十章 大規模Web曆史網頁倉儲係統的構建
節 國外Web曆史網頁保存現狀
一、Internet Archive
二、PANDORA
三、其他相關Web保存項目
第二節 中國Web信息博物館的係統設計
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 靜流書站 版權所有