發表於2024-12-14
Elasticsearch大數據搜索引擎 pdf epub mobi txt 電子書 下載
Elasticsearch搜索集群係統在生産和生活中發揮著越來越重要的作用。本書介紹瞭Elasticsearch的使用、原理、係統優化與擴展應用。本書用例子說明瞭Java、Python、Scala和PHP的編程API,其中在Java搜索界麵實現上,介紹瞭使用Spring實現微服務開發。為瞭擴展Elasticsearch的功能,本書以中文分詞和英文文本分析為例介紹瞭插件開發方法。本書介紹瞭使用Elasticsearch作為數據管理平颱的日誌監控與分析方法,介紹瞭使用OCR從圖像中提取文本以及問答式搜索的開發方法。
第1章 使用Elasticsearch 1
1.1 基本概念 1
1.2 安裝 2
1.3 搜索集群 5
1.4 創建索引 6
1.5 使用Java客戶端接口 9
1.5.1 創建索引 11
1.5.2 增加、刪除與修改數據 14
1.5.3 分析器 16
1.5.4 數據導入 17
1.5.5 通過攝取快速導入數據 17
1.5.6 索引庫結構 17
1.5.7 查詢 18
1.5.8 區間查詢 22
1.5.9 排序 23
1.5.10 分布式搜索 23
1.5.11 過濾器 24
1.5.12 高亮顯示 24
1.5.13 分頁 25
1.5.14 通過聚閤實現分組查詢 26
1.5.15 文本列的聚閤 27
1.5.16 遍曆數據 28
1.5.17 索引文檔 29
1.5.18 Percolate 29
1.6 RESTClient 30
1.6.1 使用攝取 31
1.6.2 代碼實現攝取 33
1.7 使用Jest 33
1.8 Python客戶端 37
1.9 Scala客戶端 40
1.10 PHP客戶端 43
1.11 SQL支持 44
1.12 本章小結 48
第2章 開發插件 49
2.1 搜索中文 49
2.1.1 中文分詞原理 49
2.1.2 中文分詞插件原理 51
2.1.3 開發中文分詞插件 53
2.1.4 中文AnalyzerProvider 55
2.1.5 字詞混閤索引 57
2.2 搜索英文 60
2.2.1 句子切分 60
2.2.2 標注詞性 62
2.3 使用測試套件 64
2.4 本章小結 68
第3章 管理搜索集群 69
3.1 節點類型 69
3.2 管理集群 69
3.3 寫入權限控製 70
3.4 使用X-Pack 71
3.5 快照 72
3.6 Zen發現機製 73
3.7 聯閤搜索 74
3.8 緩存 74
3.9 本章小結 75
第4章 源碼分析 76
4.1 Lucene源碼分析 76
4.1.1 Ivy管理依賴項 76
4.1.2 源碼結構介紹 76
4.2 Gradle 77
4.3 Guice 77
4.4 Joda-Time 79
4.5 Transport 80
4.6 綫程池 80
4.7 模塊 80
4.8 Netty 81
4.9 分布式 81
4.10 本章小結 82
第5章 搜索相關性 83
5.1 BM25檢索模型 83
5.1.1 使用BM25檢索模型 86
5.1.2 參數調優 86
5.2 學習評分 86
5.2.1 基本原理 87
5.2.2 準備數據 87
5.2.3 Elasticsearch學習排名 89
5.3 本章小結 91
第6章 搜索引擎用戶界麵 92
6.1 JSP實現搜索界麵 92
6.1.1 用於顯示搜索結果的自定義標簽 93
6.1.2 使用Listlib 98
6.1.3 實現翻頁 100
6.2 使用Spring實現的搜索界麵 102
6.2.1 實現REST搜索界麵 102
6.2.2 REST API中的HTTP PUT 104
6.2.3 Spring-data-elasticsearch 106
6.2.4 Spring HATEOAS 112
6.3 實現搜索接口 113
6.3.1 編碼識彆 113
6.3.2 布爾搜索 116
6.3.3 搜索結果排序 116
6.4 實現相似文檔搜索 117
6.5 實現AJAX搜索聯想詞 119
6.5.1 估計查詢詞的文檔頻率 119
6.5.2 搜索聯想詞總體結構 119
6.5.3 服務器端處理 120
6.5.4 瀏覽器端處理 125
6.5.5 拼音提示 127
6.5.6 部署總結 127
6.5.7 Suggester 128
6.6 推薦搜索詞 129
6.6.1 挖掘相關搜索詞 130
6.6.2 使用多綫程計算相關搜索詞 132
6.7 查詢意圖理解 133
6.7.1 拼音搜索 133
6.7.2 無結果處理 133
6.8 集成其他功能 134
6.8.1 拼寫檢查 134
6.8.2 分類統計 135
6.8.3 相關搜索 141
6.8.4 再次查找 144
6.8.5 搜索日誌 144
6.9 查詢分析 146
6.9.1 曆史搜索詞記錄 146
6.9.2 日誌信息過濾 147
6.9.3 信息統計 148
6.9.4 挖掘日誌信息 150
6.9.5 查詢詞意圖分析 150
6.10 部署網站 150
6.10.1 部署到Web服務器 151
6.10.2 防止攻擊 152
6.11 本章小結 156
第7章 OCR文字識彆 157
7.1 Tesseract 157
7.2 使用TensorFlow識彆文字 161
7.3 OpenCV 164
7.3.1 預處理 166
7.3.2 文字區域提取 169
7.3.3 糾正偏斜 171
7.3.4 Linux環境支持 172
7.4 JavaCV 172
7.5 本章小結 174
第8章 問答式搜索 176
8.1 生成錶示語義的代碼 176
8.2 信息整閤 181
8.2.1 實體對齊 181
8.2.2 編輯距離 181
8.2.3 Jaro-Winkler距離 187
8.2.4 比較器 189
8.2.5 Cleaner 189
8.2.6 運行過程 190
8.2.7 遺傳算法調整參數 192
8.3 自動問答 193
8.3.1 問句處理器 193
8.3.2 自動發現答案 198
8.4 本章小結 199
第9章 Elastic係統監控 201
9.1 Logstash 201
9.1.1 使用Logstash 201
9.1.2 插件 203
9.1.3 數據庫輸入插件 206
9.2 Filebeat 207
9.3 消息過期 208
9.4 Kibana 208
9.5 Flume 209
9.6 Kafka 210
9.7 Graylog 211
9.8 物聯網數據 215
9.9 本章小結 216
智慧生物的大規模協作造就瞭驚人的進化奇跡。大規模機器集群造就機器係統進化成為強大的智能係統。Elasticsearch作為大數據與搜索引擎技術的結閤體,隨著社會對大規模開源分布式搜索引擎的需求迅速成長。
由於其良好的易用性,Elasticsearch早在1.0版本之前就加速瞭大規模搜索集群的普及。本書從基本概念開始熟悉Elasticsearch,接下來介紹瞭Elasticsearch在Windows和Linux操作係統下的安裝。除瞭CURL命令,本書還介紹瞭使用常用的編程工具和Elasticsearch搜索服務交互,包括Java、Python、Scala和PHP,以及使用SQL語句查詢Elasticsearch索引的方法。自然語言文本理解往往以插件形式存在於Elasticsearch集群中,第2章介紹瞭如何開發與測試插件。因為Elasticsearch經常用於實時搜索或分析,所以性能優化很重要,第3章介紹瞭如何管理Elasticsearch集群。為瞭更閤理地使用和擴展Elasticsearch,第4章簡單分析瞭github中托管的Elasticsearch源代碼。對於搜索引擎來說,返迴結果的相關性是一個重要的話題,第5章討論瞭這個問題。第6章介紹瞭使用Java開發搜索引擎Web用戶界麵的幾種方法。
隨著人工智能領域技術的發展,讓搜索引擎智能加速變成現實。智能搜索引擎需要能夠檢測到並識彆齣圖像中的文字,第7章介紹瞭結閤OpenCV使用Tesseract識彆文字的方法。第8章介紹瞭根據問題返迴搜索結果的問答式搜索。
目前Elasticsearch是實時係統監控的首選,第9章介紹瞭使用Elasticsearch監控與分析日誌,也介紹瞭通過物聯網監控係統的方案。
本書相關的參考軟件和代碼在讀者QQ群471033528的附件中可以找到。Elasticsearch及其底層依賴的軟件,其復雜程度已經超越瞭一個人所能掌握的程度。一些具體的細節也可以在讀者QQ群中討論。感謝早期閤著者、閤作夥伴、員工、學員、讀者的支持,給我們提供瞭良好的工作基礎。就像玻璃容器中的水培植物一樣,這是一個持久可用的工作基礎。技術的融閤與創新無止境,歡迎讀者一起探索。
本書適閤需要具體實現搜索引擎的程序員使用,對於信息檢索等相關領域的研究人員也有一定的參考價值,同時獵兔搜索技術團隊已經開發齣以本書為基礎的專門培訓課程和商業軟件。
參與本書編寫的還有張子憲、崔智傑、張曉斐、石天盈、張繼紅、張進威、劉宇、何淑琴、任通通、高丹丹、徐友峰、孫寬,在此一並錶示感謝。
實話實說,書裏的內容是真的爛,40多塊錢不多,就當做善事瞭
評分沒有想象的那麼好,比較基礎 被名字騙瞭 ?
評分很給力,快遞小哥也很負責,下次繼續過來!!
評分實話實說,書裏的內容是真的爛,40多塊錢不多,就當做善事瞭
評分極其懷疑這是盜版書
評分很給力,快遞小哥也很負責,下次繼續過來!!
評分送貨速度超快,快遞服務態度很好,書也不錯
評分極其懷疑這是盜版書
評分極其懷疑這是盜版書
Elasticsearch大數據搜索引擎 pdf epub mobi txt 電子書 下載