內容簡介
《搜索引擎:信息檢索實踐(英文版)》介紹瞭信息檢索(1R)中的關鍵問題。以及這些問題如何影響搜索引擎的設計與實現,並且用數學模型強化瞭重要的概念。對於網絡搜索引擎這一重要的話題,書中主要涵蓋瞭在網絡上廣泛使用的搜索技術。
《搜索引擎:信息檢索實踐(英文版)》適用於高等院校計算機科學或計算機工程專業的本科生、研究生,對於專業人士而言,《搜索引擎:信息檢索實踐(英文版)》也不失為一本理想的入門教材。
作者簡介
W.Bruce Croft,馬薩諸塞大學阿默斯特分校計算機科學特聘教授、ACM會士。他創建瞭智能信息檢索研究中心,發錶瞭200餘篇論文,多次獲奬,其中包括2003年由ACM SIGIR頒發的Gerard Salton奬。
Donald Metzler馬薩諸塞大學阿默斯特分校博士,是位於加州Santa Clara的雅虎研究中心搜索與計算廣告組的研究科學傢。
Trevor Strohman馬薩諸塞大學阿默斯特分校博士,是Google公司搜索質量部門的軟件工程師。他開發瞭Galago搜索引擎,也是Indri搜索引擎的主要開發者。
內頁插圖
目錄
1 Search Engines and Information Retrieval
1.1 What Is Information Retrieval?
1.2 The Big Issues
1.3 Search Engines
1.4 Search Engineers
2 Architecture of a Search Engine
2.1 What Is an Architecture
2.2 Basic Building Blocks
2.3 Breaking It Down
2.3.1 Text Acquisition
2.3.2 Text Transformation
2.3.3 Index Creation
2.3.4 User Interaction
2.3.5 Ranking
2.3.6 Evaluation
2.4 How Does It Really Work?
3 Crawls and Feeds
3.1 Deciding What to Search
3.2 Crawling the Web
3.2.1 Retrieving Web Pages
3.2.2 The Web Crawler
3.2.3 Freshness
3.2.4 Focused Crawling
3.2.5 Deep Web
3.2.6 Sitemaps
3.2.7 Distributed Crawling
3.3 Crawling Documents and Email
3.4 Document Feeds
3.5 The Conversion Problem
3.5.1 Character Encodings
3.6 Storing the Documents
3.6,1 Using a Database System
3.6.2 Random Access
3.6.3 Compression and Large Files
3.6.4 Update
3.6.5 BigTable
3.7 Detecting Duplicates
3.8 Removing Noise
4 Processing Text
4.1 From Words to Terms
4.2 Text Statistics
4.2.1 Vocabulary Growth
4.2.2 Estimating Collection and Result Set Sizes
4.3 Document Parsing
4.3.1 Overview
4.3.2 Tokenizing
4.3.3 Stopping
4.3.4 Stemming
4.3.5 Phrases and N-grams
4.4 Document Structure and Markup
4.5 Link Analysis
4.5.1 Anchor Text
4.5.2 PageRank
4.5.3 Link Quality
4.6 Information Extraction
4.6.1 Hidden Markov Models for Extraction
4.7 Internationalization
5 Ranking with Indexes
5.1 Overview
5.2 Abstract Model of Ranking
5.3 Inverted Indexes
5.3.1 Documents
5.3.2 Counts
5.3.3 Positions
5.3A Fields and Extents
5.3.5 Scores
5.3.6 Ordering
5.4 Compression
5.4.1 Entropy and Ambiguity
5.4.2 Delta Encoding
5.4.3 Bit-Aligned Codes
5.4.4 Byte-Aligned Codes
5.4.5 Compression in Practice
5.4.6 Looking Ahead
5.4.7 Skipping and Skip Pointers
5.5 Auxiliary Structures
5.6 Index Construction
5.6.1 Simple Construction
5.6.2 Merging
5.6.3 Parallelism and Distribution
5.6.4 Update
5.7 Query Processing
5.7.1 Document-at-a-time Evaluation
5.7.2 Term-at-a-time Evaluation
5.7.3 Optimization Techniques
5.7.4 Structured Queries
5.7.5 Distributed Evaluation
5.7.6 Caching
6 Queries and Interfaces
6.1 Information Needs and Queries
6.2 Query Transformation and Refinement
6.2.1 Stopping and Stemming Revisited
6.2.2 Spell Checking and Suggestions
6.2.3 Query Expansion
6.2.4 Relevance Feedback
6.2.5 Context and Personalization
6.3 Showing the Results
6.3.1 Result Pages and Snippets
6.3.2 Advertising and Search
6.3.3 Clustering the Results
6.4 Cross-Language Search
7 Retrieval Models
7.1 Overview of Retrieval Models
7.1.1 Boolean Retrieval
7.1.2 The Vector Space Model
7.2 Probabilistic Models
7.2.1 Information Retrieval as Classification
7.2.2 The BM25 Ranking Algorithm
7.3 Ranking Based on Language Models
7.3.1 Query Likelihood Ranking
7.3.2 Relevance Models and Pseudo-Relevance Feedback
7.4 Complex Queries and Combining Evidence
7.4.1 The Inference Network Model
7.4.2 The Galago Query Language
7.5 Web Search
7.6 Machine Learning and Information Retrieval
7.6.1 Learning to Rank
7.6.2 Topic Models and Vocabulary Mismatch
7.7 Application-Based Models
8 Evaluating Search Engines
8.1 Why Evaluate ?
8.2 The Evaluation Corpus
8.3 Logging
8.4 Effectiveness Metrics
8.4.1 Recall and Precision
8.4.2 Averaging and Interpolation
8.4.3 Focusing on the Top Documents
8.4.4 Using Preferences
……
9 Classification and Clustering
10 Social Search
11 Beyond Bag of Words
Reverences
Index
精彩書摘
After documents have been converted to some common format, they need to bestored in preparation for indexing. The simplest document storage is no document storage, and for some applications this is preferable. In desktop search, for example, the documents are already stored in the file system and do not need to be copied elsewhere. As the crawling process runs, it can send converted documents immediately to an indexing process. By not storing the intermediate converted documents, desktop search systems can save disk space and improve indexing latency.
Most other kinds of search engines need to store documents somewhere. Fast access to the document text is required in order to build document snippetsz for each search result. These snippets of text give the user an idea of what is inside the retrieved document without actually needing to click on a link.
Even if snippets are not necessary, there are other reasons to keep a copy of each document. Crawling for documents can be expensive in terms of both CPU and network load. It makes sense to keep copies of the documents around instead of trying to fetch them again the next time you want to build an index. Keeping old documents allows you to use HEAD requests in your crawler to save on bandwidth, or to crawl only a subset of the pages in your index.
Finally, document storage systems can be a starting point for information extraction (described in Chapter 4). The most pervasive kind of information extraction happens in web search engines, which extract anchor text from links to store with target web documents. Other kinds of extraction are possible, such as identifying names of people or places in documents. Notice that if information extraction is used in the search application, the document storage system should support modification of the document data.
前言/序言
為瞭進一步貫徹“國務院關於大力推進職業教育改革與發展的決定”的文件精神,加強職業教育教材建設,滿足現階段職業院校深化教學改革對教材建設的要求,根據現階段職業院校該專業沒有一套較為閤適的教材,大部分院校采用自編或行業的考證培訓教材組織教學,非常不適閤職業教育的實際情況,機械工業齣版社於2008年8月在北京召開瞭“職業教育金屬材料檢測類專業教學研討及教材建設會議”,在會上,來自全國該專業的骨乾教師、專傢、企業代錶研討瞭新的職業教育形勢下該專業的課程體係,本書就是根據會議所確定的教學大綱要求和高職教育培養目標組織編寫的。
本書根據國傢職業技能標準,將無損檢測技術專業不同等級的核心操作技能提煉齣來,用極具典型性和代錶性的實例加以錶現並分步驟進行講解。本書新穎的編排形式可以使讀者對每個案例的操作全過程一目瞭然,力求使讀者盡快熟練掌握無損檢測技術各個等級的核心操作技能,力求對讀者通過職業資格鑒定考試有所幫助。同時,讀者也可以將書中相應實例應用於實際生産操作。
本書以數十個操作訓練的實例較全麵地介紹瞭射綫檢測、超聲檢測、磁粉檢測、滲透檢測的操作過程和方法,重點強調無損檢測實際應用工藝,增加瞭典型檢測工藝卡和應用實例介紹,力求為無損檢測從業人員提供無損檢測技術應用方麵的指導和幫助。
全書共四個單元,鄧洪軍編寫第一、二單元,路寶學編寫第三、四單元。全書由鄧洪軍統稿,渤海船舶重工有限公司研究員級高工楊傢武主審。
編寫過程中,作者參閱瞭國內外齣版的有關教材和資料,得到瞭北京普匯恒達材料測試有限公司、河北石油職業技術學院、陝西工業職業技術學院、四川工程職業技術學院、包頭職業技術學院有關同誌的有益指導,在此一並錶示衷心感謝!
由於編寫時間倉促,加之作者水平有限,書中不妥之處在所難免,懇請讀者批評指正。
《文本挖掘與情感分析:從海量數據中洞察人心》 簡介 在信息爆炸的數字時代,我們每天都被海量的數據所淹沒。社交媒體帖子、産品評論、新聞報道、學術論文……這些文本數據蘊含著豐富的洞察,但其龐大的體量和非結構化的特性,使得直接獲取有價值的信息成為一項艱巨的挑戰。然而,正是這些被忽略的文本洪流,記錄著消費者的真實想法、市場趨勢的細微變化,以及社會輿論的風嚮。如何有效地從這些海量文本中提取關鍵信息,理解其背後的含義,特彆是其中蘊含的情感態度,已成為當下各行各業亟需解決的問題。 《文本挖掘與情感分析:從海量數據中洞察人心》並非一本關於搜索引擎技術原理的書籍,它聚焦於文本數據本身,緻力於為讀者揭示如何“讀懂”這些文字,並從中挖掘齣更深層次的價值。本書不涉及搜索引擎底層算法的實現細節,不討論如何構建一個搜索引擎,而是將焦點放在利用已有的文本數據,通過一係列先進的數據挖掘和自然語言處理技術,實現對文本內容的深度理解和情感傾嚮的識彆。 本書旨在為那些希望深入瞭解如何從非結構化文本中提取洞察的讀者提供一套係統性的理論框架和實踐指導。無論您是數據科學傢、市場研究員、産品經理、內容創作者,還是對人工智能在文本分析領域的應用感興趣的普通讀者,都能從本書中找到有價值的知識和實用的方法。 核心內容概述 本書將從基礎的文本預處理入手,逐步深入到復雜的情感分析模型和實際應用場景。我們將詳細探討以下幾個核心方麵: 第一部分:文本數據預處理與特徵工程 在對文本進行任何深度分析之前,對其進行有效的預處理是至關重要的一步。這一部分將帶領讀者瞭解如何將原始的、雜亂無章的文本轉化為機器可以理解和分析的格式。 文本清洗: 包括去除HTML標簽、特殊字符、標點符號,以及處理大小寫不一緻等問題。我們將探討不同場景下清洗策略的權衡,以及如何自動化這一過程。 分詞: 對於中文等粘著語,分詞是理解文本含義的基礎。我們將介紹不同分詞算法的原理、優缺點,以及如何選擇適閤特定任務的分詞器。 停用詞去除: 識彆並移除對文本含義影響不大、但會增加計算負擔的常見詞匯(如“的”、“是”、“在”等),以聚焦於真正有意義的詞語。 詞乾提取與詞形還原: 將不同形式的詞語(如“running”、“ran”等)歸納到其基本形式(如“run”),以減少詞匯的維度,提高分析的準確性。 特徵提取: 將文本數據轉換為數值嚮量,使其能夠被機器學習模型處理。我們將深入講解: 詞袋模型 (Bag-of-Words, BoW): 最基本的文本錶示方法,側重於詞語的齣現頻率。 TF-IDF (Term Frequency-Inverse Document Frequency): 一種更精細的特徵提取方法,能夠衡量一個詞語在特定文檔中的重要性以及它在整個語料庫中的普遍性,從而識彆齣更具區分度的詞匯。 N-grams: 考慮詞語的順序信息,捕捉短語和搭配的含義,例如“ not good”與“good”的含義截然不同。 詞嚮量 (Word Embeddings): 如Word2Vec, GloVe, FastText等,將詞語映射到低維連續嚮量空間,捕捉詞語之間的語義關係,這是現代文本分析不可或缺的技術。我們將詳細介紹這些模型的原理、訓練方法以及如何使用預訓練的詞嚮量。 第二部分:文本挖掘與主題模型 在完成預處理和特徵提取後,我們將進入更深層次的文本分析,從海量文本中發現隱藏的模式和結構。 文本分類: 將文本分配到預定義的類彆中。我們將探討常用的分類算法,如樸素貝葉斯、支持嚮量機(SVM)、邏輯迴歸,以及基於深度學習的模型(如CNN、RNN、Transformer等)在文本分類中的應用。 文本聚類: 將相似的文本自動分組,發現數據中未知的模式。我們將介紹K-means、DBSCAN等聚類算法,以及如何評估聚類效果。 主題模型 (Topic Modeling): 揭示文檔集閤中隱藏的潛在主題。我們將重點講解: Latent Dirichlet Allocation (LDA): 最經典的主題模型之一,能夠從文檔集閤中識彆齣抽象的主題,並為每個主題分配關鍵詞,以及為每篇文檔分配主題分布。我們將深入理解其概率圖模型原理,以及如何選擇閤適的主題數量。 Non-negative Matrix Factorization (NMF): 另一種常用的主題模型,通過矩陣分解的方式來發現文本的主題結構。 文本主題模型的應用: 包括新聞內容分類、用戶評論的主題分析、學術文獻的領域劃分等。 第三部分:情感分析與意見挖掘 情感分析,也稱為意見挖掘,是本書的另一核心主題。它緻力於識彆和提取文本中錶達的情感態度、觀點和評價。 情感分析的粒度: 文檔級情感分析: 判斷整個文檔所錶達的情感傾嚮(積極、消極、中立)。 句子級情感分析: 判斷每個句子所錶達的情感傾嚮。 方麵級情感分析 (Aspect-Based Sentiment Analysis, ABSA): 識彆文本中討論的具體方麵(如“屏幕”、“電池”、“服務”等),並判斷對這些方麵的情感傾嚮。這是更精細、更具價值的情感分析方法。 情感分析的方法: 基於詞典的方法: 利用預定義的情感詞典(如SentiWordNet, HowNet等),根據詞語的情感極性進行纍加計算。我們將討論詞典的構建、情感詞的擴展以及對抗否定和轉摺詞的處理。 基於機器學習的方法: 使用標注好的情感數據訓練分類模型,如樸素貝葉斯、SVM,以及更先進的深度學習模型。 基於深度學習的情感分析: 循環神經網絡 (RNN) 和長短期記憶網絡 (LSTM): 能夠捕捉文本序列中的上下文信息,非常適閤處理情感錶達的順序性。 捲積神經網絡 (CNN): 能夠捕捉文本中的局部特徵,例如短語和n-grams的情感。 Transformer 模型: 如BERT、RoBERTa等,在NLP領域取得瞭革命性的進展,能夠通過自注意力機製理解更深層次的語義關係,在情感分析任務中錶現齣色。我們將重點介紹如何利用這些預訓練模型進行微調以適應情感分析任務。 意見挖掘: 除瞭識彆情感傾嚮,本書還將探討如何提取文本中包含的具體觀點、評價和理由。 第四部分:實際應用與案例分析 理論與實踐相結閤,本書將通過豐富的實際案例,展示文本挖掘與情感分析在各個領域的應用價值。 市場營銷與品牌聲譽管理: 分析社交媒體、評論網站上的用戶反饋,瞭解消費者對産品和品牌的看法,發現潛在的市場機會和風險。 金融領域的文本分析: 分析新聞、財報、分析師報告,預測市場趨勢,評估公司風險。 輿情監控與社會科學研究: 追蹤公眾對特定事件、政策的態度,瞭解社會熱點問題。 客戶服務與用戶體驗優化: 分析客戶反饋,識彆服務中的痛點,改進産品和服務質量。 內容推薦與個性化服務: 理解用戶對內容的偏好,提供更精準的推薦。 虛假信息檢測與內容審核: 利用文本分析技術識彆和過濾不當內容。 本書的特色與價值 係統性與全麵性: 本書涵蓋瞭從基礎預處理到高級情感分析模型的完整流程,為讀者構建瞭一個紮實的知識體係。 理論與實踐並重: 深入淺齣地講解算法原理,同時提供豐富的代碼示例和案例分析,幫助讀者學以緻用。 關注前沿技術: 重點介紹基於深度學習的最新文本分析技術,如Transformer模型在情感分析中的應用。 易於理解的語言: 避免過度使用晦澀的專業術語,力求用清晰、簡潔的語言闡述復雜的概念。 麵嚮廣泛讀者: 無論您是初學者還是有一定基礎的從業者,都能從本書中獲得啓發和提升。 《文本挖掘與情感分析:從海量數據中洞察人心》將是您探索文本數據價值、發掘隱藏信息、理解人類情感的得力助手。通過本書的學習,您將能夠從紛繁復雜的文本世界中,提煉齣最有價值的洞察,從而在個人和職業生涯中取得更大的成功。