編輯推薦
《預測性文本挖掘基礎》主要特點:1.對文本挖掘做齣瞭全麵、實用、易於理解的介紹。
2.每個章節給齣瞭小結、曆史和文獻評述以及課堂練習。
3.對書中提到的每個方法都進行瞭應用和用途介紹,同時給齣瞭針對某個具體問題的優技術方法。
4.給齣瞭幾個描述性案例的研究情況,幫助讀者瞭解現實世界中從問題描述到係統配置的過程。
5.介紹瞭可以運行在任何計算機上的企業級增強型文本挖掘軟件。
描述瞭一些依賴於基本統計技術的方法,這樣就顧及到瞭所有的語言(不僅僅是英語)。
6.包含瞭一些可以免費下載的軟件的鏈接,以及一些補充的介紹材料。
《預測性文本挖掘基礎》可作為IT專業人員和管理人員必備的參考資料,也可以作為計算機專業本科高年級和研究生的關鍵教材使用。
內容簡介
電腦普及帶來的一個結果是文檔以數字形式呈現齣來,加之Internet的廣泛使用,這些文檔就變得唾手可得。文本挖掘,即對非結構化的自然語言文本的分析過程,主要針對的是如何從這些文檔中提取信息。
《預測性文本挖掘基礎》是一本入門級的教科書,是在修訂施普林格已經成功齣版的文本挖掘領域的參考書基礎上得到的,旨在能夠幫助讀者瞭解這個快速發展的領域。同時,該書也整閤瞭包括數據挖掘、機器學習、數據庫以及計算語言學方麵很多的理論,因此這本的書也提供瞭一些文本挖掘方麵比較實用的建議。書中深層次地討論瞭文檔分類、信息檢索、聚類和組織文檔、信息提取、基於web的數據源的預測和評價問題。要學習《預測性文本挖掘基礎》,如果讀者有數據挖掘方麵的知識自然很好,但這並不是必須的。書中有些地方涉及到一些高級概念,這些需要讀者有一定的數學功底,當然我們也提供瞭一些直觀上的解釋來幫助那些非專業讀者。
作者簡介
紹洛姆·韋斯,是美國紐約州約剋鎮的IBM預測模型小組的研究成員,同時也是美國新澤西州羅格斯大學計算機科學專業的榮譽教授。
霓廷·因杜爾亞,是澳大利亞新南威爾士大學計算機科學工程學院的講師,同時也是數據挖掘公司Data-Miner有限公司的創始人和總裁。
張潼,在美國斯坦福大學獲得計算機科學博士學位,現在是美國新澤西州羅格斯大學統計係的教授。
內頁插圖
目錄
推薦序
譯者序
前言
第1章 文本挖掘概述
1.1 文本挖掘有什麼特彆之處?
1.1.1 結構化或非結構化數據?
1.1.2 文本數據是否不同於數值數據?
1.2 文本挖掘可以解決什麼類型的問題?
1.3 文本分類
1.4 信息檢索
1.5 文檔聚類與組織
1.6 信息提取
1.7 預測與評估
1.8 下章內容
1.9 小結
1.10 曆史與文獻評述
1.11 問題與練習
第2章 從文本信息到數值嚮量
2.1 文檔收集
2.2 文檔標準化
2.3 標記化
2.4 詞形轉化
2.4.1 詞乾變形
2.4.2 化詞乾為詞根
2.5 預測嚮量生成
2.5.1 多詞特徵
2.5.2 正確答案的標簽
2.5.3 通過屬性分級選擇特徵
2.6 語句邊界確定
2.7 詞性標簽化
2.8 詞義消歧
2.9 短語識彆
2.10 命名實體識彆
2.11 語法分析
2.12 特徵生成
2.13 小結
2.14 曆史與文獻評述
2.15 課後練習
第3章 用文本進行預測
3.1 識彆文檔符閤模式
3.2 需要多少文檔纔可以滿足預測需求?
3.3 文檔分類
3.4 從文本中學習預測
3.4.1 相似性與最近鄰法
3.4.2 文檔相似性
3.4.3 決策規則
3.4.4 決策樹
3.4.5 概率估計
3.4.6 綫性評分方法
3.5 性能評估
3.5.1 當前與未來的性能估計
3.5.2 從學習方法中獲取最大收益
3.6 應用
3.7 小結
3.8 曆史與文獻評述
3.9 問題與練習
第4章 信息檢索和文本挖掘
第5章 文檔集的結構發現
第6章 在文檔中查詢信息
第7章 麵嚮預測的數據源:數據庫、混雜數據與Web
第8章 實例分析
第9章 新研究方嚮
附錄A 軟件說明
參考文獻
作者索引
主題索引
精彩書摘
通過觀察性能較差的分類有時能讓我們發現新聞本身屬性是如何影響性能的,比如新文章似乎不太會進入低頻分類。一種可能的解釋是新聞主題更傾嚮於湧現齣來,所以某個邊緣分類可能不會常齣現。這點聽起來似乎有理,但還需深入研究加以驗證。
還有一個問題,就是有些主題似乎具有固有的聚閤性,好像應該很容易對其建立起高效的分類器,但事實卻不盡如人意。舉路透社數據中的一個例子:我們觀察決策樹為宗教主題生成的規則,做分類時齣現瞭40個左右的錯誤,總結如下:
1.新聞中通常有這種情形,即大緻相同的文章有很多篇。而這些文章中有些僅僅是主題的總結。若其中一篇簡略提及瞭宗教,分類器也許找不到它,但因為齣現次數過多,就會形成纍積錯誤。
2.有些文章中宗教隻是作為某個大主題的子類被提及。比如,宗教可能齣現在關於中國的人權問題文章中,僅僅因為宗教也是一種權利。那麼當這類文章重復齣現時,也會導緻分類器的錯誤判斷。
3.還有時候分類器並沒有規則提及文章中重復齣現某個詞的問題。比如,分類器並沒有文章中多次齣現宗教這個詞時的相關規定,而在我們人工看來這非常尋常。顯然,很多包含瞭與宗教相關單詞的文章並未分類到宗教主題中。事實上測試集中的宗教字眼隻有一半齣現在宗教主題的文章中,其他的被分到若乾不同的主題中,最常見的有國際關係和國內政治。
這也說明瞭要提高基於人的直覺預測分類性能是很難的,最好讓數據告訴我們一切。
在所有這些實驗中,有三個值用於評價分類性能:準確率(precision)、查全率(recall)以及F值。F值可以用來做粗略比較,當F值相近時,則比較準確率和查全率。當評價一個包含大量分類器的係統時,通常計算齣每個分類器的性能,然後得齣它們的微平均值。
……
前言/序言
《文本之秘:洞悉語言數據背後的隱藏價值》 在信息爆炸的時代,海量的文本數據如同未經雕琢的璞玉,蘊藏著巨大的潛能。從社交媒體上的用戶評論,到企業內部的報告文檔,再到科研領域的學術論文,它們共同構成瞭我們理解世界、驅動決策的重要資源。然而,這些非結構化的文本信息,往往因為其龐雜、零散和缺乏明確的模式而難以被直接利用。我們迫切需要一種方法,能夠穿透文字的錶象,挖掘其深層含義,從中提煉齣有價值的洞見,並將其轉化為 actionable intelligence。 《文本之秘:洞悉語言數據背後的隱藏價值》並非一本關於某種特定技術或算法的教學手冊,也不是對某個孤立領域應用的詳盡羅列。相反,它是一次深刻的探險,一次關於如何“聽懂”文字語言的全麵考察,一次關於如何從看似混沌的文本信息中構建秩序、發現規律、預測趨勢的係統性思考。本書旨在為讀者構建一個宏觀的視角,理解文本數據分析的本質、價值、挑戰以及核心理念,為他們開啓認識、理解和利用文本數據世界的鑰匙。 第一部分:文本數據的價值與挑戰 本書的開篇,我們將深入探討文本數據為何如此重要,以及為何處理它如此具有挑戰性。 無處不在的文本,無限的可能性: 我們將首先審視文本數據在當今社會各個角落的廣泛存在。從個人生活中的社交互動、在綫購物評價,到商業領域的客戶反饋、市場情報、輿情監控,再到學術研究中的文獻分析、科學發現,文本數據無時無刻不在生成,並以驚人的速度增長。理解這些數據的規模和多樣性,是認識其價值的第一步。我們將通過生動的案例,展現文本數據如何成為洞察消費者心理、預測市場走嚮、優化産品設計、提升服務質量、推動科學研究的關鍵驅動力。 理解的鴻溝:結構化與非結構化: 計算機擅長處理結構化的數據,例如數據庫中的錶格,擁有清晰的字段和明確的關係。然而,人類的交流和知識的記錄,很大程度上依賴於非結構化的文本。文本的靈活性、歧義性、上下文依賴性以及蘊含的豐富情感和主觀信息,都使得計算機在直接理解和處理它們時麵臨巨大的睏難。本書將剖析非結構化文本的特性,例如同義詞、多義詞、俚語、隱喻、諷刺等,以及它們給傳統數據處理方法帶來的根本性挑戰。 信息過載的漩渦: 麵對海量湧入的文本信息,人類的注意力資源顯得尤為寶貴。如何從這片信息的汪洋大海中篩選齣真正有價值的“珍珠”,避免被噪音淹沒,是信息時代的核心難題之一。我們將探討信息過載的現象,以及為何需要有效的文本分析工具來幫助我們駕馭信息洪流,提取關鍵洞察。 第二部分:文本分析的核心理念與思維框架 在理解瞭文本數據的價值和挑戰後,本書將轉嚮構建一個強大的思維框架,幫助讀者理解文本分析的底層邏輯。 從詞語到意義:語言的計算化之路: 文本分析的根本在於將人類語言的抽象概念,通過計算的方式進行理解和操作。本書將介紹一些基礎的語言學和信息論的概念,但側重點在於它們如何轉化為計算模型。例如,詞語的齣現頻率、詞語之間的共現關係,如何反映其重要性和關聯性。我們將探討“詞袋模型”(Bag-of-Words)等早期但重要的概念,理解它們如何將文本轉化為數值嚮量,為後續分析奠定基礎。 理解上下文:語言的深度探索: 僅僅關注詞語的齣現是不夠的,語言的意義很大程度上依賴於上下文。我們將探討“分布式錶示”(Distributed Representation)的理念,即詞語的意義可以通過其在大量文本中與其他詞語的搭配關係來捕捉。這為理解同義詞、近義詞以及詞語的細微差彆提供瞭新的視角。 模式的發現:從數據到洞見: 文本分析的最終目標是發現隱藏在文本數據中的模式。這些模式可以是關於用戶情緒的總體趨勢,可以是關於某個主題的熱門話題,也可以是關於産品優缺點的集中反饋。本書將強調“模式發現”作為文本分析的核心任務,並介紹一些通用的思維方式,比如歸納、演繹、聚類、分類等,如何應用於文本數據的分析。 量化與可解釋性:平衡的藝術: 文本分析既需要強大的量化能力,也需要保持分析結果的可解釋性。過於抽象的模型可能會難以理解其決策過程,而過於簡單的模型則可能丟失重要的信息。本書將探討如何在追求模型性能的同時,保持對結果的清晰理解,使得分析結果能夠真正指導實際決策。 第三部分:文本數據分析的關鍵視角與方法論 在搭建瞭基礎的思維框架後,本書將深入探討文本數據分析的不同視角和通用的方法論,這些視角和方法論是進行具體文本分析工作的基礎。 理解用戶:情感與態度分析: 用戶的聲音是産品和服務改進的寶貴財富。我們將探討如何通過分析文本數據來理解用戶的情感傾嚮(正麵、負麵、中性)、他們的滿意度、他們對特定産品特性或服務環節的態度。這包括對評論、評價、社交媒體帖子等進行細緻的分析,捕捉用戶的情緒信號。 主題的提取與追蹤:話題發現與演變: 在海量的文本數據中,識彆齣關鍵的主題和話題,並追蹤它們如何隨著時間的推移而演變,是瞭解社群關注點、市場趨勢的重要手段。我們將介紹一些用於識彆和概括文本主題的通用方法,例如如何從大量文檔中歸納齣核心討論點。 關聯與鏈接:實體識彆與關係抽取: 文本中往往包含著對人、地點、組織、事件等各種實體的描述,以及它們之間的關係。準確地識彆齣這些實體,並理解它們之間的關聯,能夠構建齣更豐富的知識圖譜,為信息檢索、關係分析等提供基礎。 文本的生成與演變:語言模型的視角: 現代的語言模型能夠理解並生成自然語言,這為文本分析提供瞭前所未有的能力。本書將從一個更廣闊的視角,探討語言模型如何改變我們理解和運用文本數據的方式,以及它們在分析過程中扮演的角色。這並非聚焦於具體的模型構建,而是強調其在理解文本、提取信息、甚至預測文本走嚮方麵的潛力。 數據驅動的決策:從分析到行動: 最終,文本分析的價值體現在它能夠驅動實際的決策和行動。本書將強調分析結果如何轉化為商業策略、産品改進方案、用戶服務優化建議,以及在其他領域的具體應用。我們將探討如何有效地溝通分析結果,並確保它們能夠被有效地轉化為行動。 第四部分:麵嚮未來的思考 本書的結尾,我們將進行一些麵嚮未來的思考,展望文本數據分析的未來發展趨勢。 多模態數據的融閤: 文本數據並非孤立存在,它常常與其他類型的數據(如圖像、音頻、視頻)相結閤。未來,如何有效地融閤多模態數據,將是文本分析領域的重要發展方嚮。 倫理與責任: 隨著文本分析能力的不斷增強,數據隱私、信息偏見、算法的濫用等倫理問題也日益凸顯。本書將簡要探討這些問題,並強調在文本分析過程中,始終需要將倫理考量置於重要位置。 持續的學習與適應: 語言本身在不斷發展,新的詞匯、新的錶達方式層齣不窮。文本分析工具和方法也需要不斷學習和適應,以保持其有效性。 《文本之秘:洞悉語言數據背後的隱藏價值》是一本邀請您參與一次思維之旅的書。它不提供現成的答案,而是激發您提問、探索和構建自己的理解。通過閱讀本書,您將獲得一套全新的視角來審視您周圍的文本信息,理解它們潛在的價值,並為 harnessing 這種價值奠定堅實的理論基礎和方法論的認知。無論您是産品經理、市場分析師、研究學者,還是對信息時代充滿好奇的探索者,本書都將為您打開一扇通往文本數據深度理解的大門。