發表於2024-12-18
智能信息處理:漢語語料庫加工技術及應用 鄭傢恒 pdf epub mobi txt 電子書 下載
基本信息
書名:智能信息處理:漢語語料庫加工技術及應用
定價:60.00元
作者:鄭傢恒
齣版社:科學齣版社
齣版日期:2010-10-01
ISBN:9787030291356
字數:
頁碼:
版次:1
裝幀:平裝
開本:16開
商品重量:0.499kg
編輯推薦
內容提要
本書以作者主持的國傢項目、省部級項目及閤作項目等為依托,以課題組近年來的研究成果為基礎,重點介紹語料庫深加工中的若乾技術和方法,涉及分詞、詞性標注、句法分析、語義標注以及相關加工中的自動校對和一緻性檢驗技術。同時,對語料庫加工質量的評價技術和語料庫的相關應用做瞭詳細介紹。各章節的順序展示瞭語料庫加工中由淺人深的發展過程。
本書可作為計算機、語言學等專業高年級本科生、研究生教材,也可作為自然語言處理和計算語言學研究人員的參考書。
目錄
《智能科學技術著作叢書》序
前言
章 緒論
1.1 語料庫的定義和作用
1.1.1 什麼是語料庫
1.1.2 語料庫的作用
1.2 語料庫的建立
1.2.1 什麼是語料庫標注
1.2.2 語料庫標注的原則
1.2.3 建立語料庫需要考慮的幾個問題
1.2.4 語料庫標注和建立的方法
1.2.5 語料庫的質量檢驗
1.3 本書的編排
參考文獻
第2章 自動分詞
2.1 自動分詞概述
2.1.1 自動分詞的意義
2.1.2 自動分詞的主要難點
2.1.3 自動分詞方法簡介
2.1.4 自動分詞評測
2.2 分詞規範
2.2.1 製定分詞規範的目的和意義
2.2.2 幾種典型的分詞規範介紹
2.3 歧義字段的切分技術
2.3.1 歧義字段現象分析
2.3.2 基於統計的歧義字段排歧
2.4 未登錄詞識彆
2.4.1 專有名詞識彆
2.4.2 新詞語識彆
2.5 縮略語識彆
2.5.1 縮略語特徵分析
2.5.2 縮略語資源庫的建立
2.5.3 縮略語識彆模型
2.5.4 縮略語的還原
2.6 分詞一緻性檢驗
2.6.1 分詞不一緻性現象分析
2.6.2 基於規則的分詞一緻性檢驗方法
2.6.3 基於統計的分詞一緻性檢驗方法
2.6.4 分詞一緻性檢驗係統
參考文獻
第3章 詞性標注
3.1 詞性標注概述
3.1.1 詞性標注的意義
3.1.2 詞性標注的難點
3.1.3 詞性標注方法簡介
3.1.4 常用語料庫
3.2 詞性標注規範
3.2.1 製定詞性標注規範的目的和意義
3.2.2 幾種典型的詞性標注規範介紹
3.3 兼類詞的標注
3.3.1 什麼是兼類詞
3.3.2 典型的兼類詞標注方法
3.4 詞性標注一緻性檢驗
3.4.1 問題描述和分析
3.4.2 一緻性檢驗模型的建立
3.4.3 實驗結果和分析
3.4.4 方法評價
3.5 詞性標注自動校對
3.5.1 基於分類的詞性標注自動校對
3.5.2 基於決策錶的詞性標注自動校對
參考文獻
第4章 句法分析
4.1 完全句法分析
4.1.1 完全句法分析概述
4.1.2 形式語法體係
4.1.3 樹庫資源的建設
4.1.4 漢語句法分析的特點
4.1.5 句法分析方法
4.1.6 相關會議及評測
4.1.7 句法分析模型的評價方法
4.2 淺層句法分析
4.2.1 淺層句法分析概述
4.2.2 組塊庫的獲取
4.2.3 組塊的類型及其標注規範
4.2.4 組塊分析方法
4.2.5 相關會議及評測
4.2.6 評價參數
4.3 句法樹庫的一緻性檢驗
4.3.1 不一緻現象分析
4.3.2 不一緻的發現和消解
參考文獻
第5章 語義標注語料庫
5.1 語義標注範圍
5.1.1 詞義標注
5.1.2 句義標注
5.1.3 篇章級的語義標注
5.2 語義標注語料庫的建立方法
5.2.1 傳統的以人工標注為主的方法
5.2.2 自動構建語義標注語料庫
5.3 主要的語義標注語料庫
5.3.1 詞義標注語料庫
5.3.2 句義標注語料庫
5.3.3 語篇關係標注語料庫
5.3.4 時間關係標注語料庫
5.3.5 信息抽取方麵的語料庫
5.3.6 生物醫藥領域中的語義標注語料庫
參考文獻
第6章 語料庫評測
6.1 語料庫評測的意義
6.2 語料庫分詞質量評價
6.2.1 評價樣本的抽樣
6.2.2 抽樣樣本的聚類及評價
6.2.3 實驗及分析
6.3 語料庫可用性評價
6.3.1 可用性評價體係
6.3.2 可用性評價計算
6.3.3 評價結果分析
參考文獻
第7章 基於語料庫的應用研究
7.1 網頁信息處理
7.1.1 重復網頁分析
7.1.2 基於語義的網頁去重
7.1.3 基於網頁文本結構的網頁去重
7.2 特殊領域的信息抽取
7.2.1 基於HMM的農業信息抽取
7.2.2 基於NLP的土壤汙染數據抽取
7.2.3 基於BOotstrapping的交通工具名識彆
7.3 基於大規模語料庫的漢語韻律邊界研究
7.3.1 基於統計語言模型建立二叉樹結構
7.3.2 基於樹結構的漢語韻律邊界預測
7.4 基於大規模語料庫的欺行為檢測
7.4.1 欺性語料庫的建設
7.4.2 欺檢測的特徵綫索
7.4.3 文本特徵抽取
7.4.4 欺行為檢測方法
7.4.5 實驗結果和分析
參考文獻
作者介紹
文摘
序言
智能信息處理:漢語語料庫加工技術及應用 鄭傢恒 pdf epub mobi txt 電子書 下載