《第四章 數(shù)字文本與文本處理》由會員分享,可在線閱讀,更多相關(guān)《第四章 數(shù)字文本與文本處理(7頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、第三章第三章第三章第三章數(shù)字文本與文本處理數(shù)字文本與文本處理數(shù)字文本與文本處理數(shù)字文本與文本處理第一節(jié) 字符編碼 在計算機(jī)中,英文采用ASCII碼 英文l 文字的編碼中文1.漢字的輸入編碼 數(shù)字編碼:用數(shù)字代表漢字字符,電報碼、區(qū)位碼都屬于數(shù)字編碼 字音編碼:指按照漢字的標(biāo)準(zhǔn)化讀音,使用拼音作為漢字的編碼的方法 字形編碼:是指用漢字的形狀表示的編碼方式。這種編碼方式將漢字依筆劃、偏旁、部首用數(shù)字或字母編碼,然后根據(jù)其組成方式依次輸入 形音編碼:將漢字字音與字型相互結(jié)合的一種編碼方法如全息碼就是一種音形編碼。l 文字的編碼22.漢字的機(jī)內(nèi)編碼 漢字的機(jī)內(nèi)編碼是用于漢字信息的存儲、交換、檢索等操作
2、的機(jī)內(nèi)代碼,一般采用兩個字節(jié)表示。漢字交換碼:指在不同漢字信息處理系統(tǒng)之間進(jìn)行漢字交換時使用的編碼。漢字交換碼也稱漢字國標(biāo)碼GB2312 3.漢字的輸出編碼用點陣表示的漢字字形代碼,漢字的輸出形式。漢字區(qū)位碼:國標(biāo)字符集構(gòu)成一個二維平面,它分成94行、94列,行號稱為區(qū)號,列號稱為位號。每一個漢字或符號在碼表中都有各自的位置,字符的位置用它所在的區(qū)號(行號)及位號(列號)來表示。漢字的輸入編碼、漢字內(nèi)碼、字模碼是漢字的輸入編碼、漢字內(nèi)碼、字模碼是計算機(jī)中用于輸入、內(nèi)部處理、輸出三計算機(jī)中用于輸入、內(nèi)部處理、輸出三種不同用途的編碼,不要混為一類。種不同用途的編碼,不要混為一類。3 OCR(Opt
3、ical Character Recognition 光學(xué)符號光學(xué)符號識別),是指將一份文字稿件以圖像形式輸入給計算機(jī),識別),是指將一份文字稿件以圖像形式輸入給計算機(jī),計算機(jī)取出每個文字的圖像,再將其轉(zhuǎn)換成漢字的編碼計算機(jī)取出每個文字的圖像,再將其轉(zhuǎn)換成漢字的編碼存入計算機(jī),以達(dá)到漢字輸入的目的。存入計算機(jī),以達(dá)到漢字輸入的目的。OCR技術(shù)解決的技術(shù)解決的是已存在于紙介質(zhì)上的文字如何被計算機(jī)識別并接收的是已存在于紙介質(zhì)上的文字如何被計算機(jī)識別并接收的問題。由于是對掃描后的圖像文件進(jìn)行識別處理,所以問題。由于是對掃描后的圖像文件進(jìn)行識別處理,所以稱為脫機(jī)漢字識別系統(tǒng)。稱為脫機(jī)漢字識別系統(tǒng)。第二
4、節(jié) 文本輸入技術(shù)文文本本輸輸入入手寫識別手寫識別 語音識別語音識別光學(xué)字符識別光學(xué)字符識別(OCR技術(shù))技術(shù))鍵盤輸入鍵盤輸入非鍵盤輸入非鍵盤輸入4第三節(jié) 文本編輯與處理l 文本編輯 文本編輯的主要功能 對字、詞、句、段落進(jìn)行添加、刪除、修改等操作 字的處理:設(shè)置字體、字號、字的排列方向、間距、顏色、效果等 段落的處理:設(shè)置行距、段間距、段縮進(jìn)、對稱方式等 頁面布局的處理:設(shè)置頁邊距、每頁行列數(shù)、分欄、頁眉、頁腳等 “所見即所得”(What You See Is What You Get,簡稱 WYSIWYG):一方面所有的編輯操作效果立即可以在屏 幕上看到,另一方面在屏幕上看到的效果與打印機(jī)的輸出 結(jié)果相同。5l 文本處理 文本處理的內(nèi)容 字?jǐn)?shù)統(tǒng)計,字頻統(tǒng)計,簡/繁體相互轉(zhuǎn)換,漢字/拼音相互轉(zhuǎn)換 詞語排序,詞語錯誤檢測,文句語法檢查 自動分詞,詞頻統(tǒng)計,詞性標(biāo)注,詞義辨識,大陸/臺灣術(shù)語轉(zhuǎn)換 文本壓縮,文本加密,文本著作權(quán)保護(hù) 關(guān)鍵詞提取,文摘自動生成,文本分類 文本檢索(關(guān)鍵詞檢索、全文檢索),文本過濾 文語轉(zhuǎn)換(語音合成),文種轉(zhuǎn)換(機(jī)器翻譯)篇章理解,自動問答,自動寫作等 文本處理軟件6謝謝 謝!謝!