認(rèn)知模式識別理論及其在無字庫智能造字應(yīng)用研究.ppt
《認(rèn)知模式識別理論及其在無字庫智能造字應(yīng)用研究.ppt》由會員分享,可在線閱讀,更多相關(guān)《認(rèn)知模式識別理論及其在無字庫智能造字應(yīng)用研究.ppt(26頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
博士學(xué)位論文開題報(bào)告,認(rèn)知模式識別理論及其在無字庫智能造字應(yīng)用研究,研究生:劉明友指導(dǎo)教師:皮佑國教授,Outline,背景研究內(nèi)容和創(chuàng)新點(diǎn)研究基礎(chǔ)進(jìn)度計(jì)劃,背景—模式識別,模式識別尚存在兩個(gè)主要問題需要解決:小樣本問題迄今為止的模式識別主要是基于被識別事物的區(qū)分機(jī)理,而不是基于認(rèn)知機(jī)理,在“識”方面,即對事物認(rèn)識(學(xué)習(xí))方面與人類的認(rèn)知過程差異較大而且學(xué)習(xí)能力不足,背景—智能造字,字庫方式存在的弊端:難于形成規(guī)模適度和長期穩(wěn)定的漢字信息化標(biāo)準(zhǔn)不符合漢字的造字規(guī)律,無法傳承漢字文化不符合漢字認(rèn)知規(guī)律,與漢字教學(xué)脫節(jié)不能滿足整個(gè)社會的應(yīng)用需求信息熵高,是效率最低語言文字信息系統(tǒng)之一,,研究內(nèi)容和創(chuàng)新點(diǎn),提出了基于原型匹配的認(rèn)知模式識別理論提出了擬人的計(jì)算機(jī)無字庫智能造字完善了漢字原型及結(jié)構(gòu)提取理論和方法提出了漢字基元映射知識獲取方法提出了漢字知識組織與表示方法,原型匹配的認(rèn)知模式識別理論研究,恒常性與拓?fù)洳蛔冃阅J降慕M成原型與成分的關(guān)系,恒常性與拓?fù)洳蛔冃?視知覺恒常性表述為:在對象圖像信息足夠確定其模式的條件下,圖像的大小變化和形狀變化不影響人對對象的知覺。用幾何拓?fù)鋵W(xué)的相關(guān)理論,建立物體對象的數(shù)學(xué)模型,從大小和形狀恒常性兩個(gè)角度加以證明。,模式的組成,從成分識別理論出發(fā),研究現(xiàn)實(shí)世界中物體的組成法則。比如,世界上的物質(zhì)種類多得數(shù)不清,但組成物質(zhì)的化學(xué)元素卻只有一百多種。又如,可以通過紅、綠、藍(lán)三種顏色來構(gòu)成五彩繽紛的顏色。Biederman的成分識別理論揭示了客觀世界的構(gòu)成模式:客觀世界中的所有物體都是由一些成分構(gòu)成的,也就是說,客觀世界中物體都可以分解成一定的組成成分,各個(gè)成分之間的組合關(guān)系我們稱之為結(jié)構(gòu)。我們用集合理論來對物體的構(gòu)建進(jìn)行描述。,原型與成分的關(guān)系,原型是這一類客體所有的個(gè)體的概括表征。物體是由一些成分按照其結(jié)構(gòu)所組成的,這里的成分是具體的、確定的。因此原型和組成物體的成分之間就存在一個(gè)由概括到確定,由抽象到具體的過程。我們用拓?fù)淇臻g相關(guān)理論,研究原型與具體的組成成分之間的拓?fù)溆成?。從拓?fù)鋵W(xué)的理論加以證明:原型匹配過程就是用原型集合中的一個(gè)或數(shù)個(gè)元素的拓?fù)渥儞Q對模式中的組成成分進(jìn)行覆蓋的過程。,,擬人的計(jì)算機(jī)無字庫智能造字研究,漢字是用象形和指事及其符號按照一定的規(guī)則造出來的,傳統(tǒng)的漢字造字理論包括:象形,指事,會意,形聲。從認(rèn)知心理學(xué)的知覺理論出發(fā),研究人對漢字的認(rèn)知機(jī)理,包括漢字的認(rèn)讀和書寫過程。無字庫智能造字的結(jié)構(gòu)框架:,,擬人的計(jì)算機(jī)無字庫智能造字研究,將計(jì)算機(jī)比作人腦,建立包括基元庫,漢字結(jié)構(gòu)以及基元在結(jié)構(gòu)中映射知識的知識庫來模擬人的長時(shí)記憶;用推理機(jī)、解釋機(jī)制、智能造字單元來模擬人在漢字認(rèn)讀和書寫過程中腦的控制功能。漢字識別對應(yīng)于認(rèn)讀過程,智能造字對應(yīng)于書寫過程。這樣就將人的漢字認(rèn)讀和書寫過程外延到計(jì)算機(jī)中了。,,漢字原型及結(jié)構(gòu)研究,原型論即原型匹配理論,原型論的突出特點(diǎn)是它認(rèn)為在記憶中儲存的不是與外部模式有一對一關(guān)系的模板,而是原型(prototype)。原型不是某一個(gè)特定模式的內(nèi)部復(fù)本,它被看作一類客體的內(nèi)部表征,即一個(gè)類別或范疇的所有個(gè)體的概括表征。構(gòu)成漢字的原型是漢字基元,漢字基元是智能造字中按照漢字結(jié)構(gòu)組成漢字的基本單元;漢字的組成成分是漢字基元的拓?fù)渥儞Q,變換保持漢字基元的拓?fù)洳蛔冃?;同一漢字基元在不同漢字中拓?fù)渥儞Q是同胚映射。漢字成分之間的拓?fù)潢P(guān)系構(gòu)成了漢字的結(jié)構(gòu)。,漢字原型及結(jié)構(gòu)研究,通過初始原型集合→漢字編碼→造字實(shí)驗(yàn)→原型使用頻率等統(tǒng)計(jì)→修改原型集合的流程,反復(fù)實(shí)驗(yàn),最終獲得漢字的原型知識。研究漢字的拆分規(guī)律,分析和總結(jié)漢字原型的形成規(guī)律。從圖形符號的角度分析漢字原型之間組合規(guī)律,在傳統(tǒng)漢字結(jié)構(gòu)和實(shí)驗(yàn)室研究的基礎(chǔ)上,進(jìn)一步完善漢字結(jié)構(gòu)。旨在用現(xiàn)代科學(xué)實(shí)驗(yàn)的方法來解決文字文化問題探討。,,漢字基元映射研究,基于區(qū)域的仿射變換系數(shù)自動獲取基于特征提取的仿射變換系數(shù)自動獲取,基于區(qū)域的仿射變換系數(shù)自動獲取,該方法包括一個(gè)變換模型(參考圖像坐標(biāo)到對應(yīng)的目標(biāo)圖像空間坐標(biāo)),圖像相似性度量(衡量兩圖像空間內(nèi)對應(yīng)特征的相似性),和優(yōu)化算法(通過改變變換系數(shù)最優(yōu)化圖像相似性)。,基于區(qū)域的仿射變換系數(shù)自動獲取,變換模型設(shè)W表示基元圖像,x表示該圖像中的一個(gè)點(diǎn)。定義基元圖像的一個(gè)幾何變換為:對于某一線性變換A,其位置系數(shù)t表示為:由上式知,線性變換系數(shù)可以看成是輸入,而計(jì)算得到的平移系數(shù)看成是輸出。,,,,,基于區(qū)域的仿射變換系數(shù)自動獲取,圖像相似性度量歸一化相關(guān)系數(shù)(NCC)I表示子圖像,T表示模板圖像,R表示圖像相關(guān)系數(shù),基于區(qū)域的仿射變換系數(shù)自動獲取,優(yōu)化算法利用粒子群算法來優(yōu)化仿射變換系數(shù)。粒子群算法因其簡單性和有效性得到了廣泛的應(yīng)用,成為研究的熱點(diǎn)。粒子群算法用于仿射變換系數(shù)尋優(yōu)的過程為:隨機(jī)產(chǎn)生m組仿射變換系數(shù)中的線性變換系數(shù)組成初始群體,分別對基元圖像進(jìn)行變換(模板圖像),然后在漢字圖像(搜索圖)上尋找最佳匹配,由最佳匹配時(shí)的圖像相似性系數(shù)決定每個(gè)粒子的適應(yīng)度值,通過迭代尋優(yōu),獲取最優(yōu)的線性變換系數(shù)和平移系數(shù)。,基于特征提取的仿射變換系數(shù)自動獲取,仿射不變特征圖像在仿射變換下保持不變的性質(zhì)稱為仿射不變特征。仿射不變特征可分為全局不變特征和局部不變特征。SIFT(尺度不變特征變換)算法是一種提取局部特征的算法,在尺度空間尋找極值點(diǎn),提取位置,尺度,旋轉(zhuǎn)不變量,對視角變化、仿射變換、噪聲也保持一定程度的穩(wěn)定性。,基于特征提取的仿射變換系數(shù)自動獲取,基本思路漢字基元到漢字組成成分的仿射變換,通過提取局部仿射不變特征—位置和尺度不變量,找到相對應(yīng)的匹配點(diǎn)對,由三對不共線點(diǎn)計(jì)算得到仿射變換系數(shù)。,基于特征提取的仿射變換系數(shù)自動獲取,獲取流程興趣點(diǎn)或角點(diǎn)檢測:SIFT空間極值點(diǎn)檢測往往會丟失掉重要的關(guān)鍵點(diǎn),比如角點(diǎn)和拐點(diǎn),而角點(diǎn)和拐點(diǎn)是計(jì)算仿射變換系數(shù)最重要的參數(shù)。通過對各種興趣點(diǎn)和角點(diǎn)算法的比較,如Harris角點(diǎn)檢測,Susan角點(diǎn)檢測,采用強(qiáng)角點(diǎn)檢測漢字圖像的角點(diǎn),具有穩(wěn)定性好,檢測到的角點(diǎn)準(zhǔn)確而全面等優(yōu)點(diǎn)。角點(diǎn)描述子生成:檢測到漢字角點(diǎn)以后,用改進(jìn)的SIFT描述子生成角點(diǎn)特征向量,去除SIFT描述子的旋轉(zhuǎn)不變性,提取位置和尺度不變量。確定匹配點(diǎn)對:角點(diǎn)特征向量生成后,采用角點(diǎn)特征向量的歐氏距離作為兩幅圖像中角點(diǎn)的相似性判定度量。取圖像一中的某個(gè)角點(diǎn),并找出其與圖像二中歐氏距離最近的前兩個(gè)角點(diǎn),這樣就找到了基元圖像中某個(gè)角點(diǎn)在漢字圖像中相匹配的兩個(gè)角點(diǎn),從而不漏掉重要的相匹配的角點(diǎn)。隨機(jī)選取不共線的相匹配三對點(diǎn)可以計(jì)算確定一組仿射變換系數(shù),通過使用前面介紹的歸一化相關(guān)系數(shù)作為相似性度量,由此可以確定一組最佳的仿射變換系數(shù)。,漢字知識組織與表示,語義網(wǎng)絡(luò)是通過概念及其語義關(guān)系來表達(dá)知識的一種有向網(wǎng)絡(luò)圖。漢字集先按漢字一級結(jié)構(gòu)聚類,構(gòu)成語義網(wǎng)絡(luò)的第一層次。,漢字知識組織與表示,在一級結(jié)構(gòu)的基礎(chǔ)上,漢字的結(jié)構(gòu)或基元再按照自上而下的語義關(guān)系匯集,構(gòu)成一個(gè)多層次的語義網(wǎng)絡(luò)。,圖3左三包圍結(jié)構(gòu)漢字語義網(wǎng)絡(luò),,研究基礎(chǔ),分別對GB2312-80和GB18030-2000漢字字符集進(jìn)行了編碼和造字,提取和歸納了漢字基元和漢字結(jié)構(gòu)。搭建了無字庫智能造字實(shí)驗(yàn)平臺。發(fā)表相關(guān)論文和專著六篇。,,進(jìn)度計(jì)劃,,,謝謝!請各位老師和同學(xué)提出寶貴修改和完善意見和建議!,- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 認(rèn)知 模式識別 理論 及其 字庫 智能 造字 應(yīng)用 研究
鏈接地址:http://www.820124.com/p-3594080.html