問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
《問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》由會(huì)員分享,可在線閱讀,更多相關(guān)《問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)(50頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、1 目錄 引 言 1 第一章 研究背景 2 1.1問(wèn)答系統(tǒng)研究背景 2 1.2傳統(tǒng)的問(wèn)答系統(tǒng)的不足 2 1.3問(wèn)答系統(tǒng)研究現(xiàn)狀 2 1.4問(wèn)答系統(tǒng)的類型區(qū)分 4 1.5問(wèn)題的類型進(jìn)行區(qū)分 4 1.6中文問(wèn)答系統(tǒng)研究 5 1.7相關(guān)評(píng)測(cè) 5 第二章 系統(tǒng)分析 6 2.1市場(chǎng)調(diào)查 6 2.2問(wèn)答系統(tǒng)的問(wèn)題分析 6 2.3問(wèn)題分類 6 2.4問(wèn)題相似性判定 7 2.5關(guān)鍵詞擴(kuò)展 8 第三章 數(shù)據(jù)庫(kù)設(shè)計(jì) 10 3.1數(shù)據(jù)庫(kù)的需求分析 10 3.2數(shù)據(jù)庫(kù)表結(jié)構(gòu)設(shè)計(jì) 10 3.3E-R模型 12 第四章 系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn) 15 4.1系統(tǒng)工作原理介紹 15 4
2、.2系統(tǒng)數(shù)據(jù)流圖 16 4.3系統(tǒng)的實(shí)現(xiàn)算法 16 4.4注冊(cè)模塊的設(shè)計(jì)與實(shí)現(xiàn) 19 4.5注冊(cè)模塊的設(shè)計(jì)與實(shí)現(xiàn) 32 4.6 系統(tǒng)首頁(yè)的設(shè)計(jì)與實(shí)現(xiàn) 34 4.7用戶提問(wèn)模塊的設(shè)計(jì)與實(shí)現(xiàn) 38 4.8問(wèn)題顯示模塊的設(shè)計(jì)與實(shí)現(xiàn) 41 4.9問(wèn)題回答模塊的登錄與實(shí)現(xiàn) 44 4.10后臺(tái)管理模塊的設(shè)計(jì)與實(shí)現(xiàn) 45 第五章 系統(tǒng)測(cè)試 47 第六章 總結(jié) 48 致謝 49 參考文獻(xiàn) 50 引 言 問(wèn)答系統(tǒng)的設(shè)計(jì)目標(biāo)是用簡(jiǎn)治、準(zhǔn)確的答案回答用戶用自然語(yǔ)言提出的問(wèn)題。在人工智能和自然語(yǔ)言處理領(lǐng)域,問(wèn)答系統(tǒng)都有著較長(zhǎng)的歷史。1950年英國(guó)數(shù)學(xué)家圖靈(A.M.Turin8)
3、在論文“Computing Machinery and Intelligence”中形象地指出了什么是人工智能,以及機(jī)器應(yīng)該達(dá)到的智能標(biāo)準(zhǔn)。也就是通過(guò)自然語(yǔ)言問(wèn)答的方式,判斷機(jī)器是否具有智能。20世紀(jì)70年代隨著自然語(yǔ)言理解技術(shù)的發(fā)展,出現(xiàn)了第一個(gè)實(shí)現(xiàn)用普通英語(yǔ)與計(jì)算機(jī)對(duì)話的人機(jī)接口LUNAR,該系統(tǒng)是伍德(W.Woods)于1972年開(kāi)發(fā)用來(lái)協(xié)助地質(zhì)學(xué)家查找、比較和評(píng)價(jià)阿波羅一號(hào)飛船帶回的月球巖石和土壤標(biāo)本的化學(xué)分析數(shù)據(jù)的系統(tǒng)。 本文將簡(jiǎn)要介紹國(guó)內(nèi)外問(wèn)答系統(tǒng)研究的進(jìn)展情況。并且針對(duì)問(wèn)答系統(tǒng)中的一個(gè)難點(diǎn)以及實(shí)現(xiàn)方法進(jìn)行了討論。并給出如何識(shí)別用戶搜索關(guān)鍵字的方法。第一章 研究背景 1.1問(wèn)
4、答系統(tǒng)研究背景 隨著因特網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)上流通的信息日益增加,它已儼然成為巨大的訊息流通交換平臺(tái),要在如此大量的數(shù)據(jù)庫(kù)中找尋有用的數(shù)據(jù)著實(shí)不易,通常會(huì)藉助于搜索引擎的功能來(lái)達(dá)成,然而以關(guān)鍵詞為主的搜索引擎常會(huì)找出所有相關(guān)的信息,但是其中也包含許多無(wú)用的數(shù)據(jù),用戶浪費(fèi)很多時(shí)間瀏覽不相關(guān)的網(wǎng)頁(yè)。 隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)已成為人們獲取信息的重要手段。目前,世界上最大的搜索引擎Google能夠搜索的網(wǎng)頁(yè)數(shù)量已經(jīng)超過(guò)了百億。 傳統(tǒng)的搜索引擎存在很多不足的地方,其中主要有三個(gè)方面: 一是以關(guān)鍵詞的邏輯組合來(lái)表達(dá)檢索需求 二是返回的相關(guān)性信息太多 三是以關(guān)鍵詞為基礎(chǔ)的索引,停留在語(yǔ)言的表層,而
5、沒(méi)有觸及語(yǔ)義,因此檢索效果很難進(jìn)一步提高。 以上兩點(diǎn)使得人們?cè)诨ヂ?lián)網(wǎng)上的海量信息中快速準(zhǔn)確地找到自己所需要的信息變得越來(lái)越困難。 1.2傳統(tǒng)的問(wèn)答系統(tǒng)的不足 傳統(tǒng)的問(wèn)答系統(tǒng)雖然可以對(duì)用戶提出的問(wèn)題給出確定的答案,但是這些問(wèn)答系統(tǒng)的數(shù)據(jù)源是基于一個(gè)固定的文檔集合,尚且不能滿足用戶的各種各樣的需求。 利用互聯(lián)網(wǎng)上的資源是有效的解決之道 互聯(lián)網(wǎng)上具有豐富的信息,是問(wèn)答系統(tǒng)數(shù)據(jù)源的理想資源,因此將問(wèn)答系統(tǒng)與互聯(lián)網(wǎng)結(jié)合起來(lái),就變得非常必要。這也就促使了基于互聯(lián)網(wǎng)的問(wèn)答系統(tǒng)的出現(xiàn)和發(fā)展的問(wèn)答系統(tǒng)的出現(xiàn)和發(fā)展。 1.3問(wèn)答系統(tǒng)研究現(xiàn)狀 問(wèn)答系統(tǒng)的概念雖然提出的時(shí)間并不長(zhǎng),但已經(jīng)形成發(fā)展出了一些
6、比較成熟的系統(tǒng)。 美國(guó)麻省理工學(xué)院人工智能實(shí)驗(yàn)室于1993年開(kāi)發(fā)出來(lái)的START,系統(tǒng)(http://www.ai.mit.edu/projects/infolab/start.html)是全世界第一個(gè)基于Internet的問(wèn)答系統(tǒng)。START系統(tǒng)旨在為用戶提供準(zhǔn)確的信息,它能夠回答數(shù)以百萬(wàn)的英語(yǔ)問(wèn)題,主要包括與地點(diǎn)相關(guān)的問(wèn)題(城市、國(guó)家、湖泊、天氣、地圖、人口統(tǒng)計(jì)學(xué)、政治和經(jīng)濟(jì)等)、與電影相關(guān)的問(wèn)題(片名、演員和導(dǎo)演等)、與人物相關(guān)的問(wèn)題(出生日期、傳記等)以及與詞典定義相關(guān)的問(wèn)題等。該系統(tǒng)采用基于知識(shí)庫(kù)和基于信息檢索的混雜模式,系統(tǒng)還保留著原來(lái)的兩個(gè)知識(shí)庫(kù),"START KB”和“Int
7、ernet Public Library"。如果用戶提出的問(wèn)題屬于這兩個(gè)知識(shí)庫(kù)的范疇,START就直接利用知識(shí)庫(kù)中的知識(shí)返回比較準(zhǔn)確的回答。反之,START系統(tǒng)將問(wèn)題解析得到查詢的關(guān)鍵詞,通過(guò)搜索引擎得到相關(guān)信息,通過(guò)后續(xù)處理得到準(zhǔn)確而簡(jiǎn)潔的回答返回給用戶。比如提出一個(gè)問(wèn)題“Who was Bill Gates? ", START系統(tǒng)回答“Cofounder,Microsoft. Born William H. Gates on October 28, 1955,Seattle,Washington. "。同時(shí)系統(tǒng)還返回一個(gè)關(guān)于“Bill Gates"網(wǎng)頁(yè)鏈接,如果用戶希望了解更詳細(xì)的信息時(shí)就
8、可以瀏覽改網(wǎng)頁(yè)。 美國(guó)華盛頓大學(xué)開(kāi)發(fā)的MULDER系統(tǒng)(http://mulder.cx/)是最早實(shí)現(xiàn)的基于Internet的全自動(dòng)的問(wèn)答系統(tǒng)。該系統(tǒng)沒(méi)有知識(shí)庫(kù),而完全利用Internet上的資源得到答案。對(duì)于一個(gè)問(wèn)題,MULDER系統(tǒng)返回的不是唯一的答案,而是一組候選回答,并利用統(tǒng)計(jì)的方法給每一個(gè)回答賦值一個(gè)權(quán)重,稱之為置信度。比如,對(duì)于一個(gè)問(wèn)題“Who was the fast American in space?" ,MULDER系統(tǒng)的返回的候選答案中,"Alan Shepard”具有70%的置信度,"John Glenn”具有15%的置信度。同時(shí)在每一個(gè)答案下面給出相關(guān)的網(wǎng)頁(yè)鏈接和該
9、網(wǎng)頁(yè)內(nèi)容的摘要。 AskJeeves ( Who was Bill Gates?",系統(tǒng)在文本回答的基礎(chǔ)上還將顯示一張Bill Gate的照片。作為一個(gè)商用系統(tǒng),AskJeeves的服務(wù)種類很多,不僅僅可以查找Web網(wǎng)頁(yè),也可以采用圖片、新聞、產(chǎn)品作為數(shù)據(jù)源,從而得到所需的信息。AskJeeves系統(tǒng)中的問(wèn)題分析部分是依賴手工完成的,為了能夠正確理解用戶的查詢AskJeeves雇傭了數(shù)百專職人員構(gòu)造問(wèn)題模板,并為這些問(wèn)題模板中常見(jiàn)的問(wèn)題進(jìn)行了緩存。系統(tǒng)的問(wèn)題模板雖然能夠細(xì)化和明確用戶的需求,但由于需要人工產(chǎn)生和維護(hù)的,工作量非常大。 美國(guó)密歇根大學(xué)開(kāi)發(fā)的AnswerBus ( ( answ
10、ers。 新加坡開(kāi)發(fā)的LAMP為了更加正確的理解用戶的查詢意圖,列出了person,organization,location,date,time。money,percent等7種查詢類別讓用戶進(jìn)行選擇,LAMP不是返回網(wǎng)頁(yè)鏈接,而是直接返還答案。LAMP所在網(wǎng)址p.nus.edu.sg/cgi-bin/smadellz/lamp_query.pl 此外,南加州大學(xué)利用自然語(yǔ)言處理、文本摘要等技術(shù),開(kāi)發(fā)的Webclopedia系統(tǒng)在各項(xiàng)評(píng)測(cè)中也取得了很好的效果;美國(guó)Language Computer公司的問(wèn)答系統(tǒng) ( 國(guó)內(nèi)復(fù)旦大學(xué)開(kāi)發(fā)的原型系統(tǒng)(FDUQA)己經(jīng)具有了初步的效果,同時(shí)哈
11、爾濱工業(yè)大學(xué)(金山客服)和中國(guó)科學(xué)院計(jì)算技術(shù)研究所也在從事該領(lǐng)域的研究。 1.4問(wèn)答系統(tǒng)的類型區(qū)分 問(wèn)答系統(tǒng)(Question Answering System, QA)是信息檢索系統(tǒng)的一種高級(jí)形式。它能用準(zhǔn)確、簡(jiǎn)潔的自然語(yǔ)言回答用戶用自然語(yǔ)言提出的問(wèn)題。其研究興起的主要原因是人們對(duì)快速、準(zhǔn)確地獲取信息的需求。問(wèn)答系統(tǒng)是目前人工智能和自然語(yǔ)言處理領(lǐng)域中一個(gè)倍受關(guān)注并具有廣泛發(fā)展前景的研究方向。 1.5問(wèn)題的類型進(jìn)行區(qū)分 問(wèn)答系統(tǒng)問(wèn)答問(wèn)題的類型進(jìn)行區(qū)分:詢問(wèn)人(如:誰(shuí)發(fā)現(xiàn)了北美洲?)、詢問(wèn)時(shí)間(如:人類哪年登錄月球?)、詢問(wèn)數(shù)量(如:珠穆朗瑪峰有多高?)、詢問(wèn)定義(如:什么是氨基酸?)、
12、詢問(wèn)地點(diǎn)和位置(如:芙蓉江在重慶市哪個(gè)縣?)、詢問(wèn)原因(如:天為什么是藍(lán)的?)。問(wèn)答系統(tǒng)分類如圖1.1 問(wèn)答系統(tǒng) 限定域 問(wèn)答系統(tǒng) 開(kāi)發(fā)域 問(wèn)答系統(tǒng) 基于常用提問(wèn)集 問(wèn)答系統(tǒng) 機(jī)構(gòu)數(shù)據(jù)庫(kù) 問(wèn)答系統(tǒng) 自由文本 問(wèn)答系統(tǒng) 網(wǎng)絡(luò) 問(wèn)答系統(tǒng) 固定資料庫(kù) 問(wèn)答系統(tǒng) 單文本 問(wèn)答系統(tǒng) 圖1.1 問(wèn)答系統(tǒng)分類 從系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)來(lái)看,自動(dòng)問(wèn)答系統(tǒng)一般包括三個(gè)主要組成部分:問(wèn)題分析、信息檢索和答案抽取。 目前國(guó)際上,問(wèn)答系統(tǒng)的研究方興未艾,許多大的科研院所和著名公司,都積極參與到該領(lǐng)域的研究,其中比較著名的如MICROSOFT、IBM、MIT、Universi
13、ty of Amsterdam、National University of Singapore、University of Zurich、University of Southern California、Columbia University等等,國(guó)內(nèi)在問(wèn)答系統(tǒng)方面的研究相對(duì)國(guó)外較為不足,主要有中科院計(jì)算所、復(fù)旦大學(xué)、哈爾濱工業(yè)大學(xué)、沈陽(yáng)航空工業(yè)學(xué)院、香港城市大學(xué)、臺(tái)灣中研院等一些單位。 1.6中文問(wèn)答系統(tǒng)研究 中文問(wèn)答系統(tǒng)相對(duì)于英文有如下幾個(gè)方面的難點(diǎn)或不足之處: 連寫(xiě):中文是連續(xù)書(shū)寫(xiě),分詞是漢語(yǔ)言處理的基礎(chǔ)。中文問(wèn)答系統(tǒng)由于是句子級(jí)別的信息檢索,要分析句子,首先要分詞。 形
14、態(tài):漢語(yǔ)缺乏狹義的形態(tài)變化,如英文中的主動(dòng)被動(dòng)語(yǔ)態(tài),完成時(shí)進(jìn)行時(shí)等,形態(tài)對(duì)于計(jì)算機(jī)就是標(biāo)記,有利于計(jì)算機(jī)的處理。 語(yǔ)法:漢語(yǔ)語(yǔ)法靈活,句子各成分之間的關(guān)系靠詞序、“意合”、虛詞,變化較多。 語(yǔ)義:一詞多義、同音詞、同義詞、近義詞等,以及豐富的表達(dá)方式,上下文依賴度高,省略語(yǔ)等都是計(jì)算機(jī)處理的難點(diǎn)。 語(yǔ)法研究:面向計(jì)算機(jī)處理的中文語(yǔ)法研究不足,如中文問(wèn)答系統(tǒng)需要的關(guān)于中文句型形式化、不同句型之間的轉(zhuǎn)換的研究資料極少。 相關(guān)資源:缺乏包括語(yǔ)法、語(yǔ)義詞典等中文語(yǔ)言學(xué)資源和相關(guān)生熟語(yǔ)料,國(guó)外這方面強(qiáng)得多,如TREC就提供的相當(dāng)數(shù)量的可用于英文問(wèn)答研究和評(píng)測(cè)的語(yǔ)料。 中文問(wèn)答系統(tǒng)需要
15、在現(xiàn)有的中文信息處理技術(shù)基礎(chǔ)上,充分研究和利用問(wèn)答的特性與需求,通過(guò)各種方法解決和克服(或暫時(shí)回避)以上難點(diǎn)和困難,設(shè)計(jì)和開(kāi)發(fā)問(wèn)答系統(tǒng)。 1.7相關(guān)評(píng)測(cè) 自1999 年文本檢索會(huì)議( Text Retrieval Conference ,簡(jiǎn)稱TREC) 引入問(wèn)答系統(tǒng)評(píng)測(cè)專項(xiàng)(Question Answering Track ,簡(jiǎn)稱QA Track) 后,人們對(duì)基于自然語(yǔ)言的問(wèn)答系統(tǒng)再次產(chǎn)生了濃厚的興趣,在近些年的TREC 比賽中,QA Track 是最受關(guān)注的評(píng)測(cè)項(xiàng)目之一。 日語(yǔ)問(wèn)答評(píng)測(cè)平臺(tái)Question Answering Challenge (QAC) 是從2002 年開(kāi)始的,每
16、兩年舉辦一屆。自NTCIR-5開(kāi)始,其CLQA專項(xiàng)中加入中文評(píng)測(cè)語(yǔ)料,但目前尚未見(jiàn)有簡(jiǎn)體中文。 由IST Programme of the European Union 資助的Cross Language Evaluation Forum (CLEF) 在2003 年設(shè)立第一屆多語(yǔ)言問(wèn)答系統(tǒng)評(píng)測(cè)(Multilingual Question Answering) 項(xiàng)目,并計(jì)劃每年舉辦一次。第二章 系統(tǒng)分析 2.1市場(chǎng)調(diào)查 在正式立項(xiàng)之前必須進(jìn)行可行性分析,而可行性分析的基礎(chǔ)是對(duì)系統(tǒng)的市場(chǎng)調(diào)查。市場(chǎng)調(diào)查主要由兩部分組成:一般調(diào)查和信息需求初步調(diào)查。一般調(diào)查包括找出相近的站點(diǎn),對(duì)這些站點(diǎn)的
17、網(wǎng)址宣傳方法、主頁(yè)設(shè)計(jì)、文字?jǐn)⑹龅惹闆r進(jìn)行了分析,并了解整個(gè)人才交流的運(yùn)作情況,充分發(fā)揮本網(wǎng)站的優(yōu)勢(shì)。信息需求初步調(diào)查是通過(guò)發(fā)E-mail和討論組的方式對(duì)部分人才和企業(yè)進(jìn)行調(diào)查了解。 本系統(tǒng)界面簡(jiǎn)潔、友好,操作簡(jiǎn)便易用,在設(shè)計(jì)時(shí)充分考慮人才網(wǎng)站的特點(diǎn),力求簡(jiǎn)潔,避免花哨的內(nèi)容,以沖淡主題,做到個(gè)人用戶與企業(yè)用戶兼顧,使系統(tǒng)簡(jiǎn)潔實(shí)用、易操作。 2.2問(wèn)答系統(tǒng)的問(wèn)題分析 問(wèn)題分析即通過(guò)對(duì)問(wèn)題的語(yǔ)法、語(yǔ)義結(jié)構(gòu)等進(jìn)行解析,獲取該問(wèn)題的關(guān)鍵詞,提取問(wèn)題的焦點(diǎn)、確定問(wèn)題類型和答案類型等等。問(wèn)題分析部分主要完成以下幾部分工作:確定問(wèn)題的類型、提取出問(wèn)題的關(guān)鍵詞、依據(jù)問(wèn)題的類型等因素對(duì)關(guān)鍵詞進(jìn)行適當(dāng)?shù)臄U(kuò)
18、展。從自然語(yǔ)言處理的視角來(lái)看,還要對(duì)問(wèn)題進(jìn)行分詞以及詞性標(biāo)注等分析過(guò)程,有些問(wèn)答系統(tǒng)還對(duì)問(wèn)題進(jìn)行句法分析和語(yǔ)義分析。 2.3問(wèn)題分類 在TREC 2003和2004中,QA主任務(wù)把問(wèn)題分成3類進(jìn)行分別處理。這3類問(wèn)題是陳述類問(wèn)題(FactoN)、列表類問(wèn)題(Nst)和定義類問(wèn)題(defin小ons)c1551。唐素勤在教學(xué)自動(dòng)問(wèn)答系統(tǒng)中把問(wèn)題分為求知性提問(wèn)與求證性提問(wèn)兩類u“3。求知性提問(wèn)即用戶從系統(tǒng)中獲取未知知識(shí),如“什么是知識(shí)抽取?”;求證性提問(wèn)指用戶提問(wèn)前已具備了某些相關(guān)的知識(shí),通過(guò)問(wèn)答對(duì)自身已有的模糊知識(shí)或不完整知識(shí)進(jìn)行驗(yàn)證、澄清或補(bǔ)充,如“情報(bào)學(xué)專業(yè)的本科階段名稱是信息管理與信息
19、系統(tǒng)嗎?”。 問(wèn)題從形式上分為疑問(wèn)、設(shè)問(wèn)、反問(wèn)或特指問(wèn)、是非問(wèn);從目的上分為查找信息、驗(yàn)證事實(shí)、收集資料;從性質(zhì)上分為開(kāi)放型、封閉型“V’;按照復(fù)雜程度分為是非問(wèn)題、選擇問(wèn)題、特指性問(wèn)題、語(yǔ)境性問(wèn)題、推理性問(wèn)題、概括性問(wèn)題、專家性問(wèn)題。如表2.1所示。 表2.1 問(wèn)題分類 是非問(wèn)題 選擇問(wèn)題 特指性問(wèn)題 語(yǔ)境性問(wèn)題 推理性問(wèn)題 概括性問(wèn)題 專家性問(wèn)題 是非問(wèn)題(封閉型):數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)是一“回事嗎? 選擇問(wèn)題(封閉型):數(shù)據(jù)挖掘與文本挖掘。哪個(gè)概念的范疇更大? 特指問(wèn)題:在情報(bào)學(xué)博士生導(dǎo)師隊(duì)伍中。哪一位的博土學(xué)位取得最早(誰(shuí)是擁有博士學(xué)位最早的情報(bào)學(xué)博導(dǎo))? 統(tǒng)計(jì)
20、型問(wèn)題:情報(bào)學(xué)博士點(diǎn)有哪幾家? 過(guò)程型問(wèn)題:數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)需要哪些步驟? 關(guān)系型問(wèn)題:知識(shí)管理與知識(shí)工程有何區(qū)別,有何聯(lián)系? 原因型問(wèn)題:現(xiàn)在,為什么沒(méi)有本科階段的情報(bào)學(xué)? 推理性問(wèn)題:數(shù)據(jù)挖掘是從數(shù)據(jù)中挖掘,發(fā)現(xiàn)的結(jié)果是知識(shí);那么信息分析是對(duì)信息進(jìn)行分析,研究出的結(jié)果就是情報(bào)嗎?(根據(jù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)的關(guān)系推論信息分析與情報(bào)研究的關(guān)系) 概括性問(wèn)題:數(shù)據(jù)挖掘是從數(shù)據(jù)中挖掘.文本挖掘就是從文本中挖掘,那么XX挖掘就是從XX中挖掘嗎? 專家性問(wèn)題:數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)有何區(qū)別?在研究所讀研究生與在高校讀研究生有何不同? 上述關(guān)于問(wèn)題的分類并不是很好,例如。專家性問(wèn)題指只有專家才能回
21、答的問(wèn)題,問(wèn)題的專業(yè)性非常強(qiáng),也可能是概括性的,也可能涉及推理。問(wèn)答系統(tǒng)中少有反義疑問(wèn)句。 針對(duì)于不同類型的問(wèn)題制定相應(yīng)的答案抽取規(guī)則,以便在答案抽取階段應(yīng)用這些規(guī)則來(lái)抽取問(wèn)題的答案。大部分的自動(dòng)問(wèn)答系統(tǒng)部是按照事先規(guī)定好的類別進(jìn)行分類。但是這種分類還是存在很多不足的地方,人為因素太多,而且分類太粗,并不能完全符合實(shí)際的要求。所以也有一部分研究人員提出對(duì)問(wèn)題自動(dòng)分類的思想。首先收集大量的問(wèn)題作為訓(xùn)練語(yǔ)料,然后通過(guò)程序統(tǒng)計(jì)出經(jīng)常出現(xiàn)的疑問(wèn)短語(yǔ)。例如通過(guò)統(tǒng)計(jì)發(fā)現(xiàn)詢問(wèn)原因的線索詞有“區(qū)別是什么?”、“有什么區(qū)別”、“有何差異’性?”。 2.4問(wèn)題相似性判定 除了對(duì)問(wèn)題類型進(jìn)行分析以外,有的問(wèn)答
22、系統(tǒng)還使用問(wèn)題庫(kù)進(jìn)行間題的相似性判定。系統(tǒng)包括一個(gè)常問(wèn)問(wèn)題(FAQ)庫(kù),把用戶經(jīng)常提問(wèn)的問(wèn)題及其答案存儲(chǔ)起來(lái)。有了問(wèn)題庫(kù)。光拿用戶的提問(wèn)到FAQ庫(kù)中進(jìn)行搜索,查找有沒(méi)有相同的問(wèn)題。如果有,就可以直接把FAQ庫(kù)中這個(gè)問(wèn)題的答案返回;如果沒(méi)有,查找是否有相似的問(wèn)題。這樣,對(duì)于用戶常問(wèn)的問(wèn)題,問(wèn)答系統(tǒng)就可以很快給出答案,不需要經(jīng)過(guò)復(fù)雜的處理,而且還能保證答案的正確性。所以有了FAQ庫(kù)之后,既能提高問(wèn)答系統(tǒng)的效率。又能提高準(zhǔn)確性?!妒f(wàn)個(gè)為什么》、新浪的愛(ài)問(wèn)、百度的知道、網(wǎng)易的知識(shí)人、網(wǎng)上咨詢以及專家問(wèn)答系統(tǒng)等資源都是很好的FAQ庫(kù)。 問(wèn)題形似型判定主要體現(xiàn)在主題相似、結(jié)構(gòu)相似、格相似以及文法相似。
23、結(jié)構(gòu)相似屬于語(yǔ)法方面的范疇,格相似屬于語(yǔ)義方面的范疇,間法相似屬于語(yǔ)用方面的范疇。問(wèn)題相似性判定的原則為:格相似強(qiáng)于結(jié)構(gòu)相似,結(jié)構(gòu)相似強(qiáng)于主題相似。格相似與結(jié)構(gòu)相似就能確定問(wèn)題相似了,幾乎不需要考慮主題。主題的考慮主要用在目標(biāo)文獻(xiàn)檢索的確定上。如“知識(shí)管理與知識(shí)工程有何區(qū)別?”與“工程管理與工商管理有什么區(qū)別?”,這兩個(gè)問(wèn)題的主題完全不同,屬于兩個(gè)不同的領(lǐng)域;而結(jié)構(gòu)非常相似,“X與Y有何區(qū)別?”;語(yǔ)義格也非常相似(可以說(shuō)是相同),即求di財(cái)erence<x,y>,在前一個(gè)問(wèn)題中,x,y分別為數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn),后一個(gè)問(wèn)題中x,y分別為工程管理與工商管理。問(wèn)法相似指的是同一個(gè)問(wèn)題使用不同的問(wèn)法,
24、目前還很難從技術(shù)上解決語(yǔ)用的問(wèn)題。 基于常見(jiàn)問(wèn)題集的問(wèn)答系統(tǒng)類似于基于實(shí)例的機(jī)器翻譯系統(tǒng)。基于實(shí)例的機(jī)器翻譯系統(tǒng)是查找最相似的翻譯例句,然后對(duì)句中不同的部分根據(jù)詞表?yè)Q成相應(yīng)的詞即可。而基于常見(jiàn)問(wèn)題集的問(wèn)答系統(tǒng)則是查找最相似的間句,卻不能把不同的詞簡(jiǎn)單替換,如果強(qiáng)制性替換,首先要有題對(duì)庫(kù)。基于實(shí)例的機(jī)器翻譯直接使用雙語(yǔ)詞典,而問(wèn)答系統(tǒng)卻很難有題對(duì)庫(kù),至少要使用三元組概念或者語(yǔ)義概念關(guān)系的語(yǔ)義詞典,或者本體。例如首都<中國(guó),北京>,首都<英國(guó),倫敦>。因此,從這點(diǎn)上來(lái)講,基于常見(jiàn)問(wèn)題集的問(wèn)答系統(tǒng)在回答新問(wèn)題時(shí),比基于實(shí)例的機(jī)器翻譯在翻譯新句時(shí)要困難。 關(guān)鍵詞提取 在用戶提問(wèn)的問(wèn)題中,需要
25、提取對(duì)后續(xù)檢索系統(tǒng)有用的關(guān)鍵詞。關(guān)鍵詞主要由名詞、動(dòng)詞、形容詞、限定性副詞等實(shí)詞組成。疑問(wèn)詞和一些常用的“吧、了、的”等詞就應(yīng)該被過(guò)濾掉。有一些問(wèn)答系統(tǒng)還可以把關(guān)鍵詞分為兩種:一般關(guān)鍵詞和核心關(guān)鍵詞。核心關(guān)鍵詞也稱“必須含有關(guān)鍵詞”。核心關(guān)鍵詞指這些關(guān)鍵詞必須在答案句子中含有,而一般性關(guān)鍵詞可以不被答案句子包含。核心關(guān)鍵詞由專有名詞、限定性副詞(如最大、最高、最快等)、時(shí)間組成。之所以要制定“必須含有”的關(guān)鍵詞原則是因?yàn)樗鼈儗?duì)問(wèn)題有極強(qiáng)的限定性作用,如果不含有它們的句子幾乎不可能是正確的答案。例如:?jiǎn)栴}是“情報(bào)學(xué)的第一個(gè)博士點(diǎn)在哪個(gè)學(xué)校?”而檢索的結(jié)果應(yīng)該是“武漢大學(xué)”或者“武漢大學(xué)于1990
26、開(kāi)始招收情報(bào)學(xué)博士”,而不是“北京大學(xué)于1998年開(kāi)始招收情報(bào)學(xué)博士”,因?yàn)檫@顯然不是用戶想得到的結(jié)果,之所以出現(xiàn)這種情況的原因就在于非常重要的關(guān)鍵詞“第一個(gè)”沒(méi)有包含在答案句子中。如果加上“必須含有”的關(guān)鍵詞這個(gè)限制,那么這個(gè)答案就不會(huì)被檢索出來(lái),因此通過(guò)這些關(guān)鍵詞的作用可以極大地提高檢索的準(zhǔn)確性。關(guān)鍵詞被賦予不同的權(quán)重,在檢索句子時(shí)這些權(quán)重用來(lái)計(jì)算句子的權(quán)重。通常名詞、限定性副詞會(huì)有比較高的權(quán)重。 2.5關(guān)鍵詞擴(kuò)展 為了提高檢索系統(tǒng)的召回率,一般的問(wèn)答系統(tǒng)都對(duì)關(guān)鍵詞進(jìn)行擴(kuò)展。由于在問(wèn)題空間和文檔空間之間存在著天然的語(yǔ)義鴻溝,使用基于問(wèn)題分析直接提取的關(guān)鍵詞進(jìn)行查詢,常常不能獲得滿意的效
27、果。因?yàn)樵诖鸢付温渲心承┰~常常不是原來(lái)問(wèn)題的關(guān)鍵詞而是這些關(guān)鍵詞的擴(kuò)展。例如:?jiǎn)栴}是“搜索引擎中anchor文件指的是什么?”,答案的句子是“把錨庫(kù)文本變成順排索引,存到文檔索引庫(kù)里,并用錨庫(kù)所指向的doclD進(jìn)行關(guān)聯(lián)”在問(wèn)題中使用的是“anchor”,而在答案中卻采用了“錨庫(kù)”這個(gè)詞匯。這就造成關(guān)鍵詞查詢失敗,因此需要對(duì)關(guān)鍵詞做適當(dāng)?shù)臄U(kuò)展常用的關(guān)鍵詞擴(kuò)展方式有:名詞同義詞擴(kuò)展和語(yǔ)義蘊(yùn)涵擴(kuò)展、動(dòng)詞同義詞擴(kuò)展(意義用法相同的詞)、根據(jù)問(wèn)題類型擴(kuò)展。部分工作在有些系統(tǒng)中由一個(gè)叫做“檢索提問(wèn)生成器”的組件完成,它采用不同的方法生成擴(kuò)展后的檢索式。如把詞的形態(tài)變化和導(dǎo)出詞作為檢索詞。問(wèn)答系統(tǒng)中通??梢?/p>
28、采用《同義詞詞林》、WordNet、HowNet等同義詞詞典進(jìn)行查詢關(guān)鍵詞的擴(kuò)展。還有一些問(wèn)答系統(tǒng)通過(guò)統(tǒng)計(jì)的辦法來(lái)擴(kuò)展關(guān)鍵詞。這種方法需要大量的問(wèn)題和答案語(yǔ)料來(lái)進(jìn)行訓(xùn)練。每一類的問(wèn)題所對(duì)應(yīng)的答案一般都有某種共同的特性口。例如,對(duì)于詢問(wèn)地點(diǎn)的問(wèn)題,答案中經(jīng)常會(huì)出現(xiàn)“在、位于、坐落在、地處”等關(guān)鍵詞。所以通過(guò)統(tǒng)計(jì),找出這些詞后,就可以把它們添加到查詢式中。 關(guān)鍵詞擴(kuò)展雖然提高了系統(tǒng)的召回率,但如果擴(kuò)展不適當(dāng)會(huì)極大地降低檢索的正確率,因此一般的問(wèn)答系統(tǒng)對(duì)關(guān)鍵詞的擴(kuò)展都是很謹(jǐn)慎的。這些系統(tǒng)往往都對(duì)關(guān)鍵詞的擴(kuò)展添加很多限制條件,例如只對(duì)名詞的關(guān)鍵詞進(jìn)行擴(kuò)展。另外還有一些問(wèn)答系統(tǒng)是用檢索返回來(lái)的相關(guān)文檔
29、對(duì)關(guān)鍵詞進(jìn)行擴(kuò)展。擴(kuò)展后的關(guān)鍵詞的重要性往往比從問(wèn)題中提取的關(guān)鍵詞的重要性低,為了提高系統(tǒng)的準(zhǔn)確性,很多問(wèn)答系統(tǒng)又對(duì)關(guān)鍵詞賦予權(quán)重,以此來(lái)區(qū)分他們之間的重要性。 關(guān)鍵詞擴(kuò)展屬于問(wèn)題分析模塊,因?yàn)殛P(guān)鍵詞擴(kuò)展旨在解決問(wèn)題涉及哪些詞;而檢索式的構(gòu)造屬于文檔檢索模塊,因?yàn)闄z索式構(gòu)造旨在解決這些關(guān)鍵詞和目標(biāo)文獻(xiàn)之間可能的相關(guān)關(guān)系。 第三章 數(shù)據(jù)庫(kù)設(shè)計(jì) 3.1數(shù)據(jù)庫(kù)的需求分析 根據(jù)系統(tǒng)需求,可以列出以下數(shù)據(jù)項(xiàng)和數(shù)據(jù)結(jié)構(gòu): 用戶表:包括用戶名、密碼、真實(shí)姓名、用戶積分、性別、電話、生日、密碼保護(hù)問(wèn)題及答案; 問(wèn)題表:包括問(wèn)題編號(hào)、提問(wèn)者、問(wèn)題題干、提問(wèn)時(shí)間、分類名稱、子類名稱、圖片、最佳
30、答案編號(hào); 答案表:包括答案編號(hào)、答案內(nèi)容、問(wèn)題編號(hào)、回答者、回答時(shí)間、提問(wèn)者評(píng)論、好評(píng)次數(shù); 管理員表:用戶名、密碼、密碼保護(hù)問(wèn)題及答案; 問(wèn)題父類表:包括問(wèn)題分類; 問(wèn)題子類表:分類名稱、子類名稱; 3.2數(shù)據(jù)庫(kù)表結(jié)構(gòu)設(shè)計(jì) 數(shù)據(jù)庫(kù)表結(jié)構(gòu)設(shè)計(jì)如以下各表表示 表3.1 用戶表(aa_user) 字段名 數(shù)據(jù)類型 是否為空 默認(rèn)值 備注 字段說(shuō)明 username varchar(20) N 主鍵 用戶名 password varchar(200) N 密碼 name varchat(20) N 真實(shí)姓名 int
31、egral int Y 用戶積分 sex varchar(4) N 性別 phone varchar(11) Y 電話 date date Y 生日 question1 varchar(100) Y 密保問(wèn)題1 question2 varchar(100) Y 密保問(wèn)題2 question3 varchar(100) Y 密保問(wèn)題3 answer1 varchar(100) Y 答案1 answer2 varchar(100) Y
32、 答案2 answer3 varchar(100) Y 答案3 注:用戶表保存用戶相關(guān)信息,如用戶名、密碼、電話號(hào)碼等信息。這些都屬于用戶隱私,需要采用一定的安全措施對(duì)用戶信息進(jìn)行管理。 表3.2 問(wèn)題表(aa_question) 字段名 數(shù)據(jù)類型 是否為空 默認(rèn)值 備注 字段說(shuō)明 Q_ID long N 自動(dòng)增長(zhǎng) 主鍵 問(wèn)題編號(hào) username varchar(20) N 外鍵 提問(wèn)者姓名 problem varchar(500) N 問(wèn)題 time date N 提問(wèn)時(shí)間
33、 type varchar(20) N 分類名稱 sub_type varchar(20) N 子類名稱 picture varchar(100) Y 圖片 A_ID long Y NULL 外鍵 最佳答案 表3.3 答案表(aa_answer) 字段名 數(shù)據(jù)類型 是否為空 默認(rèn)值 備注 字段說(shuō)明 A_ID long N 自動(dòng)增長(zhǎng) 主鍵 答案編號(hào) Q_ID long N 外鍵 問(wèn)題編號(hào) content text N 答案內(nèi)容 username varcha
34、r(20) N 外鍵 回答者 time date N 回答時(shí)間 comment varchar(100) Y 提問(wèn)者評(píng)論 good int Y 0 好評(píng)次數(shù) 表3.4管理員表(aa_manager) 字段名 數(shù)據(jù)類型 是否為空 默認(rèn)值 備注 字段說(shuō)明 username varchar(20) N 主鍵 用戶名 password varchar(200) N 密碼 type varchar(20) N 用戶類型 question1 varchar(10
35、0) Y 密保問(wèn)題1 question2 varchar(100) Y 密保問(wèn)題2 question3 varchar(100) Y 密保問(wèn)題3 answer1 varchar(100) Y 答案1 answer2 varchar(100) Y 答案2 answer3 varchar(100) Y 答案3 注:管理員表記錄了管理員的各種信息,用戶名和密碼是用戶登錄時(shí)的身份驗(yàn)證機(jī)制求職招聘狀態(tài)描述將為用戶提供有效的求職招聘路徑,這不僅有利于管理員對(duì)用戶的管理,同時(shí)也利于用戶自己的
36、管理與維護(hù)。 表3.5 問(wèn)題分類(aa_question_type) 字段名 數(shù)據(jù)類型 是否為空 默認(rèn)值 備注 字段說(shuō)明 type varchar(20) N Y 分類名稱 表3.6 問(wèn)題分類2(aa_question_subType) 字段名 數(shù)據(jù)類型 是否為空 默認(rèn)值 備注 字段說(shuō)明 sub_type varchar(20) N 主鍵 子類名稱 type varchar(20) N 外鍵 分類名稱 3.3E-R模型 為了把用戶的數(shù)據(jù)要求清晰明確地表達(dá)出來(lái),通常要建立一個(gè)概念性的數(shù)據(jù)模型(也稱為信息模型)
37、。概念性數(shù)據(jù)模型是一種面向問(wèn)題的數(shù)據(jù)模型,是按照用戶的觀點(diǎn)來(lái)對(duì)數(shù)據(jù)和信息建模。它描述了從用戶角度看到的數(shù)據(jù),它反映了用戶的現(xiàn)實(shí)環(huán)境,且與在軟件系統(tǒng)中的實(shí)現(xiàn)方法無(wú)關(guān)。 最常用的表示概念性數(shù)據(jù)模型的方法,是實(shí)體—聯(lián)系方法(Entity—Relationship Approach)。這種方法用ER圖描述現(xiàn)實(shí)世界中的實(shí)體,而不涉及這些實(shí)體在系統(tǒng)中的實(shí)現(xiàn)方法。用這種方法表示的概念性數(shù)據(jù)模型又稱為ER模型。ER模型中包含“實(shí)體”,“聯(lián)系”和“屬性”。在本系統(tǒng)中,問(wèn)題父類與問(wèn)題子類的關(guān)系是一對(duì)多的關(guān)系(1:N),問(wèn)題與答案是一對(duì)多的關(guān)系(1:N),問(wèn)題、答案與用戶之間的關(guān)系是(1:N)如圖3.1,問(wèn)題父類
38、與問(wèn)題子類間的關(guān)系3.2所示。在本系統(tǒng)數(shù)據(jù)表中用到的主鍵有: 管理員表中的username字段(管理員名); 問(wèn)題表中的Q_ID字段(問(wèn)題編號(hào)); 答案表中的A_ID字段(答案編號(hào)); 用戶表中的username字段(用戶名); 問(wèn)題父類表中的type字段(父類名稱); 問(wèn)題子類表中的sub_type字段(子類名稱); 問(wèn)題父類 問(wèn)題子類 屬于 父類名稱 子類名稱 1 N 圖3.2問(wèn)題父類與問(wèn)題子類間的關(guān)系 問(wèn)題表 問(wèn)題內(nèi)容 提問(wèn)時(shí)間 問(wèn)題父類 問(wèn)題圖片 問(wèn)題子類 問(wèn)題編號(hào) 最佳答案 答案表 答案編號(hào) 答案內(nèi)容 回答時(shí)間 回答者
39、 好評(píng)次數(shù) 提問(wèn)者評(píng)論 用戶表 密碼保護(hù)答案 性別 積分 真實(shí)姓名 密碼 用戶名 生日 密碼保護(hù)問(wèn)題 屬于 屬于 N N 1 1 圖3.1 問(wèn)題答案與用戶間的關(guān)系 參照完整性是保證在主鍵(被參照表中)和外鍵之間的關(guān)系總是得到維護(hù)。對(duì)兩個(gè)相關(guān)聯(lián)的表(主表和從表)進(jìn)行操作數(shù)據(jù)的插入和刪除的時(shí)候,通過(guò)參照完整性保證它們之間的數(shù)據(jù)的一致性。 用戶自定義完整性,不同的數(shù)據(jù)庫(kù)系統(tǒng)根據(jù)起數(shù)據(jù)應(yīng)用環(huán)境的不同,往往還需要一些特殊的約束條件。它反應(yīng)某一具體應(yīng)用所涉及的數(shù)據(jù)必須滿足的語(yǔ)義要求。對(duì)于用戶自定義完整性可以通過(guò)數(shù)據(jù)庫(kù)設(shè)計(jì),也可以通過(guò)程序代碼來(lái)實(shí)現(xiàn)。由于程序設(shè)計(jì)的
40、靈活性和便捷性,在整個(gè)系統(tǒng)的調(diào)試過(guò)程中對(duì)于不完善的地方只需對(duì)代碼進(jìn)行修改而不用更改數(shù)據(jù)庫(kù),因此在系統(tǒng)中采用了程序代碼來(lái)實(shí)現(xiàn)數(shù)據(jù)庫(kù)用戶自定義完整性的約束。 第四章 系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn) 4.1系統(tǒng)工作原理介紹 本系統(tǒng)采用B/S結(jié)構(gòu)(Browser/Server,瀏覽器/服務(wù)器結(jié)構(gòu))和基于Web服務(wù)兩種模式,是一個(gè)適用于Internet環(huán)境下的模型結(jié)構(gòu)。只要用戶能連上Internet,便可以在任何時(shí)間、任何地點(diǎn)求職招聘求職的內(nèi)容。系統(tǒng)工作原理圖如圖4.1所示: 圖 4.1 系統(tǒng)工作原理圖 系統(tǒng)的工作流程包括以下一些關(guān)鍵環(huán)節(jié): (1)用戶注冊(cè)。在每一個(gè)用戶使用該系統(tǒng)之前需要注冊(cè),系統(tǒng)
41、會(huì)將用戶輸入的信息記錄到用戶模型中。 (2)用戶登陸。用戶輸入用戶名和密碼后,系統(tǒng)驗(yàn)證是否正確并決定用戶是否能進(jìn)入進(jìn)行求職招聘。 (3)問(wèn)題搜索。用戶在搜索框中輸入要搜索的關(guān)鍵字進(jìn)行搜索,當(dāng)用戶輸入多關(guān)鍵字的時(shí)候要用“空格”隔開(kāi)。系統(tǒng)將根據(jù)用戶的輸入對(duì)關(guān)鍵字進(jìn)行拆分和對(duì)相關(guān)內(nèi)容搜索。 (4)問(wèn)題發(fā)表。用戶單擊我要提問(wèn),在彈出的網(wǎng)站中輸入問(wèn)題,進(jìn)行發(fā)表問(wèn)題,問(wèn)了進(jìn)一步將問(wèn)題闡釋清楚積分達(dá)到100(含)分以上的用戶在發(fā)表問(wèn)題的時(shí)候可以附加一張不超過(guò)50Kb的JPG格式圖片。提問(wèn)一次將花費(fèi)積分5 (5)問(wèn)題回答。用戶單擊我要回答,在彈出的網(wǎng)站可以選擇自己想要回答的問(wèn)題,回答問(wèn)題一次將增加積分
42、5,如果回答的問(wèn)題被提問(wèn)者采納為最佳問(wèn)題將獲得5分的獎(jiǎng)勵(lì)。 (6)用戶信息管理。其中包括對(duì)用戶信息的查詢和修改,系統(tǒng)會(huì)根據(jù)修改后的用戶信息重新自動(dòng)合成網(wǎng)頁(yè)內(nèi)容。 (7)后臺(tái)管理。管理員通過(guò)后臺(tái)可以對(duì)用戶、問(wèn)題及答案進(jìn)行管理??梢詫⒉缓戏ǖ男畔⒑蛺阂庥脩暨M(jìn)行刪除 。 4.2系統(tǒng)數(shù)據(jù)流圖 數(shù)據(jù)流圖(Data Flow Diagram,簡(jiǎn)稱DFD)能精確地在邏輯上描繪系統(tǒng)的功能、輸入、輸出和數(shù)據(jù)存儲(chǔ)等,擺脫了物理內(nèi)容,是描繪系統(tǒng)邏輯模型的最主要的工具。 經(jīng)過(guò)系統(tǒng)詳細(xì)調(diào)查分析以及用戶需求分析,我們得到了新系統(tǒng)的數(shù)據(jù)流圖。 如圖4.2用戶登錄數(shù)據(jù)流圖: 圖4.2登錄數(shù)據(jù)流圖 4.3系
43、統(tǒng)的實(shí)現(xiàn)算法 用戶信息初始化算法 通過(guò)前面幾章的分析,我們已經(jīng)知道用戶信息是求職招聘導(dǎo)航的基礎(chǔ)。由用戶模型可以了解,個(gè)人信息是用戶登陸個(gè)性化網(wǎng)上人才招聘系統(tǒng)的入口;求職招聘記錄則是根據(jù)用戶的求職招聘進(jìn)度動(dòng)態(tài)更新提供內(nèi)容、求職招聘狀態(tài)提示的必要條件。所以設(shè)計(jì)好用戶信息輸入算法對(duì)后面的智能導(dǎo)航有著重要作用。用戶信息是在第一次使用系統(tǒng)注冊(cè)時(shí)輸入的。 該算法中牽涉的數(shù)據(jù)有:用戶數(shù)據(jù)庫(kù)中的用戶信息管理表、職位信息表。算法主要功能是通過(guò)接收用戶輸入或選擇的信息初始化用戶模塊中有關(guān)信息,以下便是該算法所涉及的數(shù)據(jù)結(jié)構(gòu)和詳細(xì)過(guò)程。 輸入:1)用戶輸入的信息,如姓名,密碼等。 2)用戶選
44、擇的信息,如用戶求職招聘狀態(tài)等。 輸出:用戶模塊信息初始化。 算法的主要步驟如下: (1)初始化,包括打開(kāi)數(shù)據(jù)庫(kù)aa_user、建立相關(guān)控件與數(shù)據(jù)庫(kù)的連接等; (2)將用戶信息管理表、用戶狀態(tài)表各添加一條記錄; (3)讀取各文本控件或列表控件中用戶輸入或選擇的信息到各表中對(duì)應(yīng)的字段中; (4)結(jié)束。 檢索算法 用戶打開(kāi)網(wǎng)頁(yè)后在文本框中輸入關(guān)鍵字進(jìn)行搜索,系統(tǒng)將根據(jù)用戶輸入的關(guān)鍵字進(jìn)行搜索,并返回和關(guān)鍵字相關(guān)的信息,若用戶輸入的是多關(guān)鍵字系統(tǒng)將對(duì)用戶輸入的關(guān)鍵字進(jìn)行拆分,然后搜索所有含有相關(guān)信息的記錄返回給用戶界面: (1) 用戶關(guān)鍵字,并進(jìn)行提交; (2) 從提交表單中提取
45、數(shù)據(jù),并進(jìn)行相應(yīng)判斷; (3) 連接數(shù)據(jù)庫(kù),建立記錄集,用查詢語(yǔ)句對(duì)表中數(shù)據(jù)進(jìn)行查詢; (4) 將結(jié)果進(jìn)行加工顯示給用戶; (5) 結(jié)束; 算法流程圖如圖4.3所示: 開(kāi)始 開(kāi)始 初始化系統(tǒng) 輸入關(guān)鍵字并提交 判斷用戶輸入,若為多關(guān)鍵字則進(jìn)行拆分 根據(jù)關(guān)鍵字查詢數(shù)據(jù)庫(kù) 返回查詢結(jié)果并進(jìn)行加工 將加工后的結(jié)果顯示到用戶界面 圖4.3 搜索算法流程圖 4.4注冊(cè)模塊的設(shè)計(jì)與實(shí)現(xiàn) 在本系統(tǒng)中,將會(huì)有一些公用頁(yè)面,即每個(gè)文件或部分文件都會(huì)用到的文件,在使用這些文件時(shí),只需要一個(gè)包含語(yǔ)句‘即可,這樣大大減少了代碼的
46、冗余,同時(shí)也使編碼簡(jiǎn)單,減少了許多工作量。主要的公用文件包括:conn.php文件、logout.php文件、is_login.php等。 (1)conn.php 文件 對(duì)于程序中建立數(shù)據(jù)庫(kù)連接和關(guān)閉數(shù)據(jù)庫(kù)連接的操作,最好放在一個(gè)包含文件中,這樣便于維護(hù)和修改。前面一部分為建立數(shù)據(jù)庫(kù)連接的語(yǔ)句,其中mysql_connect為建立數(shù)據(jù)庫(kù)連接的對(duì)象,mysql_select_db為數(shù)據(jù)庫(kù)連接字符串,它表明了數(shù)據(jù)庫(kù)連接的物理路徑以及采用的數(shù)據(jù)庫(kù)類型,這里采用的是MySQL數(shù)據(jù)庫(kù)。
47、456"; $db="aa"; //連接服務(wù)器 mysql_connect($host,$user,$password) or die("SORRY! 鏈接服務(wù)器失敗!"); //鏈接數(shù)據(jù)庫(kù) mysql_select_db($db) or die ("SORRY! 打開(kāi)數(shù)據(jù)庫(kù)失??!"); mysql_query("SET NAMES gb2312"); ?> (2)is_login.php 文件 is_login.php是用戶權(quán)限驗(yàn)證文件,方便調(diào)用和維護(hù)減少代碼冗余。 (3)logout.php 文件 logout.php文件是用戶退出文件,改文件用于關(guān)閉和刪除用戶SE
48、SSION。 其他一些公用文件的代碼這里將不一一列舉。 系統(tǒng)公用頁(yè)面 用戶注冊(cè)頁(yè)面 用戶注冊(cè)界面如圖4.4所示。用戶必須填寫(xiě)以下內(nèi)容,這便于對(duì)用戶的管理以及用戶的安全性。用戶注冊(cè)頁(yè)面的信息是用戶進(jìn)入系統(tǒng)的有利憑證。該頁(yè)面涉及的主要PHP文件為register.php文件。 圖4.4注冊(cè)頁(yè)面
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《產(chǎn)品價(jià)值鏈與營(yíng)銷戰(zhàn)略》
- lecture 9(精品)
- Where’s your pen pal from (2)
- (精品)實(shí)驗(yàn)二血清γ球蛋白的分離純化與鑒定by陳蔚文
- 企業(yè)專利風(fēng)險(xiǎn)管理
- 高中記敘文寫(xiě)作指導(dǎo):寫(xiě)人要凸顯個(gè)性ppt課件
- 新生兒溶血病的發(fā)病機(jī)理臨床癥狀課件
- 7、艱辛的求索 (2)
- 學(xué)校心理健康教育組織管理課件
- IE七大手法的發(fā)展歷程
- 頸托的正確使用課件
- (精品)電功與電功率復(fù)習(xí)1
- 李曉光-管理學(xué)原理第十三章領(lǐng)導(dǎo)工作概述
- 固體中的相結(jié)構(gòu)
- 智能化酒店系統(tǒng)PPT