目錄/提綱:……
目錄一、論文研究的目的及意義3
二、國內(nèi)外研究歷史以及現(xiàn)狀4
三、研究內(nèi)容及擬采用的解決方案5
四、畢業(yè)設(shè)計進(jìn)度安排7
五、參考資料7
一、對提供的數(shù)據(jù)文件進(jìn)行預(yù)處理,提取出需要的文本
三、對得到的詞進(jìn)行詞頻計算,然后取出前25%作為候選關(guān)鍵字
四、然后建立鄰接矩陣
六、鄰接矩陣最后建立后,再利用上述節(jié)點(diǎn)刪除方法確認(rèn)關(guān)鍵字
……
畢業(yè)論文開題報告
關(guān)鍵字提取
專 業(yè):計算機(jī)科學(xué)與技術(shù)
班 級:計算機(jī)B班
2012年02月
目錄
一、
論文研究的目的及意義 3
二、 國內(nèi)外研究歷史以及現(xiàn)狀 4
三、 研究內(nèi)容及擬采用的解決方案 5
四、 畢業(yè)設(shè)計進(jìn)度安排 7
五、 參考資料 7
一. 論文研究的目的與意義
隨著信息技術(shù)的普遍應(yīng)用,人類獲得數(shù)據(jù)的能力不斷增強(qiáng);據(jù)有關(guān)統(tǒng)計,在全世界的業(yè)務(wù)管理、政府管理、科學(xué)與工程管理和其他應(yīng)用領(lǐng)域存在大量數(shù)據(jù),并且其數(shù)量和規(guī)模不斷地增加和擴(kuò)大。然而,如何利用這些海量數(shù)據(jù),如何從數(shù)據(jù)中提取有用的信息,是經(jīng)營管理者面臨的一個共同難題。為解決這個難題,有關(guān)人員提出一系列技術(shù)和方法,這些技術(shù)和方法就是數(shù)據(jù)庫知識發(fā)現(xiàn),又稱為數(shù)據(jù)挖掘技術(shù),目的就是智能化和自動化地發(fā)現(xiàn)隱藏的信息和知識,發(fā)現(xiàn)先前未知的模式,能從歷史數(shù)據(jù)中預(yù)測未來發(fā)展趨勢。它是一個交叉學(xué)科領(lǐng)域,受多個學(xué)科影響,包括數(shù)據(jù)庫系統(tǒng)、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、可視化和信息科學(xué)。
數(shù)據(jù)挖掘的研究對象主要是針對結(jié)構(gòu)化
……(新文秘網(wǎng)http://jey722.cn省略722字,正式會員可完整閱讀)……
字提取策略
該類算法將關(guān)鍵字提取視為分類問題,通過將文檔中出現(xiàn)的詞語劃分到關(guān)鍵字類或非關(guān)鍵字類,從關(guān)鍵字類中選擇若干個詞語作為關(guān)鍵字。該類算法由Peter.D.Turney首次提出,采用C4.5決策樹作為分類器,稍后IanH.Witten等人采用Naïve Bayes作為分類器。該類算法都是基于已有關(guān)鍵字的訓(xùn)練集,選取適當(dāng)?shù)膶傩员硎鑫臋n中的詞語,由分類算法構(gòu)造分類模型,在利用分類模型提取關(guān)鍵字,該類算法提取效果取決于所選訓(xùn)練集、分類算法和描述屬性。
2. 不需要訓(xùn)練集的關(guān)鍵字提取策略
2.1基于統(tǒng)計的算法
該類算法,如頻率統(tǒng)計(TF,term frequency),統(tǒng)計文檔中每個詞語出現(xiàn)的頻率(停用詞除外),選取頻率超過一定閾值的詞語為關(guān)鍵字。該類算法簡單快速,能夠提取高頻詞語,卻易忽略對文檔具有重要意義但出現(xiàn)頻率不高的詞語,因此提議結(jié)果具有片面性。
2.2基于詞共現(xiàn)圖的算法
該類算法,如KeyGraph,建立在詞頻統(tǒng)計基礎(chǔ)上,將詞語及其語義關(guān)系映射到詞共現(xiàn)圖,n個頂點(diǎn)的詞共現(xiàn)圖只能包含n-1條邊。利用該圖計算每個頂點(diǎn)的Key值;Key值的大小代表頂點(diǎn)的重要性,選取若干個重要頂點(diǎn),即為該文檔的關(guān)鍵字,該類算法旨在找出出現(xiàn)頻率不高但對中心內(nèi)容貢獻(xiàn)大的詞語,但算法需要設(shè)定的參數(shù)過多,如頂點(diǎn)數(shù)、邊數(shù)等,因而常造成邊界上的取舍問題,影響算法的確定性和精度。
2.3基于SWN(small world network)的算法
該類算法,如Keyworld,建立在詞頻統(tǒng)計基礎(chǔ)上,將詞語及其語義關(guān)系映射到文檔結(jié)構(gòu)圖(若邊代表文檔中詞語之間的共現(xiàn)關(guān)系,則可稱為文檔共現(xiàn)圖),又稱為詞語網(wǎng)絡(luò),通過研究發(fā)現(xiàn)該結(jié)構(gòu)圖具有小世界特征,該類算法認(rèn)為文檔關(guān)鍵字是對該文檔結(jié)構(gòu)圖的小世界特征起關(guān)鍵作用的詞語,小世界特征的標(biāo)準(zhǔn)時網(wǎng)絡(luò)平均路徑長度。
2.4基于詞語網(wǎng)絡(luò)的算法
這類算法,如基于BC指標(biāo)的詞語網(wǎng)絡(luò)關(guān)鍵字提取算法,建立在詞頻統(tǒng)計基礎(chǔ)上,將詞語映射為頂點(diǎn),將其語義關(guān)系映射為邊,包含n個頂點(diǎn)的無向詞語網(wǎng)絡(luò),其邊數(shù)的取值范圍為[0,n(n+1)/2].利用節(jié)點(diǎn)重要性的度量指標(biāo)量化節(jié)點(diǎn)重要程度,如中介性指標(biāo)(BC,betweeness centrality),提取若干個重要的頂點(diǎn),即為文檔關(guān)鍵字。
三. 研究內(nèi)容及擬采用的解決方案
隨著復(fù)雜網(wǎng)絡(luò)的不斷發(fā)展,規(guī)模越來越大,如何從網(wǎng)絡(luò)中選出能反映網(wǎng)絡(luò)主要特征的頂點(diǎn),如何確保網(wǎng)絡(luò)a全,如何識別這些重大安全隱患的頂點(diǎn),成為社會網(wǎng)絡(luò)分析領(lǐng)域和系統(tǒng)科學(xué)研究領(lǐng)域的一個熱點(diǎn)問題。
為此提出許多度量網(wǎng)絡(luò)的頂點(diǎn)重要性的方法,這些方法可歸納為兩類:第一類,網(wǎng)絡(luò)分析方法,該類方法利用某種指標(biāo)度量頂點(diǎn)的重要程度,已經(jīng)提出的度量指標(biāo)有核心性和聲望,其中以研究網(wǎng)絡(luò)頂點(diǎn)的核心度為主;另一類,節(jié)點(diǎn)刪除的研究方法,將頂點(diǎn)的重要性等價為該頂點(diǎn)被刪除后對網(wǎng)絡(luò)的破壞程度,實際上考慮的是定點(diǎn)刪除前后圖連通狀況的改變。
我主要采取的是節(jié)點(diǎn)刪除研究方法,下面主要介紹節(jié)點(diǎn)刪除指標(biāo):
該方法在已有節(jié)點(diǎn)刪除方法的基礎(chǔ)上,為更好的度量出不同頂點(diǎn)在網(wǎng)絡(luò)結(jié)構(gòu)和位置上的差異,加入對連通分支大小和形狀的考慮。考慮網(wǎng)絡(luò)中頂點(diǎn)被刪除后網(wǎng)絡(luò)的整體連通狀況必然造成兩方面的破壞:一方面,被刪除頂點(diǎn)不能再與剩余頂點(diǎn)相連通;另一方面,剩余的部分之間因被節(jié)點(diǎn)刪除而喪失連通性;前者被稱為直接損失,后者稱為間接損失,直接損失和間接損失之和稱為總損失,總損失表示頂點(diǎn)刪除后對整個網(wǎng)絡(luò)連通狀況的破壞程度。為考慮連通分支的大小和形狀,用頂點(diǎn)刪除后所有不連通頂點(diǎn)對距離(最短路徑)的倒數(shù)和量化該指標(biāo),這種做法的隱含假設(shè)是:破壞近距離的、相對直接的聯(lián)系導(dǎo)致的破壞性大于破壞遠(yuǎn)距離的,相對間接的聯(lián)系所造成的破壞 ……(未完,全文共4016字,當(dāng)前僅顯示2029字,請閱讀下面提示信息。
收藏《學(xué)位論文開題報告:關(guān)鍵字提取》)