<form id="eliaw"></form>

您的位置：新文秘網(wǎng)>>畢業(yè)論文/文教論文/>>正文

學(xué)位論文開題報告：關(guān)鍵字提取

發(fā)表時間:2013/5/11 13:22:31

目錄/提綱：……
目錄一、論文研究的目的及意義3
二、國內(nèi)外研究歷史以及現(xiàn)狀4
三、研究內(nèi)容及擬采用的解決方案5
四、畢業(yè)設(shè)計進度安排7
五、參考資料7
一、對提供的數(shù)據(jù)文件進行預(yù)處理，提取出需要的文本
三、對得到的詞進行詞頻計算，然后取出前25%作為候選關(guān)鍵字
四、然后建立鄰接矩陣
六、鄰接矩陣最后建立后，再利用上述節(jié)點刪除方法確認關(guān)鍵字
……
畢業(yè)論文開題報告
關(guān)鍵字提取
專業(yè)：計算機科學(xué)與技術(shù)
班級：計算機B班
2012年02月

目錄
一、論文研究的目的及意義 3
二、國內(nèi)外研究歷史以及現(xiàn)狀 4
三、研究內(nèi)容及擬采用的解決方案 5
四、畢業(yè)設(shè)計進度安排 7
五、參考資料 7

一. 論文研究的目的與意義
隨著信息技術(shù)的普遍應(yīng)用，人類獲得數(shù)據(jù)的能力不斷增強；據(jù)有關(guān)統(tǒng)計，在全世界的業(yè)務(wù)管理、政府管理、科學(xué)與工程管理和其他應(yīng)用領(lǐng)域存在大量數(shù)據(jù)，并且其數(shù)量和規(guī)模不斷地增加和擴大。然而，如何利用這些海量數(shù)據(jù)，如何從數(shù)據(jù)中提取有用的信息，是經(jīng)營管理者面臨的一個共同難題。為解決這個難題，有關(guān)人員提出一系列技術(shù)和方法，這些技術(shù)和方法就是數(shù)據(jù)庫知識發(fā)現(xiàn)，又稱為數(shù)據(jù)挖掘技術(shù)，目的就是智能化和自動化地發(fā)現(xiàn)隱藏的信息和知識，發(fā)現(xiàn)先前未知的模式，能從歷史數(shù)據(jù)中預(yù)測未來發(fā)展趨勢。它是一個交叉學(xué)科領(lǐng)域，受多個學(xué)科影響，包括數(shù)據(jù)庫系統(tǒng)、統(tǒng)計學(xué)、機器學(xué)習(xí)、可視化和信息科學(xué)。
數(shù)據(jù)挖掘的研究對象主要是針對結(jié)構(gòu)化
……（新文秘網(wǎng)http://jey722.cn省略722字，正式會員可完整閱讀）……　
字提取策略
該類算法將關(guān)鍵字提取視為分類問題，通過將文檔中出現(xiàn)的詞語劃分到關(guān)鍵字類或非關(guān)鍵字類，從關(guān)鍵字類中選擇若干個詞語作為關(guān)鍵字。該類算法由Peter.D.Turney首次提出，采用C4.5決策樹作為分類器，稍后IanH.Witten等人采用Naïve Bayes作為分類器。該類算法都是基于已有關(guān)鍵字的訓(xùn)練集，選取適當(dāng)?shù)膶傩员硎鑫臋n中的詞語，由分類算法構(gòu)造分類模型，在利用分類模型提取關(guān)鍵字，該類算法提取效果取決于所選訓(xùn)練集、分類算法和描述屬性。
2. 不需要訓(xùn)練集的關(guān)鍵字提取策略
2.1基于統(tǒng)計的算法
該類算法，如頻率統(tǒng)計（TF，term frequency），統(tǒng)計文檔中每個詞語出現(xiàn)的頻率（停用詞除外），選取頻率超過一定閾值的詞語為關(guān)鍵字。該類算法簡單快速，能夠提取高頻詞語，卻易忽略對文檔具有重要意義但出現(xiàn)頻率不高的詞語，因此提議結(jié)果具有片面性。
2.2基于詞共現(xiàn)圖的算法
該類算法，如KeyGraph,建立在詞頻統(tǒng)計基礎(chǔ)上，將詞語及其語義關(guān)系映射到詞共現(xiàn)圖，n個頂點的詞共現(xiàn)圖只能包含n-1條邊。利用該圖計算每個頂點的Key值；Key值的大小代表頂點的重要性，選取若干個重要頂點，即為該文檔的關(guān)鍵字，該類算法旨在找出出現(xiàn)頻率不高但對中心內(nèi)容貢獻大的詞語，但算法需要設(shè)定的參數(shù)過多，如頂點數(shù)、邊數(shù)等，因而常造成邊界上的取舍問題，影響算法的確定性和精度。
2.3基于SWN（small world network）的算法
該類算法，如Keyworld,建立在詞頻統(tǒng)計基礎(chǔ)上，將詞語及其語義關(guān)系映射到文檔結(jié)構(gòu)圖（若邊代表文檔中詞語之間的共現(xiàn)關(guān)系，則可稱為文檔共現(xiàn)圖），又稱為詞語網(wǎng)絡(luò)，通過研究發(fā)現(xiàn)該結(jié)構(gòu)圖具有小世界特征，該類算法認為文檔關(guān)鍵字是對該文檔結(jié)構(gòu)圖的小世界特征起關(guān)鍵作用的詞語，小世界特征的標(biāo)準(zhǔn)時網(wǎng)絡(luò)平均路徑長度。
2.4基于詞語網(wǎng)絡(luò)的算法
這類算法，如基于BC指標(biāo)的詞語網(wǎng)絡(luò)關(guān)鍵字提取算法，建立在詞頻統(tǒng)計基礎(chǔ)上，將詞語映射為頂點，將其語義關(guān)系映射為邊，包含n個頂點的無向詞語網(wǎng)絡(luò)，其邊數(shù)的取值范圍為[0,n(n+1)/2].利用節(jié)點重要性的度量指標(biāo)量化節(jié)點重要程度，如中介性指標(biāo)（BC，betweeness centrality），提取若干個重要的頂點，即為文檔關(guān)鍵字。
三. 研究內(nèi)容及擬采用的解決方案
隨著復(fù)雜網(wǎng)絡(luò)的不斷發(fā)展，規(guī)模越來越大，如何從網(wǎng)絡(luò)中選出能反映網(wǎng)絡(luò)主要特征的頂點，如何確保網(wǎng)絡(luò)a全，如何識別這些重大安全隱患的頂點，成為社會網(wǎng)絡(luò)分析領(lǐng)域和系統(tǒng)科學(xué)研究領(lǐng)域的一個熱點問題。
為此提出許多度量網(wǎng)絡(luò)的頂點重要性的方法，這些方法可歸納為兩類：第一類，網(wǎng)絡(luò)分析方法，該類方法利用某種指標(biāo)度量頂點的重要程度，已經(jīng)提出的度量指標(biāo)有核心性和聲望，其中以研究網(wǎng)絡(luò)頂點的核心度為主；另一類，節(jié)點刪除的研究方法，將頂點的重要性等價為該頂點被刪除后對網(wǎng)絡(luò)的破壞程度，實際上考慮的是定點刪除前后圖連通狀況的改變。
我主要采取的是節(jié)點刪除研究方法，下面主要介紹節(jié)點刪除指標(biāo)：
該方法在已有節(jié)點刪除方法的基礎(chǔ)上，為更好的度量出不同頂點在網(wǎng)絡(luò)結(jié)構(gòu)和位置上的差異，加入對連通分支大小和形狀的考慮�？紤]網(wǎng)絡(luò)中頂點被刪除后網(wǎng)絡(luò)的整體連通狀況必然造成兩方面的破壞：一方面，被刪除頂點不能再與剩余頂點相連通；另一方面，剩余的部分之間因被節(jié)點刪除而喪失連通性；前者被稱為直接損失，后者稱為間接損失，直接損失和間接損失之和稱為總損失，總損失表示頂點刪除后對整個網(wǎng)絡(luò)連通狀況的破壞程度。為考慮連通分支的大小和形狀，用頂點刪除后所有不連通頂點對距離（最短路徑）的倒數(shù)和量化該指標(biāo)，這種做法的隱含假設(shè)是：破壞近距離的、相對直接的聯(lián)系導(dǎo)致的破壞性大于破壞遠距離的，相對間接的聯(lián)系所造成的破壞 ……（未完，全文共4016字，當(dāng)前僅顯示2029字，請閱讀下面提示信息。收藏《學(xué)位論文開題報告：關(guān)鍵字提取》）

復(fù)制以上全部內(nèi)容　下載word文檔(.doc)并保存在桌面

上一篇：學(xué)位論文開題：風(fēng)力發(fā)電系統(tǒng)狀態(tài)檢修
下一篇：財務(wù)論文：資產(chǎn)負債率與多元化投資傾向的實證分析

文章搜索

相關(guān)文章

<code id="dg8yt"><abbr id="dg8yt"><var id="dg8yt"></var></abbr></code>

<code id="dg8yt"><abbr id="dg8yt"></abbr></code>

<strong id="dg8yt"><form id="dg8yt"></form></strong>