論文開題:網(wǎng)絡(luò)熱點話題的獲取與分析
畢業(yè)論文開題報告
專 業(yè):計算機(jī)科學(xué)與技術(shù)
班 級:08計算機(jī)2班
一、 題目的來源、目標(biāo)和意義
根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心2010年1月發(fā)布的《中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計報告》數(shù)據(jù)顯示,自2003年開始,中國的網(wǎng)頁規(guī)模保持成倍地增長,2009年網(wǎng)頁數(shù)量年增長率超過100%達(dá)到336億個。網(wǎng)絡(luò)新聞使用率為80.1%,覆蓋八成以上的網(wǎng)民_,較2008年提高了1.6%;用戶規(guī)模達(dá)3.1億人,年增長7369萬人,年增幅31.5%。如何對互聯(lián)網(wǎng)信息進(jìn)行監(jiān)管,已成為亟待解決的問題。但是互聯(lián)網(wǎng)網(wǎng)頁每天都以指數(shù)級的方式增長,要人工去甄別每個網(wǎng)頁所含的信息,并加以分析統(tǒng)計是不現(xiàn)實的。只有采用計算機(jī)自動處理技術(shù),使其自動地對網(wǎng)絡(luò)熱點話題進(jìn)行分析、整理,才能建立起全面、有效、快速的熱點話題監(jiān)測預(yù)警機(jī)制,使互聯(lián)網(wǎng)得以健康、快速的發(fā)展。因此,對網(wǎng)絡(luò)熱點話題的獲取與分析技術(shù)的研究已成為一項緊迫而又重要的課題。
網(wǎng)絡(luò)熱點話題的獲取與分析離不開文本挖掘技術(shù)。文本挖掘是以半結(jié)構(gòu)化( 如Web 網(wǎng)頁) 或者無結(jié)構(gòu)( 如純文本) 的自然語言文本為對象的數(shù)據(jù)挖掘。它是從大規(guī)模文本數(shù)據(jù)集中發(fā)現(xiàn)隱藏的、重要的、新穎的、潛在有用的規(guī)律的過程。在互聯(lián)網(wǎng)時代大部分信息是存儲在文本數(shù)據(jù)庫中的,對于這種半結(jié)構(gòu)或無結(jié)構(gòu)化數(shù)據(jù),能夠獲取特定內(nèi)容信息的手段
……(新文秘網(wǎng)http://jey722.cn省略935字,正式會員可完整閱讀)……
聯(lián)規(guī)則挖掘問題,并深入分析幾個對挖掘效率產(chǎn)生重要影響的算法。
一、研究現(xiàn)狀
國外對自然語言處理方面的研究起步比較早,相繼有一些相關(guān)學(xué)者和專家都在自然語言處理中的語法、句法及語義分析方面提出了一系列較為有效的理論和方法。序列模式挖掘問題是由Agrawal和Srikant最先提出的: 給定一個序列集, 其中每個序列由項集構(gòu)成,然后由用戶給定最小支持度閾值,序列模式挖掘就是去發(fā)現(xiàn)所有的頻繁子序列(即: 這些子序列的出現(xiàn)頻率不小于給定的最小支持度閾值)。前人提出的大多數(shù)序列模式挖掘算法都是基于Ap riori的寬度優(yōu)先算法, 即基于Ap riori性質(zhì)(頻繁項集的所有非空子集都一定也是頻繁的, 或一個非頻繁項集的任何超集一定非頻繁)。直接基于Ap riori的寬度優(yōu)先算法在發(fā)現(xiàn)長度為k的項集時, 要計算這個k項集的所有 個子集, 運(yùn)算量很大, 因此很多有用的長序列不能被有效地發(fā)現(xiàn)。近來, 深度優(yōu)先遍歷方法的優(yōu)點逐漸得到了大家的認(rèn)同。
大多數(shù)早期序列模式挖掘算法都是基于Agrawal提出的關(guān)聯(lián)規(guī)則挖掘算法Apriori,它的特性是頻繁模式的任何子模式都是頻繁的;谶@個啟發(fā),研究者提出一系列類Ap riori算法,如Ap rioriAll、Ap rioriSome、DynamicSome。Srikant等人提出了GSP ( generalized sequential pattern)方法。Zaki提出了SPADE方法。這兩個方法同樣是基于Ap riori的。隨后學(xué)者們又提出了一系列基于數(shù)據(jù)投影的算法,它們包括Pei在2001 年提出的Prefi*Span。Han于2004年提出了一種結(jié)合了圖模式生長和頻繁計數(shù),形成了結(jié)構(gòu)模式挖掘的算法gSpan。L in和Lee于2002年提出的MEM ISP算法則是基于內(nèi)存索引的。Garofalakis等人通過利用正則表達(dá)式約束方法提出了SPIRIT算法。
單維挖掘序列模式只關(guān)心一個帶有時間戳的屬性,多維序列模式的挖掘目的則是尋找不同維度屬性具有更多信息的有用模式。三種挖掘多維序列模式的常見方法,分別是Seq2Dim、Dim2Seq以及UniSeq算法。UniSeq算法將多維信息融入到序列中形成新的序列數(shù)據(jù)庫,然后按照Prefi*Span方法對新的序列數(shù)據(jù)庫進(jìn)行挖掘。Seq2Dim算法首先挖掘原始序列的序列模式,然后對序列投影下的數(shù)據(jù)庫多維信息的模式進(jìn)行挖掘。Dim2Seq則是首先挖掘多維信息的模式,然后再挖掘多維信息投影下的數(shù)據(jù)庫序列模式。由于通常多維序列模式的長度較短,投影數(shù)據(jù)庫僅包含那些帶頻繁序列模式的元組,多維序列模式挖掘更加高效多產(chǎn)。實驗結(jié)果表明,多數(shù)情況Seq2Dim有著良好的性能;當(dāng)維數(shù)較低時多維模式也較短,UniSeq較其他兩種方法高效; Dim2Seq在挖掘過程中許多模式并未形成多維序列模式,因此效率較低。
現(xiàn)實世界中序列數(shù)據(jù)集往往是實時更新的。相應(yīng)地,有趣模式在多次挖掘時也會隨時間呈現(xiàn)出某種變化,已有的規(guī)則可能不再有效,而新的有趣模式還有待進(jìn)一步發(fā)現(xiàn)。通常有兩種維護(hù)規(guī)則的方式:第一種方法是強(qiáng)更新,重新進(jìn)行挖掘,用新的規(guī)則來替換所有舊的規(guī)則;第二種是弱更新,僅重新計算與增量有關(guān)的數(shù)據(jù),替換不適用的舊規(guī)則。考慮到序列模式挖掘的復(fù)雜性,更加傾向于采用弱更新的方式。增量式序列模式挖掘關(guān)注于當(dāng)數(shù)據(jù)持續(xù)增加或減少時來維護(hù)序列模式。增量式序列模式挖掘常被定義為:給定序列數(shù)據(jù)庫,通過插入或刪除序列形成新的序列數(shù)據(jù)庫,在新的序列數(shù)據(jù)庫中尋找所有的最大頻繁序列模式。
二、存在的問題
在過去的10年里,提出了許多算法來解決頻繁項集挖掘的效率問題。只有很少的研究者提供他們算法的源代碼,這使得比較這些算法變得很困難。不僅如此,即便是同一個算法的不同實現(xiàn),在性能上也有相當(dāng)大的差異。此外,不同的實驗數(shù)據(jù)庫,不同的最小支持度閩值,不同的數(shù)據(jù)結(jié)構(gòu),不同的數(shù)據(jù)庫表示表示方式,不同的實驗平臺,都會造成算法性能和評價上的差異。在真實數(shù)據(jù)集和合成數(shù)據(jù)集上這些算法表現(xiàn)出非常不同的性能,在真實數(shù)據(jù)集上,最小支持度的閾值是影響算法性能的關(guān)鍵。然而,支持度的最小閾值并沒有一個普遍適用的指導(dǎo)性的確定方法。
三、研究方法和算法設(shè)計
挖掘最大頻繁項集是關(guān)聯(lián)規(guī)則挖掘中一個重要的研究內(nèi)容,但這方面的研究工作尚不夠充分。有代表性的相關(guān)工作有Roberto J.提出Ma*Miner算法,Doug Burdick等人提出的MAFIA,Dimitrios Gunopulos等人提出的隨機(jī)算法,Dao-I Lin等人提出的Pincer-search算法。
此次,本文設(shè)計的算法是基于Rakesh Agrawal和Ramakrishnan Srikant兩位博士在1994年提出的關(guān)聯(lián)規(guī)則挖掘算法:Apriori algorithm。關(guān)聯(lián)規(guī)則的目的就是在一個數(shù)據(jù)集中找出項與項之間的關(guān)系, ……(未完,全文共7481字,當(dāng)前僅顯示2627字,請閱讀下面提示信息。
收藏《論文開題:網(wǎng)絡(luò)熱點話題的獲取與分析》)