您的位置:新文秘網(wǎng)>>畢業(yè)論文/文教論文/通信/>>正文

論文開(kāi)題:網(wǎng)絡(luò)熱點(diǎn)話(huà)題的獲取與分析

發(fā)表時(shí)間:2013/9/21 19:39:28


論文開(kāi)題:網(wǎng)絡(luò)熱點(diǎn)話(huà)題的獲取與分析

畢業(yè)論文開(kāi)題報(bào)告
專(zhuān) 業(yè):計(jì)算機(jī)科學(xué)與技術(shù)
班 級(jí):08計(jì)算機(jī)2班

一、 題目的來(lái)源、目標(biāo)和意義
根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心2010年1月發(fā)布的《中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》數(shù)據(jù)顯示,自2003年開(kāi)始,中國(guó)的網(wǎng)頁(yè)規(guī)模保持成倍地增長(zhǎng),2009年網(wǎng)頁(yè)數(shù)量年增長(zhǎng)率超過(guò)100%達(dá)到336億個(gè)。網(wǎng)絡(luò)新聞使用率為80.1%,覆蓋八成以上的網(wǎng)民_,較2008年提高了1.6%;用戶(hù)規(guī)模達(dá)3.1億人,年增長(zhǎng)7369萬(wàn)人,年增幅31.5%。如何對(duì)互聯(lián)網(wǎng)信息進(jìn)行監(jiān)管,已成為亟待解決的問(wèn)題。但是互聯(lián)網(wǎng)網(wǎng)頁(yè)每天都以指數(shù)級(jí)的方式增長(zhǎng),要人工去甄別每個(gè)網(wǎng)頁(yè)所含的信息,并加以分析統(tǒng)計(jì)是不現(xiàn)實(shí)的。只有采用計(jì)算機(jī)自動(dòng)處理技術(shù),使其自動(dòng)地對(duì)網(wǎng)絡(luò)熱點(diǎn)話(huà)題進(jìn)行分析、整理,才能建立起全面、有效、快速的熱點(diǎn)話(huà)題監(jiān)測(cè)預(yù)警機(jī)制,使互聯(lián)網(wǎng)得以健康、快速的發(fā)展。因此,對(duì)網(wǎng)絡(luò)熱點(diǎn)話(huà)題的獲取與分析技術(shù)的研究已成為一項(xiàng)緊迫而又重要的課題。
網(wǎng)絡(luò)熱點(diǎn)話(huà)題的獲取與分析離不開(kāi)文本挖掘技術(shù)。文本挖掘是以半結(jié)構(gòu)化( 如Web 網(wǎng)頁(yè)) 或者無(wú)結(jié)構(gòu)( 如純文本) 的自然語(yǔ)言文本為對(duì)象的數(shù)據(jù)挖掘。它是從大規(guī)模文本數(shù)據(jù)集中發(fā)現(xiàn)隱藏的、重要的、新穎的、潛在有用的規(guī)律的過(guò)程。在互聯(lián)網(wǎng)時(shí)代大部分信息是存儲(chǔ)在文本數(shù)據(jù)庫(kù)中的,對(duì)于這種半結(jié)構(gòu)或無(wú)結(jié)構(gòu)化數(shù)據(jù),能夠獲取特定內(nèi)容信息的手段
……(新文秘網(wǎng)http://www.jey722.cn省略935字,正式會(huì)員可完整閱讀)…… 
聯(lián)規(guī)則挖掘問(wèn)題,并深入分析幾個(gè)對(duì)挖掘效率產(chǎn)生重要影響的算法。
一、研究現(xiàn)狀
國(guó)外對(duì)自然語(yǔ)言處理方面的研究起步比較早,相繼有一些相關(guān)學(xué)者和專(zhuān)家都在自然語(yǔ)言處理中的語(yǔ)法、句法及語(yǔ)義分析方面提出了一系列較為有效的理論和方法。序列模式挖掘問(wèn)題是由Agrawal和Srikant最先提出的: 給定一個(gè)序列集, 其中每個(gè)序列由項(xiàng)集構(gòu)成,然后由用戶(hù)給定最小支持度閾值,序列模式挖掘就是去發(fā)現(xiàn)所有的頻繁子序列(即: 這些子序列的出現(xiàn)頻率不小于給定的最小支持度閾值)。前人提出的大多數(shù)序列模式挖掘算法都是基于Ap riori的寬度優(yōu)先算法, 即基于Ap riori性質(zhì)(頻繁項(xiàng)集的所有非空子集都一定也是頻繁的, 或一個(gè)非頻繁項(xiàng)集的任何超集一定非頻繁)。直接基于Ap riori的寬度優(yōu)先算法在發(fā)現(xiàn)長(zhǎng)度為k的項(xiàng)集時(shí), 要計(jì)算這個(gè)k項(xiàng)集的所有 個(gè)子集, 運(yùn)算量很大, 因此很多有用的長(zhǎng)序列不能被有效地發(fā)現(xiàn)。近來(lái), 深度優(yōu)先遍歷方法的優(yōu)點(diǎn)逐漸得到了大家的認(rèn)同。
大多數(shù)早期序列模式挖掘算法都是基于Agrawal提出的關(guān)聯(lián)規(guī)則挖掘算法Apriori,它的特性是頻繁模式的任何子模式都是頻繁的。基于這個(gè)啟發(fā),研究者提出一系列類(lèi)Ap riori算法,如Ap rioriAll、Ap rioriSome、DynamicSome。Srikant等人提出了GSP ( generalized sequential pattern)方法。Zaki提出了SPADE方法。這兩個(gè)方法同樣是基于Ap riori的。隨后學(xué)者們又提出了一系列基于數(shù)據(jù)投影的算法,它們包括Pei在2001 年提出的Prefi*Span。Han于2004年提出了一種結(jié)合了圖模式生長(zhǎng)和頻繁計(jì)數(shù),形成了結(jié)構(gòu)模式挖掘的算法gSpan。L in和Lee于2002年提出的MEM ISP算法則是基于內(nèi)存索引的。Garofalakis等人通過(guò)利用正則表達(dá)式約束方法提出了SPIRIT算法。
單維挖掘序列模式只關(guān)心一個(gè)帶有時(shí)間戳的屬性,多維序列模式的挖掘目的則是尋找不同維度屬性具有更多信息的有用模式。三種挖掘多維序列模式的常見(jiàn)方法,分別是Seq2Dim、Dim2Seq以及UniSeq算法。UniSeq算法將多維信息融入到序列中形成新的序列數(shù)據(jù)庫(kù),然后按照Prefi*Span方法對(duì)新的序列數(shù)據(jù)庫(kù)進(jìn)行挖掘。Seq2Dim算法首先挖掘原始序列的序列模式,然后對(duì)序列投影下的數(shù)據(jù)庫(kù)多維信息的模式進(jìn)行挖掘。Dim2Seq則是首先挖掘多維信息的模式,然后再挖掘多維信息投影下的數(shù)據(jù)庫(kù)序列模式。由于通常多維序列模式的長(zhǎng)度較短,投影數(shù)據(jù)庫(kù)僅包含那些帶頻繁序列模式的元組,多維序列模式挖掘更加高效多產(chǎn)。實(shí)驗(yàn)結(jié)果表明,多數(shù)情況Seq2Dim有著良好的性能;當(dāng)維數(shù)較低時(shí)多維模式也較短,UniSeq較其他兩種方法高效; Dim2Seq在挖掘過(guò)程中許多模式并未形成多維序列模式,因此效率較低。
現(xiàn)實(shí)世界中序列數(shù)據(jù)集往往是實(shí)時(shí)更新的。相應(yīng)地,有趣模式在多次挖掘時(shí)也會(huì)隨時(shí)間呈現(xiàn)出某種變化,已有的規(guī)則可能不再有效,而新的有趣模式還有待進(jìn)一步發(fā)現(xiàn)。通常有兩種維護(hù)規(guī)則的方式:第一種方法是強(qiáng)更新,重新進(jìn)行挖掘,用新的規(guī)則來(lái)替換所有舊的規(guī)則;第二種是弱更新,僅重新計(jì)算與增量有關(guān)的數(shù)據(jù),替換不適用的舊規(guī)則?紤]到序列模式挖掘的復(fù)雜性,更加傾向于采用弱更新的方式。增量式序列模式挖掘關(guān)注于當(dāng)數(shù)據(jù)持續(xù)增加或減少時(shí)來(lái)維護(hù)序列模式。增量式序列模式挖掘常被定義為:給定序列數(shù)據(jù)庫(kù),通過(guò)插入或刪除序列形成新的序列數(shù)據(jù)庫(kù),在新的序列數(shù)據(jù)庫(kù)中尋找所有的最大頻繁序列模式。
二、存在的問(wèn)題
在過(guò)去的10年里,提出了許多算法來(lái)解決頻繁項(xiàng)集挖掘的效率問(wèn)題。只有很少的研究者提供他們算法的源代碼,這使得比較這些算法變得很困難。不僅如此,即便是同一個(gè)算法的不同實(shí)現(xiàn),在性能上也有相當(dāng)大的差異。此外,不同的實(shí)驗(yàn)數(shù)據(jù)庫(kù),不同的最小支持度閩值,不同的數(shù)據(jù)結(jié)構(gòu),不同的數(shù)據(jù)庫(kù)表示表示方式,不同的實(shí)驗(yàn)平臺(tái),都會(huì)造成算法性能和評(píng)價(jià)上的差異。在真實(shí)數(shù)據(jù)集和合成數(shù)據(jù)集上這些算法表現(xiàn)出非常不同的性能,在真實(shí)數(shù)據(jù)集上,最小支持度的閾值是影響算法性能的關(guān)鍵。然而,支持度的最小閾值并沒(méi)有一個(gè)普遍適用的指導(dǎo)性的確定方法。
三、研究方法和算法設(shè)計(jì)
挖掘最大頻繁項(xiàng)集是關(guān)聯(lián)規(guī)則挖掘中一個(gè)重要的研究?jī)?nèi)容,但這方面的研究工作尚不夠充分。有代表性的相關(guān)工作有Roberto J.提出Ma*Miner算法,Doug Burdick等人提出的MAFIA,Dimitrios Gunopulos等人提出的隨機(jī)算法,Dao-I Lin等人提出的Pincer-search算法。
此次,本文設(shè)計(jì)的算法是基于Rakesh Agrawal和Ramakrishnan Srikant兩位博士在1994年提出的關(guān)聯(lián)規(guī)則挖掘算法:Apriori algorithm。關(guān)聯(lián)規(guī)則的目的就是在一個(gè)數(shù)據(jù)集中找出項(xiàng)與項(xiàng)之間的關(guān)系, ……(未完,全文共7481字,當(dāng)前僅顯示2627字,請(qǐng)閱讀下面提示信息。收藏《論文開(kāi)題:網(wǎng)絡(luò)熱點(diǎn)話(huà)題的獲取與分析》
文章搜索
相關(guān)文章