論文:數(shù)據(jù)挖掘技術(shù)在圖書館工作中的應(yīng)用
摘要:
數(shù)據(jù)挖掘是一門新興的數(shù)據(jù)分析技術(shù)。本文介紹數(shù)據(jù)挖掘在數(shù)字圖書館實現(xiàn)的流程和方法,并對其在圖書館應(yīng)用作出科學(xué)分析。使現(xiàn)代圖書館服務(wù)領(lǐng)域得以擴寬,從傳統(tǒng)查詢服務(wù)擴展到基于WEB信息空間或自動化管理系統(tǒng)的知識服務(wù)。
關(guān)鍵詞:數(shù)據(jù)挖掘 數(shù)字圖書館
Key word: Data mining Digital Library
引言
隨著IT技術(shù)的的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多。激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M行更高層次的分析,以便更好地利用這些數(shù)據(jù)。作為信息集中的載體,圖書館在數(shù)字化進程中也面臨著同樣的問題。怎樣幫助讀者從茫茫的信息海洋中獲取有用的知識?數(shù)字圖書館白皮書指出: 數(shù)字圖書館系統(tǒng)的建設(shè)必須使用高新技術(shù)做支持。[1] 目前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等
……(新文秘網(wǎng)http://jey722.cn省略659字,正式會員可完整閱讀)……
,檢查數(shù)據(jù)的完整性及數(shù)據(jù)
的一致性,消除噪聲或不一致數(shù)據(jù)。
(4)數(shù)據(jù)挖掘算法:使用智能方法提供挖掘的知識。這些知識可以用一種特定的方式
表示或使用一些常用的表示方式。
。5)知識評估:根據(jù)需要對知識發(fā)現(xiàn)過程中的某些處理階段進行優(yōu)化,直到滿足要求。
。6)知識發(fā)現(xiàn):使用可視化和知識表示技術(shù),向用戶提供挖掘的知識。
2.?dāng)?shù)據(jù)挖掘主要的功能:
目前數(shù)據(jù)挖掘技術(shù)很多,從功能上主要有關(guān)聯(lián)分析、序列模式分析、分類分析、聚類模式分析等方法[4]。
基于關(guān)聯(lián)的分析:關(guān)聯(lián)是指兩個或者多個變量的取值之間存在某種規(guī)律性,例如一個
模式的出現(xiàn)意味著另一個模式的出現(xiàn)。它是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識,目的是為了挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,包括簡單關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān)聯(lián)等。通常關(guān)聯(lián)規(guī)則需要找出的是支持度和置信度分別大于或等于用戶指定的最小支持度和置信度。在圖書館應(yīng)用中可用來分析讀者的興趣。
關(guān)聯(lián)分析包含兩種客觀度量。一種客觀度量是規(guī)則的支持度S%(support),即滿足規(guī)則的樣本百分比,表示同時包含*和Y的事務(wù)概率。另一種客觀度量是置信度C%(confidence),表示既包含*的事務(wù)也包含Y的概率。用公式表示為:Support(*Y)=P(*Y),Confidence(*Y)=P(*/Y) 。
2)基于序列的分析。重點在于分析數(shù)據(jù)間的前后或因果關(guān)系。如時間序列模式是根據(jù)數(shù)據(jù)隨時間的變化趨勢預(yù)測將來的值,要考慮到時間的特殊性質(zhì),比如一些周期性的時間定義,不同的日期,如節(jié)假日可能造成的影響,時間前后的相關(guān)性(過去事情對將來的影響力等)。在圖書館中可以用來預(yù)測讀者下一階段最可能借的書。以同一讀者為標(biāo)準(zhǔn),在兩個Item間保持時間順序關(guān)系,則可以得出一個簡單的序列規(guī)則。表示讀者在借了A書后,接下來必定也會借B書,其支持度為*%,置信度為y%。分析結(jié)果可指導(dǎo)管理人員排架工作,方便讀者查找。
3)分類分析。分類是數(shù)據(jù)挖掘的一種非常重要的方法,是按照分析對象的屬性、特征,建立不同的組類來描述事物。分類分析的輸入集是一組記錄集合和幾種標(biāo)記,標(biāo)記是指一組具有不同特征的類別。首先為每一個記錄賦予一個標(biāo)記,然后檢查這些標(biāo)定的記錄,描述出這些記錄的特征。例如對讀者行為進行分析,提取讀者一段時間內(nèi)的借閱量,按借書頻率來劃分讀者的級別,將讀者分為:一般、初級、中級、高級四類。用分類分析方法檢查這些記錄,然后給出讀者級別描述:“高級讀者是指那些年借閱量在*冊以上,年齡在y歲之間。”通過分析結(jié)果了解讀者借閱習(xí)慣, 確定書目的復(fù)本數(shù)量,使館藏資源得到充分利用。
4)聚類分析。數(shù)據(jù)庫中的記錄可被劃分為一系列有意義的子集,這個過程被稱為聚類。它與分類和預(yù)測不同,聚類分析只是分析數(shù)據(jù)對象,而不考慮已知的類標(biāo)記。聚類前并不知道將要劃分的組的數(shù)量和類型,也不知道根據(jù)哪一個數(shù)據(jù)項來定義組。把數(shù)據(jù)劃分到不同的組中,組之間的差別盡可能大,組內(nèi)的差別盡可能小。將觀察到的內(nèi)容組織成類分層結(jié)構(gòu),把類似的事件組織在一起。由此可以導(dǎo)出規(guī)則。它與分類分析法是互逆的過程。對于類型、數(shù)值及文本數(shù)據(jù)都可以處理。在圖書館應(yīng)用中可以對讀者數(shù)據(jù)進行聚類,方便分類編制,以識別讀者的同類子群。
一般要使得到的分析結(jié)果更科學(xué)更真實,可綜合使用幾種挖掘技術(shù)。
3.數(shù)據(jù)挖掘在圖書館中的應(yīng)用。
目前,數(shù)據(jù)挖掘技術(shù)廣泛在
銀行、電信、保險、交通、 ……(未完,全文共5274字,當(dāng)前僅顯示1852字,請閱讀下面提示信息。
收藏《論文:數(shù)據(jù)挖掘技術(shù)在圖書館工作中的應(yīng)用》)