基于內(nèi)容的圖象檢索
摘要:基于內(nèi)容的圖象檢索技術(shù)是信息多媒技術(shù)發(fā)展中迫切需要研究和發(fā)展的前沿課題。該
論文介紹了基于內(nèi)容的圖象數(shù)據(jù)庫檢索中的一些關(guān)鍵算法,所論述的內(nèi)容屬于目前信息檢索和圖象處理領(lǐng)域的重要研究成果。如基于顏色、紋理、形狀和結(jié)合用戶相關(guān)反饋的檢索算法,以及基于相似度檢索的索引結(jié)構(gòu).
關(guān)鍵詞:索引結(jié)構(gòu); 圖象處理; 圖象檢索技術(shù); 基于內(nèi)容
一、基于內(nèi)容的圖象檢索的發(fā)展背景
隨著信息化社會的到來和多媒休技術(shù)、通信技術(shù)的發(fā)展,人們越多的接觸到圖象信息。圖象數(shù)據(jù)庫已經(jīng)在商業(yè)系統(tǒng)、醫(yī)療管理系統(tǒng)、地理信息系統(tǒng)、公安系統(tǒng)中得到廣泛地應用。如何從圖象數(shù)據(jù)庫中找出感興趣的圖象,這需要有效的圖象檢索方法。傳統(tǒng)的方法是通過關(guān)鍵字方法,每一幅圖象都和幾個關(guān)鍵字相關(guān)聯(lián),通過關(guān)鍵字將圖象分類。但是,關(guān)鍵字方式已經(jīng)不足以對這些龐大的圖象信息進行全面和合理的描述,傳統(tǒng)的基于文本的檢索方式已經(jīng)越來越不適應當前信息時代的要求了,它主要存在以下缺點:
1、文本檢索依賴的關(guān)鍵字不能夠自動產(chǎn)生,從而不利于對信息系統(tǒng)的管理計算機化;
2、用于檢索的關(guān)鍵字由操作員手工完成,從而會導致:
低效率性:手工操作遠遠不能適應數(shù)量驚人的圖象數(shù)據(jù)要求;
不準確性:這是由人的主觀因素產(chǎn)生的,因為,不同的人,對于不同的事物會有自己的描述,即使同一個人,在不同的環(huán)境下,
……(新文秘網(wǎng)http://jey722.cn省略947字,正式會員可完整閱讀)……
來檢索圖象數(shù)據(jù)庫呢?解決這一問題的關(guān)鍵在于圖象數(shù)據(jù)庫管理者應該最大程度地了解用戶的需求----用戶檢索的原因,用處,以及判斷檢索結(jié)果的標準等等,并且針對這些要求在管理和處理技術(shù)上加以實現(xiàn)。圖象數(shù)據(jù)庫管理和處理技術(shù)發(fā)展到了今天,已經(jīng)存在有許多比較成功的檢索圖象數(shù)據(jù)庫的方式,如檢索指定
場景下的物體,一種情感,或者是包含特定的圖象特征或模式。
一般來說,圖象可以體現(xiàn)若干種可以用來檢索的特征,它們是:
特定的顏色,紋理以及形狀特征(如紅色的玫瑰)
特定的物體空間關(guān)系(如桌上的書)
對于特定事件的描述(如奧林匹克運動會中的籃球決賽)
特定人物,場景的事件(程序員操作鍵盤)
特定的情感描述(歡樂,悲傷等)
上述的第一種檢索類型幾乎都是前一種的更高層次的描述。對于這些的檢索要求,如果缺乏用戶的主觀意識,是很難給出準確的檢索結(jié)果。由此,根據(jù)檢索要求的復雜程度,可以將其分為三種類型:
類型一:基于圖象視覺特征,如顏色、紋理、形狀以及空間關(guān)系等的圖象檢索。例如,“找出含有黃色玫瑰的圖象”,“找出含有給定紋理特征的圖象”,或者是“找出與給定圖象相似的圖象”等等。這類檢索大都依據(jù)客觀的圖象特征(如綠色的田野),而這些特征是可以直接從圖象中提取出來的,并不需要任何主觀知識。
類型二:基于綜合圖象視覺特征的檢索,如包含描述圖象中物體的邏輯關(guān)系的圖象檢索。它以可以分為兩種:
1、檢索特定形狀的物體(如找出含有小轎車的圖片集)
2、檢索特定的物體或人物(如找出含有凱旋門的圖片)
顯然,要進行上述類型的圖象檢索,就需要有一定的外在儲存知。例如,在第一種檢索中,需要判定是小轎車,而不是公共汽車;而在第二種檢索中,要了解給定的物體其形狀應如凱旋門。這類檢索在一定程度上仍是比較客觀的,它較類型一常見。
類型三:基于抽象特征的圖象檢索。這類檢索通常用來體現(xiàn)高層概念上的用戶檢索需求。同樣的,人們也把它分為兩種:
1、檢索給定的事件或行為特征(如找出含有李麗在讀書的圖片)
2、檢索給定的情感描述(如找出體現(xiàn)快樂的圖片)
進行這要求的檢索,則需要比類型二更為復雜的主觀知識,如邏輯推理,主觀判斷等 可以將圖象內(nèi)容和抽象概念聯(lián)系起來的主觀智能行為。
cbir(基于內(nèi)容的圖象檢索)即是綜合上述特征實現(xiàn)檢索功能的圖象數(shù)據(jù)庫管理系統(tǒng)。是指那些通過抽取圖象特征(顏色,紋理,形狀等)進行自動圖象檢索的過程,而用來檢索的特征可以是圖象的視覺特征或語義特征,但是抽取這些特征的過程應該是自動完成的。
由于圖象的象素特性沒有內(nèi)在的含義,通過抽取圖象特征進行自動圖象檢索的crir系統(tǒng)明顯有別于傳統(tǒng)的信息檢索系統(tǒng)。對cbir系統(tǒng)而言,分析圖象內(nèi)容的關(guān)鍵是如何從原始數(shù)據(jù)中抽取能夠體現(xiàn)其內(nèi)容的有用信息,如識別特定的紋理或形狀等,因此它覆蓋了許多圖象處理算法,如圖象增強,壓縮,傳輸,解釋等等。下圖顯示了一個典型的cbir系統(tǒng)框圖。
二、基于圖象檢索的主要方法
1、索引結(jié)構(gòu)和存取方法
近年來,信息技術(shù)的迅速發(fā)展使得數(shù)據(jù)庫的管理成為愈來愈重要的研究領(lǐng)域。尤其是在基于內(nèi)容的多媒體數(shù)據(jù)庫的存儲與檢索方面。多媒體數(shù)據(jù)庫的檢索與查詢大部分體現(xiàn)了相似度查詢,其中的相似度常常用幾種高維特征空間里的距離函數(shù)來描述。因此,適用于多維特征的索引結(jié)構(gòu)和存取方法已成為面向?qū)ο蟮目臻g數(shù)據(jù)庫技術(shù)發(fā)展的挑戰(zhàn)性問題。為了提高大規(guī)模圖象數(shù)據(jù)庫的檢索效率,有必要研究和開發(fā)有效的多維度索引技術(shù)。然而試圖發(fā)展這一檢索技術(shù)必須面對的困難主要有兩種:
高維度 特征向量的維度通常具有102的數(shù)量級。
非歐拉相似度量 由于歐拉度量不可能很有效的模擬人對任一可視內(nèi)容的認知,因此需要如直方圖相交、余弦函數(shù),相關(guān)等非歐拉相似度量來支持
解決上述問題的有效方法便是先降低維數(shù),然后再運用合適的并且能夠支持非歐位相似度量的多維度索引技術(shù)。
到目前為上,這方面的研究成果主要有r樹,sr樹,ss樹,k-d-b樹,*-樹和網(wǎng)格文件以及最新的分維聚類相似度檢索方法等。
1.1 hsahing索引結(jié)構(gòu)
基于hsahing索引結(jié)構(gòu)的典型范例是網(wǎng)格文件和buddy樹。這種類型索引結(jié)構(gòu)的缺點是桶塊分割或數(shù)據(jù)分類要按嚴格的要求進行,尤其對于不均勻和高維數(shù)據(jù)對象,分割結(jié)果會產(chǎn)生過低的空間利用率問題。雖然利用索引樹結(jié)構(gòu)能夠緩解這一問題,但是索引樹結(jié)構(gòu)的節(jié)點數(shù)會隨著特征矢量的維數(shù)增加而超線性增長。對于均勻分布的數(shù)據(jù)對象,平均索引的平均空間利用率大約是69%。
1.2 k-d樹
基于k-d樹索引結(jié)構(gòu)是一種二分索引樹結(jié)構(gòu),典型的范例有k-d樹、k-d-b樹、tv樹、和lsd樹。這種類型的索引結(jié)構(gòu)特點是:d維數(shù)據(jù)桶塊的分割用d-1維超平面表示,在索引樹結(jié)構(gòu)中,內(nèi)節(jié)點用超平面的維數(shù)和位置表示。目前最好的索引結(jié)構(gòu)和搜索算法是priority ……(未完,全文共9736字,當前僅顯示2659字,請閱讀下面提示信息。
收藏《基于內(nèi)容的圖象檢索》)