。ㄖ禧悾ㄉ虾?哲娬螌W院信息管理系))
摘要作為情報語言學研究對象之一的自然語言,在情報檢索中的應用正日趨廣泛。本文將其與規(guī)范語言進行了比較,重點討論了其應用中的三個問題,自然語言標引、標引檢索用詞表及檢索語言整體化趨勢,并就其未來發(fā)展作了闡述。
主題詞自然語言規(guī)范語言情報檢索
***
自然語言與規(guī)范語言
自然語言()是相對于規(guī)范語言()而言的,其本質(zhì)特征是不受控制。從情報檢索的發(fā)展歷程來看,作為語言保障的規(guī)范語言是對自然語言實施控制而出現(xiàn)的;而情報檢索的進一步發(fā)展必使得曾被否定的自然語言重新得以肯定。
規(guī)范語言的產(chǎn)生
規(guī)范語言是適應情報檢索需要而創(chuàng)制的一種人工語言,它在手工檢索條件下產(chǎn)生,并得到了充分發(fā)展及應用。
如歷史最久遠的分類語言,采用比較抽象的類號來表達概念,組織檢索系統(tǒng)。它具有良好的系統(tǒng)性,適于學科或?qū)I(yè)出發(fā)的族性檢索。同時,隨著學科發(fā)展及用戶需求的變化,分類語言也由等級體系型日益向分面組配方向發(fā)展。
而規(guī)范語言的另一重要分支——主題語言,則以自然語言為基礎(chǔ),經(jīng)過人為的形
……(新文秘網(wǎng)http://jey722.cn省略756字,正式會員可完整閱讀)……
用的自然語言進行情報檢索,符合檢索者的習慣,簡便易行,對于日益增大的普遍檢索用戶群而言更是如此。
③采用自然語言標引與檢索,可達到足夠的專指度,且不存在類目或詞匯遲滯的問題。
、茏匀徽Z言具有通用性,不存在規(guī)范語言的統(tǒng)一兼容問題,在使用自然語言的各數(shù)據(jù)庫間可實現(xiàn)標引、檢索成果的共享。
、葑匀徽Z言標引為計算機的自動處理創(chuàng)造了條件,其發(fā)展將可能取消費時、費力的人工標引。
因此自、年代進行的二次克蘭菲爾德得出最少實施控制的系統(tǒng)較之其它系統(tǒng)優(yōu)越的結(jié)果后,自然語言檢索系統(tǒng)得到了迅速發(fā)展,發(fā)達國家的聯(lián)機檢索已從只能利用受控的敘詞語言進行布爾邏輯檢索的第一代發(fā)展能利用自然語言進行語境邏輯檢索的第二代。
自然語言在標引檢索中的應用研究
如前所述,自然語言較之規(guī)范語言更適于當前的信息狀況及機檢條件,并且數(shù)十年來在實踐中也得到了相當?shù)膽煤桶l(fā)展。同時,由于它本身的不足,以及使用條件的不斷變化,自然語言也面臨著一些理論及實踐方面的不足。以下分三方面進行論述。
自然語言標引問題
按照蘭開斯特的劃分,自然語言標引可分為三種形式,人工標引(含賦詞標引和抽詞標引)、機器標引(抽詞)和不標引(又分全文本和部分文本)。在實際應用中,人工標引雖然效果好,但處理速度較慢,因此較常用且?guī)и呄蛐缘娜允亲詣訕艘瓷鲜龅暮髢煞N形式)以及部分人工的機助標引。目前國內(nèi)已實現(xiàn)的自然語言標引方式有以下幾種。
、贌o標引,即全文單漢字標引
這是與全文檢索技術(shù)相對應的一種典型的自然語言標引方式。它比較完全地實現(xiàn)了自動化,且標引深度大,檢索方便靈活,可以檢到一些細節(jié)性、邊緣性的信息。但由于以字為對象進行處理,易產(chǎn)生虛假組配,檢索噪聲大而篩選負擔重,同時檢全率較低,擴、縮、改檢比較困難。
②基于題名或文摘的抽詞標引
這種方式應用較早,至今仍在漢語文獻自動標引中占有較大比重。它一般需構(gòu)造一個抽詞詞典,然后根據(jù)各種算法用文獻中的自然語言匹配詞典(或相反),匹配或成功即成為標引詞。由于采用先組式標引,不像單漢字標引需對字的字間關(guān)系進行組配,因此檢索速度快。但它所能處理的自然語言受到抽詞詞典的構(gòu)造、維護狀況限制,且純機械的抽詞也無法完全避免誤差。
、刍陬}名的增補關(guān)鍵詞標引
關(guān)鍵詞標引是適應科技文獻數(shù)量劇增及快速簡便的檢索需要而產(chǎn)生的,早期主要基于題名的情報性,直接抽取其中的自然語詞(關(guān)鍵詞)并加以輪排而成。然而題名在表達概念的準確性、專指性、完備性方面存在差異,對非科技文獻猶甚,因此出現(xiàn)了從文摘、正文甚至著者等方面增補關(guān)鍵詞的改進方法,這同時也增加了人工輔助的成分。
、僭~串標引
詞串標引是在對自然語言的理解基礎(chǔ)上,由人將用自然語言書寫的主題描述句標記成形式化主句(或稱詞串),然后由機器自動完成相應的索引款目。國外年代末年代初詞串標引發(fā)展迅速,問世了一批進行詞串標引的機編索引系統(tǒng)如、、等。其中最著名的標引專指度高,輪排準確,款目與自然語言貼近。漢語是對其職能號、使用規(guī)則進行修正調(diào)整后專用于漢語文獻的主題標引系統(tǒng),與之配套的微機軟件亦已研制成功。
自然語言標引與檢索詞表問題
自然語言檢索的理想模式是標引、檢索階段均使用自然語言,且不使用任何控制手段。然而這將造成檢索策略構(gòu)造困難、檢全率的問題,同時也在不同程度上存在一些影響檢準率的因素。同時,由于計算機對自然語言的理解力以及漢語語詞切分、識別尚存在相當距離,純自然語言自動標引與檢索未獲真正意義上的推廣及使用。
這種狀況使得自然語言也不得不研究吸取規(guī)范語言的某些控制手段或指導思想,以期在保持自然語言的基本特征及固有優(yōu)點下,最大限度地提高標引、檢索效率。由此產(chǎn)生了各種自然語言標引、檢索詞表(典)。
、俸罂刂圃~表
以往的規(guī)范文語言詞表是在文獻或情報輸入時就對索引詞先行加以控制(受控標引),因此又稱為前控詞表。由于它的控制帶有一定的粗泛性 ……(未完,全文共6051字,當前僅顯示2125字,請閱讀下面提示信息。
收藏《自然語言的應用研究》)