您的位置：新文秘網(wǎng)>>調(diào)研報告/畢業(yè)論文/>>正文

自然語言的應用研究

發(fā)表時間:2006/2/19 11:58:54

　�。ㄖ禧悾ㄉ虾？哲娬螌W院信息管理系））
　　摘要作為情報語言學研究對象之一的自然語言，在情報檢索中的應用正日趨廣泛。本文將其與規(guī)范語言進行了比較，重點討論了其應用中的三個問題，自然語言標引、標引檢索用詞表及檢索語言整體化趨勢，并就其未來發(fā)展作了闡述。
　　主題詞自然語言規(guī)范語言情報檢索
　　***
　　自然語言與規(guī)范語言
　　自然語言（）是相對于規(guī)范語言（）而言的，其本質(zhì)特征是不受控制。從情報檢索的發(fā)展歷程來看，作為語言保障的規(guī)范語言是對自然語言實施控制而出現(xiàn)的；而情報檢索的進一步發(fā)展必使得曾被否定的自然語言重新得以肯定。
　　規(guī)范語言的產(chǎn)生
　　規(guī)范語言是適應情報檢索需要而創(chuàng)制的一種人工語言，它在手工檢索條件下產(chǎn)生，并得到了充分發(fā)展及應用。
　　如歷史最久遠的分類語言，采用比較抽象的類號來表達概念，組織檢索系統(tǒng)。它具有良好的系統(tǒng)性，適于學科或?qū)I(yè)出發(fā)的族性檢索。同時，隨著學科發(fā)展及用戶需求的變化，分類語言也由等級體系型日益向分面組配方向發(fā)展。
　　而規(guī)范語言的另一重要分支——主題語言，則以自然語言為基礎(chǔ)，經(jīng)過人為的形
……（新文秘網(wǎng)http://jey722.cn省略756字，正式會員可完整閱讀）……　
用的自然語言進行情報檢索，符合檢索者的習慣，簡便易行，對于日益增大的普遍檢索用戶群而言更是如此。
　　③采用自然語言標引與檢索，可達到足夠的專指度，且不存在類目或詞匯遲滯的問題。
　�、茏匀徽Z言具有通用性，不存在規(guī)范語言的統(tǒng)一兼容問題，在使用自然語言的各數(shù)據(jù)庫間可實現(xiàn)標引、檢索成果的共享。
　�、葑匀徽Z言標引為計算機的自動處理創(chuàng)造了條件，其發(fā)展將可能取消費時、費力的人工標引。
　　因此自、年代進行的二次克蘭菲爾德得出最少實施控制的系統(tǒng)較之其它系統(tǒng)優(yōu)越的結(jié)果后，自然語言檢索系統(tǒng)得到了迅速發(fā)展，發(fā)達國家的聯(lián)機檢索已從只能利用受控的敘詞語言進行布爾邏輯檢索的第一代發(fā)展能利用自然語言進行語境邏輯檢索的第二代。
　　自然語言在標引檢索中的應用研究
　　如前所述，自然語言較之規(guī)范語言更適于當前的信息狀況及機檢條件，并且數(shù)十年來在實踐中也得到了相當?shù)膽煤桶l(fā)展。同時，由于它本身的不足，以及使用條件的不斷變化，自然語言也面臨著一些理論及實踐方面的不足。以下分三方面進行論述。
　　自然語言標引問題
　　按照蘭開斯特的劃分，自然語言標引可分為三種形式，人工標引（含賦詞標引和抽詞標引）、機器標引（抽詞）和不標引（又分全文本和部分文本）。在實際應用中，人工標引雖然效果好，但處理速度較慢，因此較常用且?guī)и呄蛐缘娜允亲詣訕艘ḿ瓷鲜龅暮髢煞N形式）以及部分人工的機助標引。目前國內(nèi)已實現(xiàn)的自然語言標引方式有以下幾種。
　�、贌o標引，即全文單漢字標引
　　這是與全文檢索技術(shù)相對應的一種典型的自然語言標引方式。它比較完全地實現(xiàn)了自動化，且標引深度大，檢索方便靈活，可以檢到一些細節(jié)性、邊緣性的信息。但由于以字為對象進行處理，易產(chǎn)生虛假組配，檢索噪聲大而篩選負擔重，同時檢全率較低，擴、縮、改檢比較困難。
　　②基于題名或文摘的抽詞標引
　　這種方式應用較早，至今仍在漢語文獻自動標引中占有較大比重。它一般需構(gòu)造一個抽詞詞典，然后根據(jù)各種算法用文獻中的自然語言匹配詞典（或相反），匹配或成功即成為標引詞。由于采用先組式標引，不像單漢字標引需對字的字間關(guān)系進行組配，因此檢索速度快。但它所能處理的自然語言受到抽詞詞典的構(gòu)造、維護狀況限制，且純機械的抽詞也無法完全避免誤差。
　�、刍陬}名的增補關(guān)鍵詞標引
　　關(guān)鍵詞標引是適應科技文獻數(shù)量劇增及快速簡便的檢索需要而產(chǎn)生的，早期主要基于題名的情報性，直接抽取其中的自然語詞（關(guān)鍵詞）并加以輪排而成。然而題名在表達概念的準確性、專指性、完備性方面存在差異，對非科技文獻猶甚，因此出現(xiàn)了從文摘、正文甚至著者等方面增補關(guān)鍵詞的改進方法，這同時也增加了人工輔助的成分。
　�、僭~串標引
　　詞串標引是在對自然語言的理解基礎(chǔ)上，由人將用自然語言書寫的主題描述句標記成形式化主句（或稱詞串），然后由機器自動完成相應的索引款目。國外年代末年代初詞串標引發(fā)展迅速，問世了一批進行詞串標引的機編索引系統(tǒng)如、、等。其中最著名的標引專指度高，輪排準確，款目與自然語言貼近。漢語是對其職能號、使用規(guī)則進行修正調(diào)整后專用于漢語文獻的主題標引系統(tǒng)，與之配套的微機軟件亦已研制成功。
　　自然語言標引與檢索詞表問題
　　自然語言檢索的理想模式是標引、檢索階段均使用自然語言，且不使用任何控制手段。然而這將造成檢索策略構(gòu)造困難、檢全率的問題，同時也在不同程度上存在一些影響檢準率的因素。同時，由于計算機對自然語言的理解力以及漢語語詞切分、識別尚存在相當距離，純自然語言自動標引與檢索未獲真正意義上的推廣及使用。
　　這種狀況使得自然語言也不得不研究吸取規(guī)范語言的某些控制手段或指導思想，以期在保持自然語言的基本特征及固有優(yōu)點下，最大限度地提高標引、檢索效率。由此產(chǎn)生了各種自然語言標引、檢索詞表（典）。
　�、俸罂刂圃~表
　　以往的規(guī)范文語言詞表是在文獻或情報輸入時就對索引詞先行加以控制（受控標引），因此又稱為前控詞表。由于它的控制帶有一定的粗泛性 ……（未完，全文共6051字，當前僅顯示2125字，請閱讀下面提示信息。收藏《自然語言的應用研究》）

復制以上全部內(nèi)容　下載word文檔(.doc)并保存在桌面

上一篇：婉約與豪放－－“本色”詞與“詩化”詞
下一篇：北宋詞壇兩大文學派別初探

文章搜索

相關(guān)文章