目錄/提綱:……
一、“語言科技”新思維的提出
二、計(jì)算語言學(xué)的界定要突出技術(shù)性
三、語言系統(tǒng)的計(jì)算機(jī)模式化要求
四、人腦語言和電腦語言的性質(zhì)異同
五、面向語言系統(tǒng)模擬的語義語法學(xué)
六、語言科技復(fù)合型人才的培養(yǎng)
……
。暇⿴煼洞髮W(xué))
提要:本文闡釋了依據(jù)當(dāng)代科技進(jìn)步和人類社會(huì)發(fā)展所提出的語言科技新思維!罢Z言科學(xué)”主要指基礎(chǔ)性的描寫語言學(xué)和理論語言學(xué);“語言技術(shù)”主要指應(yīng)用性的計(jì)算語言學(xué)。語言技術(shù)可劃分為文本處理技術(shù)和系統(tǒng)模擬技術(shù)。雖然計(jì)算語言學(xué)的關(guān)鍵任務(wù)是“教計(jì)算機(jī)學(xué)說話”,但研究語言的可計(jì)算性和利用計(jì)算機(jī)工具研究語言這兩者本質(zhì)上是相通的,只是前者探索的是適合于“人-機(jī)對(duì)話”的語言能力,而后者討論的是適合于“人-人對(duì)話”的語言規(guī)則。語言學(xué)家只有了解了語言系統(tǒng)的計(jì)算機(jī)模式化要求,才有可能將研究目標(biāo)對(duì)準(zhǔn)語言工程。人類語言的本質(zhì)共性是語義性。依據(jù)語義語法學(xué)理論,建構(gòu)計(jì)算機(jī)所需要的元語言系統(tǒng)(語言基因圖譜分析工程)和語義結(jié)構(gòu)網(wǎng)絡(luò)(語言能力移植工程),才能穿過智能機(jī)研制中的瓶頸。當(dāng)代信息科技的發(fā)展趨勢(shì)表明,語言研究對(duì)象的語義性和語言研究過程及其成果的技術(shù)化將成為21世紀(jì)的語言學(xué)精神。
關(guān)鍵詞:語言科技語言系統(tǒng)模擬語言基因分析語言能力移植語義語法學(xué)
一、“語言科技”新思維的提出
雖然計(jì)算機(jī)設(shè)計(jì)的初衷是緣于數(shù)值計(jì)算,但是英國數(shù)學(xué)家圖靈(a.m.turing)在《機(jī)器能思維嗎?》(1950)一文中已經(jīng)預(yù)見到計(jì)算機(jī)和自然語言將結(jié)下不解之緣,并且提出檢驗(yàn)計(jì)算機(jī)智能的最好方法就是對(duì)語言信息的處理能力。1977年,費(fèi)根鮑姆(feigenbaum)提出知識(shí)工程,計(jì)算機(jī)信息處理出現(xiàn)了從“數(shù)據(jù)世界”向“知識(shí)世界”的轉(zhuǎn)移趨勢(shì)。知識(shí)世界的載體是語言符號(hào)系統(tǒng),語言信息處理的需求促使語言研究過程和語言研究成果的技術(shù)化趨勢(shì)日益明顯,當(dāng)代語言學(xué)已凸顯出“語言科學(xué)”與“語言技術(shù)”的二分互補(bǔ)格局,由此我在《南京師范大學(xué)語言科技系建設(shè)發(fā)展規(guī)劃》(2001年2月)中提出“語言科技”的新思維!罢Z言科學(xué)”主要指基礎(chǔ)性的描寫語言學(xué)和理論語言學(xué)。“語言技術(shù)”主要指面向信息處理的應(yīng)用語言學(xué)或計(jì)算語
……(新文秘網(wǎng)http://jey722.cn省略1254字,正式會(huì)員可完整閱讀)……
的分析性、統(tǒng)計(jì)性、比較性和實(shí)驗(yàn)性軟件的開發(fā)等。這一新思維既突出了當(dāng)代科技發(fā)展所要求的“語言學(xué)的技術(shù)化”,又體現(xiàn)了以語言學(xué)為本而溝通文理工相關(guān)學(xué)科的研究旨趣。
二、計(jì)算語言學(xué)的界定要突出技術(shù)性
20世紀(jì)50年代以后,在理論方法交叉_而形成諸多邊緣語言學(xué)的同時(shí),語言學(xué)與計(jì)算機(jī)結(jié)合的趨勢(shì)開始出現(xiàn)。1954年,在美國喬治敦大學(xué)所進(jìn)行的世界上首次機(jī)器翻譯試驗(yàn),標(biāo)志著計(jì)算機(jī)科學(xué)與語言學(xué)的結(jié)合已經(jīng)起步。在這一研究領(lǐng)域,立足于不同的學(xué)科視角或知識(shí)結(jié)構(gòu),先后出現(xiàn)了一系列名稱術(shù)語,如“語言工程”、“語言工程學(xué)”、“自然語言的計(jì)算機(jī)處理”(工科視角)、“語言信息處理”(信息學(xué)視角)、“數(shù)理語言學(xué)”(數(shù)學(xué)視角)等等。20世紀(jì)60年代以后,計(jì)算機(jī)和語言學(xué)的結(jié)合逐步深入到語言學(xué)的各個(gè)領(lǐng)域,形成了包括計(jì)算語音學(xué)、計(jì)算詞匯學(xué)、計(jì)算語法學(xué)、計(jì)算語義學(xué)等分支學(xué)科在內(nèi)的計(jì)算語言學(xué)(computationallinguistics)。其中“計(jì)算語音學(xué)”等名詞,雖然計(jì)算語言學(xué)界沒人提過,因?yàn)橐呀?jīng)存在著“言語識(shí)別”、“言語合成”等計(jì)算機(jī)應(yīng)用專業(yè)術(shù)語,但是從“語言工程學(xué)”到“計(jì)算語言學(xué)”的術(shù)語演變中,透露出“語言學(xué)立場(chǎng)”在這門交叉學(xué)科中的日益強(qiáng)化。雖然目前的計(jì)算機(jī)運(yùn)算速度已經(jīng)可以滿足語言信息處理的技術(shù)要求,但是之所以“人—機(jī)對(duì)話”尚未實(shí)現(xiàn),其“瓶頸”就在于現(xiàn)有的語言研究成果無法滿足計(jì)算機(jī)處理的要求。歸根結(jié)底,語言信息處理的最終目標(biāo)就是“計(jì)算機(jī)模擬語言能力工程”或“語言能力移植計(jì)算機(jī)工程”。探索語言能力的性質(zhì)和描寫語言系統(tǒng)的結(jié)構(gòu),這些艱巨性工作還得由語言學(xué)家先來完成。語言信息處理或計(jì)算語言學(xué)務(wù)必以語言學(xué)為本而以計(jì)算機(jī)為用。語言學(xué)家必須具備“數(shù)字化”意識(shí),了解計(jì)算機(jī)需要怎樣的語言描寫成果,然后才可能將研究目標(biāo)對(duì)準(zhǔn)語言工程。
迄今為止,正如許多發(fā)展中學(xué)科一樣,“計(jì)算語言學(xué)”的定義尚無一致認(rèn)定,歸納起來蓋有四種觀點(diǎn)(侯敏1999,p.2—p.6):
第一種,計(jì)算語言學(xué)是以計(jì)算機(jī)為工具研究語言學(xué)。侯敏認(rèn)為,任何一個(gè)學(xué)科在使用工具方面都是_的,使用不同工具研究一個(gè)學(xué)科會(huì)帶來不同特點(diǎn),但不因?yàn)槭褂昧诵鹿ぞ呔彤a(chǎn)生了新學(xué)科。雖然并不排除新工具的使用沒有導(dǎo)致新學(xué)科的產(chǎn)生,但同樣不能否認(rèn)工具的變革有可能帶來學(xué)科體系的革命,以致于產(chǎn)生新的分支或交叉學(xué)科,F(xiàn)代自然科學(xué)之所以能夠建立,無疑得益于望遠(yuǎn)鏡和顯微鏡的應(yīng)用,前者打開了人類認(rèn)知的宏觀世界之門,后者打開了人類認(rèn)知的微觀世界之門。望遠(yuǎn)鏡和顯微鏡帶來的不僅僅是“這一個(gè)工具”,而是人類認(rèn)知方式的巨大變革,從而引起了天文學(xué)、生物學(xué)等自然科學(xué)的一系列革命,產(chǎn)生了一系列新學(xué)科。因此,問題在于如何使用新的工具或新認(rèn)知方式。如果僅僅利用計(jì)算機(jī)做語言研究的統(tǒng)計(jì)工具,也許不會(huì)產(chǎn)生新的分支學(xué)科,但是利用計(jì)算機(jī)作為語音分析和合成的工具,則形成了計(jì)算語音學(xué)。
第二種,計(jì)算語言學(xué)是把語言學(xué)成果應(yīng)用于計(jì)算機(jī)。侯敏認(rèn)為,計(jì)算機(jī)的應(yīng)用領(lǐng)域幾乎沒有限度,什么學(xué)科的成果都可以在計(jì)算機(jī)上應(yīng)用,因此在計(jì)算機(jī)上應(yīng)用語言學(xué)的研究成果不足以建立新學(xué)科。問題不在于在什么學(xué)科的成果能在計(jì)算機(jī)上應(yīng)用,而在于在計(jì)算機(jī)上所應(yīng)用的成果的性質(zhì)。與其他學(xué)科研究對(duì)象的性質(zhì)迥然不同,語言學(xué)科的研究對(duì)象——語言——是人類最重要的認(rèn)知符號(hào)系統(tǒng)和知識(shí)載體,因此面向信息處理的語言成果應(yīng)用于計(jì)算機(jī)足以建立新的學(xué)科。以往的語言學(xué)研究是面向人際交流,而計(jì)算語言學(xué)研究是面向人機(jī)交流,兩者具有截然不同的性質(zhì)。
第三種,計(jì)算語言學(xué)是研究語言中的可計(jì)算問題。侯敏認(rèn)為,雖然利用可計(jì)算理論研究語言符號(hào)是建立了一個(gè)新學(xué)科,但是這種說法偏于保守,沒有把計(jì)算語言學(xué)推進(jìn)語言學(xué)發(fā)展的作用充分體現(xiàn)出來。問題在于面向信息處理的計(jì)算語言學(xué)研究,其顯著特點(diǎn)就是語言的可計(jì)算性!巴七M(jìn)語言學(xué)發(fā)展的作用”這不是計(jì)算語言學(xué)的定義,強(qiáng)調(diào)“研究語言中的可計(jì)算問題”未必保守,反而突出了計(jì)算語言學(xué)的顯著特點(diǎn)。
第四種,計(jì)算語言學(xué)是建立基于計(jì)算機(jī)科學(xué)理論的語言學(xué)理論。侯敏認(rèn)為,把計(jì)算機(jī)科學(xué)的基本思想和方法引進(jìn)語言學(xué)領(lǐng)域,不但可以產(chǎn)生許多應(yīng)用性課題,而且能夠促使研究者從新的角度觀察語言學(xué),建立與傳統(tǒng)語言學(xué)不同的理論。因此計(jì)算語言學(xué)是一種基于計(jì)算機(jī)科學(xué)理論所建立的語言學(xué)理論。問題在于:一方面計(jì)算語言學(xué)需要理論但本質(zhì)上不是一門理論科學(xué),同時(shí)并非所有的計(jì)算語言學(xué)家都樂意或適合從事理論研究,另一方面計(jì)算語言學(xué)的應(yīng)用性質(zhì)決定了研究成果的技術(shù)性特征,而絕大多數(shù)人可能更適合于——實(shí)際上也更需要——語言信息處理的技術(shù)性研究。
第一種和第二種是歐洲流行的廣義定義,主張計(jì)算語言學(xué)是計(jì)算機(jī)和語言學(xué)的交叉,第三種和第四種是盛行于美國的狹義定義,主張計(jì)算語言學(xué)是計(jì)算機(jī)科學(xué)和語言學(xué)的交叉。也就是說,前者僅僅把計(jì)算機(jī)當(dāng)成語言學(xué)研究中的一種新工具應(yīng)用,而后者強(qiáng)調(diào)計(jì)算機(jī)學(xué)科的要求和理論對(duì)語言學(xué)的影響。陳小荷(2001)認(rèn)為,計(jì)算語言學(xué)就是以計(jì)算機(jī)為手段來研究自然語言,較嚴(yán)格的定義是“通過建立形式化的計(jì)算模型來處理自然語言的一門科學(xué)”。要建立形式化的計(jì)算模型來處理自然語言,首先要完成適合于計(jì)算機(jī)使用的自然語言系統(tǒng)的描寫。這一面向“人—機(jī)對(duì)話”的機(jī)用語言系統(tǒng),與以往面向“人—人對(duì)話”的日常語法系統(tǒng)不同。因此機(jī)用語言系統(tǒng)的描寫應(yīng)當(dāng)納入計(jì)算語言學(xué)的研究范圍,即完成了“機(jī)用語言系統(tǒng)”以后,才能“建立形式化的計(jì)算模型”使計(jì)算機(jī)獲得自然語言能力。綜上所論,計(jì)算語言學(xué)可以定義為——利用計(jì)算機(jī)作為工具研究語言、研究機(jī)用自然語言系統(tǒng)、研究語言系統(tǒng)或語言能力的計(jì)算性,同時(shí)建構(gòu)基于計(jì)算機(jī)應(yīng)用、數(shù)學(xué)模型、認(rèn)知科學(xué)等相關(guān)學(xué)科基礎(chǔ)之上的語言理論的新學(xué)科。姑且圖示如下:
工具性:利用計(jì)算機(jī)研究語言
計(jì)算語言學(xué)描寫性:研究機(jī)用自然語言系統(tǒng)
技術(shù)性:研究語言系統(tǒng)的計(jì)算性
理論性:建構(gòu)新的語言學(xué)理論
雖然計(jì)算語言學(xué)的關(guān)鍵任務(wù)是研究人機(jī)之間的語言交際問題,即“如何教計(jì)算機(jī)學(xué)會(huì)說話”。但是從本質(zhì)上來說,研究語言系統(tǒng)或語言能力的可計(jì)算性和利用計(jì)算機(jī)工具來研究語言是相通的,只是前者探索的是適合于人-機(jī)對(duì)話的語言能力,而后者討論的是適合于人-人對(duì)話的語言規(guī)則。
依據(jù)目前的語言研究成果和信息處理技術(shù)路線,計(jì)算語言學(xué)包括應(yīng)用基礎(chǔ)研究、應(yīng)用研究和理論研究三個(gè)方面。(陳小荷2001)應(yīng)用基礎(chǔ)研究指語言處理的基本技術(shù)研究,F(xiàn)階段的主要進(jìn)展是:1.自動(dòng)分詞技術(shù):這是計(jì)算機(jī)理解自然語言的第一步。目前漢語書面語自動(dòng)分詞的正確率達(dá)到95%以上。2.詞語特征標(biāo)注技術(shù):現(xiàn)階段的詞語特征包括詞性和義項(xiàng),這是句法結(jié) ……(未完,全文共19573字,當(dāng)前僅顯示3520字,請(qǐng)閱讀下面提示信息。
收藏《論語言科學(xué)與語言技術(shù)》)