基于Office的專書簡易語料庫制作示例
提示:
本文原版含圖表word版全文下載地址附后(正式會員會看到下載地址)。這里只復(fù)制粘貼部分內(nèi)容或目錄(下面顯示的字?jǐn)?shù)不代表全文字?jǐn)?shù)),有任何不清楚的煩請咨詢本站客服。
提 要:本文主要以圖文并茂的形式介紹了基于Office的專書簡易語料庫制作方法。
關(guān)鍵詞:Office 專書簡易語料庫 示例
專書語言研究是漢語史研究的基礎(chǔ)。王力先生曾多次強調(diào),漢語史的研究,基礎(chǔ)研究做得還很不夠;應(yīng)該多做些斷代的研究,專書的研究。專書研究強調(diào)語料收集的窮盡性與完整性。獨立制作語料庫是實現(xiàn)這一目的的有效途徑。
關(guān)于語料庫建立,楊建軍先生高屋建瓴地論述了其原則和方法。[ 詳楊建軍《漢
……(新文秘網(wǎng)http://jey722.cn省略547字,正式會員可完整閱讀)……
圖1.1:
圖1.1
搜索引擎便會自動列出所有可用的資料目錄。我們只需將其打開、復(fù)制,即可輕松粘貼到Word文檔中。
將文本復(fù)制入Word時,注意最好使用“選擇性粘貼”命令,這樣可以去除其中的其他非文字符號、軟回車、制表符等,避免出現(xiàn)格式混亂的情況。
具體步驟:(注:先復(fù)制)編輯→選擇性粘貼。如圖1.2:
圖1.2
當(dāng)然,將文本輸入Word后,?迸c整理是必不可少的。
2.文本切分
文本切分一般以句為單位。我們一般以一個句子作為一條語料記錄的基礎(chǔ)。手動切分太過繁瑣。特別是對于較長的文檔,處理起來就更加困難。我們可以利用Word的查找與替換功能來快速完成平這一步。
即利用高級替換功能,將每一個句號替換為一個段落標(biāo)記和句號。
具體步驟:(Word)編輯→查找和替換→高級→特殊字符→段落標(biāo)記。如圖2.2:
圖2.2
經(jīng)過段落查找與替換,即形成了以每句為一個段落的文檔。當(dāng)然,個別句子太長,也可再作切分處理;有些地方有連續(xù)的空白段落,可以依照上面的方法,用把連續(xù)段落替換為單個段落的方法處理。
3.重新轉(zhuǎn)換為文本
使用“另存為”命令將標(biāo)志完畢的Word文檔轉(zhuǎn)存為T*T文本。在轉(zhuǎn)存的過程中,Word文檔的格式設(shè)置將丟失。
具體步驟:(Word)文件→另存為→保存類型:純文本(孫子兵法)。如圖3:
圖3
4.將文本導(dǎo)入E*cel
新建一個E*cel空文檔,再導(dǎo)入t*t文本。E*cel將自動將每個句子(即段落)在電子表格中形成一個記錄。
具體步驟:(E*cel)文件→打開→文件類型:文本文件(孫子兵法)。如圖4:
圖4
5.標(biāo)識文本出處
用E*cel的自動復(fù)制單元格功能,可以實現(xiàn)快速重復(fù)填充。如圖,只需在表格第二欄輸入一個篇名,再將鼠標(biāo)放在所在方框右下角,按住并持續(xù)下拉,即可為所有語料快速填充所需信息。如圖5:
圖5
當(dāng)然,在電子表格中,研究者也可以按實際需要增加其他項目,為每條記錄提供更加豐富、全面的信息。
6.導(dǎo)入、合成
將制作好的E*cel表格導(dǎo)入ACCESS即成。先建立一個空導(dǎo)ACCESS文件,再導(dǎo)入E*cel表格內(nèi)容。
具體步驟:(Access)文件→獲取外部數(shù)據(jù)→導(dǎo)入→文件類型:Microsoft E*cel(文件名)→打開→下一步(4次)→完成。如圖6:
圖6
7.專書語料庫的使用
利用Access的篩選功能查找、篩選,主要可以滿足以下兩方面的研究。
(1)篩選詞語(或關(guān)鍵詞)研究:研究者可根據(jù)需要,對特定的對象進行窮盡搜索。分兩步完成:先用“查找”功能找到搜索對象,再用 “篩選”功能搜 ……(未完,全文共3039字,當(dāng)前僅顯示1535字,請閱讀下面提示信息。
收藏《基于Office的專書簡易語料庫制作示例》)