網(wǎng)絡驅(qū)動語料庫芻議--兼論“萬維網(wǎng)能否代替?zhèn)鹘y(tǒng)語料庫?”

外語電化教學雜志

摘要：萬維網(wǎng)的大量數(shù)據(jù)以自然語言文本形式存在,如何挖掘和利用萬維網(wǎng)的自然語言文本已成為計算機科學和語言學的交叉研究熱點,這改變了傳統(tǒng)的語言學知識獲取方式,沖擊了語料庫語言學的現(xiàn)有范式,挑戰(zhàn)著傳統(tǒng)語料庫在語言研究中的地位--既然語言學知識可從萬維網(wǎng)獲得,那么萬維網(wǎng)能否代替?zhèn)鹘y(tǒng)語料庫?這一問題的關鍵在于萬維網(wǎng)能否如傳統(tǒng)語料庫一般為語言研究提供可靠的語言學知識。文章探討了從萬維網(wǎng)獲取語言學知識的三種途徑及其可靠性:通用搜索引擎;語言學搜索引擎;網(wǎng)絡驅(qū)動語料庫。研究發(fā)現(xiàn),通用搜索引擎和語言學搜索引擎的局限性較大,而網(wǎng)絡驅(qū)動語料庫是三者中最可靠的一種語言學知識獲取途徑;盡管網(wǎng)絡驅(qū)動語料庫憑借自動化建庫和超大規(guī)模的優(yōu)勢,在詞典編纂、短語自動識別、自然語言處理等領域顯示出了一定潛力。但由于存在諸多缺陷,萬維網(wǎng)尚不能取代傳統(tǒng)語料庫,但它與語言研究的結合有望成為語料庫語言學在未來的重要研究方向。

關鍵詞：