基于主題型頁面的正文信息抽取技術(shù)研究

計算機(jī)光盤軟件與應(yīng)用雜志

摘要：Web頁面信息通常包含大量無關(guān)結(jié)構(gòu)和HTML標(biāo)記，而頁面主題信息通常淹沒其中，如何快速獲取Web頁面主題信息。本文提出了一種抽取策略，首先判定是否為主題型頁面，然后提取網(wǎng)頁正文信息，最后利用正則表達(dá)式濾除內(nèi)容塊中HTML標(biāo)記和無關(guān)文字。實驗結(jié)果表明：該方法能準(zhǔn)確地完成主題型網(wǎng)頁的正文抽取任務(wù)。

關(guān)鍵詞：

主題型頁面
網(wǎng)頁標(biāo)題
正文抽取

作者：

萬文兵

單位：

儀征技師學(xué)院江蘇儀征211400

刊名：

計算機(jī)光盤軟件與應(yīng)用

注：因版權(quán)方要求，不能公開全文，如需全文，請咨詢雜志社

投稿咨詢免費咨詢

期刊名稱：計算機(jī)光盤軟件與應(yīng)用

計算機(jī)光盤軟件與應(yīng)用雜志緊跟學(xué)術(shù)前沿，緊貼讀者，致力于創(chuàng)辦以創(chuàng)新、準(zhǔn)確、實用為特色，突出綜述性、科學(xué)性、實用性，及時報道國內(nèi)外計算機(jī)技術(shù)在科研、教學(xué)、應(yīng)用方面的研究成果和發(fā)展動態(tài)，為國內(nèi)計算機(jī)同行提供學(xué)術(shù)交流的平臺。堅持指導(dǎo)性與實用性相結(jié)合的原則，創(chuàng)辦于1998年，雜志在全國同類期刊中有很重的學(xué)術(shù)價值。

雜志信息雜志咨詢

基于主題型頁面的正文信息抽取技術(shù)研究

服務(wù)介紹

期刊咨詢

訂閱雜志

期刊推薦