摘要:Web頁面信息通常包含大量無關(guān)結(jié)構(gòu)和HTML標(biāo)記,而頁面主題信息通常淹沒其中,如何快速獲取Web頁面主題信息。本文提出了一種抽取策略,首先判定是否為主題型頁面,然后提取網(wǎng)頁正文信息,最后利用正則表達(dá)式濾除內(nèi)容塊中HTML標(biāo)記和無關(guān)文字。實驗結(jié)果表明:該方法能準(zhǔn)確地完成主題型網(wǎng)頁的正文抽取任務(wù)。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社
期刊名稱:計算機(jī)光盤軟件與應(yīng)用
計算機(jī)光盤軟件與應(yīng)用雜志緊跟學(xué)術(shù)前沿,緊貼讀者,致力于創(chuàng)辦以創(chuàng)新、準(zhǔn)確、實用為特色,突出綜述性、科學(xué)性、實用性,及時報道國內(nèi)外計算機(jī)技術(shù)在科研、教學(xué)、應(yīng)用方面的研究成果和發(fā)展動態(tài),為國內(nèi)計算機(jī)同行提供學(xué)術(shù)交流的平臺。堅持指導(dǎo)性與實用性相結(jié)合的原則,創(chuàng)辦于1998年,雜志在全國同類期刊中有很重的學(xué)術(shù)價值。