" />
水淼·萬能文章采集器(SMGod)是一款基于高精度正文識別算法的互聯(lián)網(wǎng)文章采集器。支持按關(guān)鍵詞采集百度等搜索引擎的新聞源(news.baidu.com)和泛網(wǎng)頁(www.baidu.com),支持采集指定網(wǎng)站欄目下的全部文章。
此算法由水淼自主研發(fā),可以在一個網(wǎng)頁里提取出正文部分,通常精度可以達(dá)到95%,如果再進(jìn)一步設(shè)置最少字?jǐn)?shù),采集的文章的精度(正確性)可以達(dá)到99%。同時>
文章標(biāo)題也實現(xiàn)99%的提取精度。當(dāng)然,一些網(wǎng)頁排版格式比較混亂、不規(guī)則時,該精度可能有所下降。
正文提取算法有3種模式,標(biāo)準(zhǔn)、嚴(yán)格、精確標(biāo)簽。大多數(shù)情況,標(biāo)準(zhǔn)和嚴(yán)格模式是相同的提取結(jié)果。下面說的是特殊情況:
標(biāo)準(zhǔn)模式:即一般性提取,大多數(shù)時候能夠精確提取正文,但一些特殊頁面會導(dǎo)致提取到一些不需要內(nèi)容(但本模式能夠較好識別類似百度經(jīng)驗的文章頁面)
嚴(yán)格模式:顧名思義,比標(biāo)準(zhǔn)模式嚴(yán)格一點,可以很大程度避免不相關(guān)內(nèi)容提取為正文,但對于特殊分段頁面如百度經(jīng)驗的頁面(不是一般<p></p><br>段落,而是有格式的多個獨立div段),一般只能提取到某一段,而標(biāo)準(zhǔn)模式則可以提取全部段。
精確標(biāo)簽:當(dāng)標(biāo)準(zhǔn)和嚴(yán)格模式不管用時,可以精確指定目標(biāo)正文的標(biāo)簽頭。本模式只適合網(wǎng)絡(luò)批處理。
所以可以根據(jù)實際情況來切換模式?梢允褂帽镜嘏幚淼淖x網(wǎng)頁正文功能來測試指定網(wǎng)頁適合哪種模式提取。
應(yīng)用平臺:WinXP, Win7, Win8, Win10, WinAll