這是htmlparser1.6源碼、文檔及jar包下載,是一個純的java寫的html解析的庫,它不依賴于其它的java庫文件,主要用于改造或提取html。它能超高速解析html,而且不會出錯。毫不夸張地說,htmlparser就是目前最好的html解析和分析的工具。無論你是想抓取網(wǎng)頁數(shù)據(jù)還是改造html的內(nèi)容,用了htmlparser絕對會忍不住稱贊。
htmlparser1.6源碼、文檔及jar包是過濾器 (Filters),訪問者模式 (Visitors),處理自定義標(biāo)簽以及易于使用的 JavaBeans。正如 HtmlParser 首頁所說:它是一個快速,健壯以及嚴格測試過的組件;以它設(shè)計的簡潔,程序運行的速度以及處理 Internet 上真實網(wǎng)頁的能力吸引著越來越多的開發(fā)者。 本文中就是利用HtmlParser 里提取網(wǎng)頁里的鏈接,實現(xiàn)簡易爬蟲里的關(guān)鍵部分。HtmlParser 最新的版本是HtmlParser1.6。
這篇文章介紹了 HtmlParser 開源包和 HttpClient 開源包使用在此基礎(chǔ)上實現(xiàn)了個簡易網(wǎng)絡(luò)爬蟲 (Crawler)來介紹說明如何使用 HtmlParser 根據(jù)需要處理 Internet 上網(wǎng)頁以及如何使用 HttpClient 來簡化 Get 和 Post 請求操作構(gòu)建強大網(wǎng)絡(luò)應(yīng)用 。
HTTP 協(xié)議是現(xiàn)在因特網(wǎng)最重要協(xié)議的除了 WEB 瀏覽器的外 WEB 服務(wù)基于網(wǎng)絡(luò)應(yīng)用以及日益增長網(wǎng)絡(luò)計算不斷擴展著 HTTP 協(xié)議角色使得越來越多應(yīng)用需要 HTTP 協(xié)議支持雖然 JAVA 類庫 .net 包提供了基本功能來使用 HTTP 協(xié)議訪問網(wǎng)絡(luò)資源但是其靈活性和功能遠不能滿足很多應(yīng)用需要而 Jakarta Commons HttpClient 組件尋求提供更為靈活更加高效 HTTP 協(xié)議支持簡化基于 HTTP 協(xié)議應(yīng)用創(chuàng)建 HttpClient 提供了很多特性支持最新 HTTP 標(biāo)準(zhǔn)可以訪問這里了解更多有關(guān) HttpClinet 詳細信息目前有很多開源項目都用到了 HttpClient 提供 HTTP功能登陸網(wǎng)址可以查看這些項目本文中使用 HttpClinet 提供類庫來訪問和下載 Internet上面網(wǎng)頁在后續(xù)部分會詳細介紹到其提供兩種請求網(wǎng)絡(luò)資源思路方法: Get 請求和 Post 請求Apatche 提供免費 HTTPClien t源碼和 JAR 包下載可以登陸這里 下載最新HttpClient 組件筆者使用是 HttpClient3.1 。