爬蟲即網(wǎng)絡爬蟲就是按照一定規(guī)則從互聯(lián)網(wǎng)上抓取信息的程序。比如去百度搜索關(guān)鍵字“Python”,這個時候我們的瀏覽器就會向網(wǎng)站發(fā)送請求。
提取數(shù)據(jù),數(shù)據(jù)包括了圖片、文字、視頻等等,都叫數(shù)據(jù),在我們發(fā)送請求之后,網(wǎng)站會呈現(xiàn)搜索結(jié)果給我們,這其實就是返回了數(shù)據(jù),這時候我們就可以對數(shù)據(jù)進行提取;
自動化程序,也就是我們寫的代碼,實現(xiàn)了自動提取程數(shù)據(jù),比如批量對返回的圖片進行下載和保存,替代我們一張一張圖片進行手工操作。
我們一般見到的爬蟲也是爬取數(shù)據(jù)用的。這類爬蟲其實就做了兩項工作:1.獲取網(wǎng)頁源代碼;2.從網(wǎng)頁源代碼中解析和提取所需要的數(shù)據(jù)。
爬蟲的分類有哪些?
①通用爬蟲(大而全)
功能強大,采集面廣泛,通常用于搜索引擎,比如百度瀏覽器就是一個很大的爬蟲程序。
②聚焦爬蟲(小而精)
功能相對單一,只針對特定網(wǎng)站的特定內(nèi)容進行爬取,比如說去某個網(wǎng)站批量獲取某些數(shù)據(jù),這也是我們個人最常用的一種爬蟲了。
③增量式爬蟲(只采集更新后的內(nèi)容)
這其實是聚焦爬蟲的一個迭代爬蟲,它只采集更新后的數(shù)據(jù),對老數(shù)據(jù)是不采集,相當于一直存在并運行,只要有符合要求的數(shù)據(jù)更新了,就會自動爬取新的數(shù)據(jù)。
以上就是有關(guān)什么是爬蟲?爬蟲的作用的介紹。