「低代碼爬蟲系列二」Automa實現(xiàn)一個自動展開微博的爬蟲(微博爬蟲工具)
Automa是一款開源的圖形化&低代碼爬蟲工具,讓用戶在不懂代碼的情況下,通過拖拽方式做一些實用的爬蟲。例如爬取微博信息、批量搜索百度、解除某些網(wǎng)站不可復制限制、下載抖音視頻、免費看VIP視頻等等。
本系列教程將先介紹它的基本使用,然后基于它做一些有趣的項目實踐(包括但不限于上述所舉的例子)。本文是該系列的第二篇文章,實現(xiàn)一個自動展開微博的爬蟲。
第一篇文章參見「低代碼爬蟲系列一」Automa實現(xiàn)一個天氣預報爬蟲
一、自動展開微博的爬蟲背景
當我們在pc上刷微博時,微博頁面會自動對長內(nèi)容進行折疊。如果想要查看去全文,需要我們一一點擊“展開”按鈕來查看全文。那能不能實現(xiàn)一個爬蟲,打開想要查看的微博頁面,自動點擊“展開”按鈕呢?
二、實現(xiàn)方案
了解了上述背景后,我們使用Automa來實現(xiàn)對應(yīng)效果。
先給出整個項目的工作流,如下所示,然后我們再一一介紹對應(yīng)的組件及其參數(shù)。
1、觸發(fā)器
整個工作流的開始節(jié)點。每條工作流都有這個觸發(fā)器組件,默認是手動觸發(fā)模式。
2、新建標簽頁
該組件是用于在瀏覽器中打開一個新的頁面,雙擊該組件,在左側(cè)參數(shù)欄填入對應(yīng)博主的微博頁面地址。
3、點擊元素
模擬點擊頁面對應(yīng)元素。這里我們需要點擊每條博文中的“展開”按鈕。Automa支持通過css選擇器或者xpath來定位元素,通過開發(fā)者模式,不難得到“展開”按鈕的css選擇器為span.expand。在參數(shù)設(shè)置中勾選多選、等待選擇器。
4、滾動元素
模擬頁面左右滾動或者上下滾動的效果。由于微博是采用下拉異步加載的方式來實現(xiàn)之前的博文的,所以如果想要看之前的博文,就需要模擬下拉的功能,設(shè)置垂直滾動為10000即可。
5、延時
由于頁面需要一定的加載時間,這里我們加入一個延時操作。即每次滾動下滑后,等待1000ms;
6、再次點擊元素
和步驟3完全相同,對新加載的微博,再次點擊“展開”按鈕。
7、循環(huán)
類似程序設(shè)計中的循環(huán)功能。這個組件接口略微有點復雜,我們介紹下它的連線接口:
- 左邊接口,連接每次循環(huán)的最后一個組件;
- 右邊第一個接口,連接整個循環(huán)執(zhí)行結(jié)束后的下一個組件;
- 右邊第二個接口,連接每次循環(huán)開始的第一個組件;
還需要設(shè)置對應(yīng)的循環(huán)次數(shù),這里我們設(shè)為3,表示將第4、5、6的步驟重復三次;
8、回到頁面最上方
使用滾動組件,將垂直滾動參數(shù)設(shè)為-10000,如圖所示:
到此,自動展開微博內(nèi)容的爬蟲就已經(jīng)實現(xiàn)了。我們點擊右上角的運行按鈕來看下效果。
有朋友可能不僅想要自動展開內(nèi)容,而且要自動抓取對應(yīng)微博到excel,這應(yīng)該如何實現(xiàn)呢?欲知后事如何,請聽下回分解~
(如果需要完整例子項目文件、或者對步驟還存在疑問的朋友,可以在評論區(qū)留言或者私信)
后面文章會做一些更復雜、更有趣的例子,敬請期待~
如果你有什么想做的爬蟲,也可以在評論區(qū)留言哦~