| 為您推薦:視頻
軟件介紹后羿采集器liunx版是后羿采集器的liunx版本,適合使用liunx系統的個人博客主和站長使用,利用軟件能夠輕松的對站群進行采集和上架,軟件支持后臺運行,有需要的可以下載使用。
軟件特色 1、可視化自定義采集流程 全程問答式引導、可視化操作、自定義采集流程 自動記錄和模擬網頁操作順序 *設置滿足更多采集需求 2、點選抽取網頁數據 鼠標點擊選擇要爬取的網頁內容、操作簡單 可選擇抽取文本、鏈接、屬性、html標簽等 3、運行批量采集數據 軟件按照采集流程和抽取規則自動批量采集 快速穩定,實時顯示采集速度和過程 可切換軟件后臺運行,不打擾前臺工作 4、導出和發布采集的數據 采集的數據自動表格化,自由配置字段 支持數據導出到Excel等本地文件 和一鍵發布到CMS網站/數據庫/微信公眾號等媒體 使用方法 安裝包在的文件夾,按住shift,點擊鼠標右鍵,會彈出如下界面,點擊在終端中打開
輸入下面的命令,-i后面是你的文件名,如果權限不夠,就要在前面輸入sudo,然后回車后再輸入密碼
常見問題 1、XX 網站能不能采集?XX 數據能不能采集? 官網視頻講解教程中我們已經介紹過,后羿采集器是一款通用網頁采集軟件,只要是有網址,可以通過網頁瀏覽,您能看得見的內容,大多都是可以采集的(視頻比較特殊,得分析具體情況)。 為了保護您的隱私,您所有的任務及配置都以加密形式存儲于云端,除了您個人外任何人都無法查看具體的內容,您在采集過程中輸入的賬號密碼以及您的采集結果都存在您的本地電腦中。但請您嚴格遵守相關的法律法規,若后羿采集器官方收到任何關于非法采集的舉報,將會*時間封停該賬號。 2、為什么采集數據提前停止了? 如果您遇到采集提前停止的問題,請按照以下步驟自檢一下: 第一步:請確認您在瀏覽器中能看見多少內容 有的時候搜索顯示數量和你最終能看得見的數量不是一致的,請確認您能看見多少條數據,然后再確定采集是提前停止還是正常停止。 第二步:采集結果數量和在瀏覽器中看到的數量不一致 在采集過程中,如果遇到這個問題,有以下兩種可能性: 第一種可能性是采集速度過快而網頁加載時間過慢,從而導致無法采集到網頁中的數據。 遇到這種情況時請增加請求等待時間,等待時間長一點之后,就有足夠的時間留給網頁加載內容。 請求等待時間的設置在 啟動設置—>智能策略中,如下圖所示: 第二種可能性是你遇到了其他問題 我們可以通過在運行過程中,點擊運行界面中的“查看網頁”來觀察一下當前的網頁內容是否正常,是否無法正常顯示,是否出現異常提示等。 如果出現了上述情況,我們可以通過降低采集速度、切換代理IP、手動打碼等方式,至于哪種方式可以起作用,這個需要測試才知道,不同的網站問題不同,沒有一個統一的解決方案。 如果嘗試了以上方案后仍然無法解決,你可以在幫助中心反饋給我們,我們會為您提供支持。 3、為什么采集字段不全? 字段不全一般有以下兩種情況: 第一種,由于列表元素的結構不同,有些元素中有的字段其他元素中沒有,這是正常的現象,請大家先在網頁中確認對應元素中是否存在你想要的字段。 第二種,頁面結構發生了變化,這種通常會發生在同一個搜索結果中包含多種頁面結構的場景,例如搜索引擎的搜索結果(包含很多種網站)。 這種情況需要針對具體問題進行分析,您可以導出您的采集任務,發到我們官方的幫助中心,我們的客服會幫您進行測試分析。
|