為了賬號安全,請及時綁定郵箱和手機立即綁定

Python開發簡單爬蟲

公眾號_螞蟻學Py... 全棧工程師
難度初級
時長 1小時14分
學習人數
綜合評分9.67
644人評價 查看評價
9.9 內容實用
9.6 簡潔易懂
9.5 邏輯清晰
簡介:爬蟲技術用來從互聯網上自動獲取需要的數據。課程從對爬蟲的介紹出發,引入一個簡單爬蟲的技術架構,然后通過是什么、怎么做、現場演示三步驟,解釋爬蟲技術架構中的三個模塊。最后,一套優雅精美的爬蟲代碼實戰編寫,向大家演示了實戰抓取百度百科1000個頁面的數據全過程

第1章 課程介紹

本章對課程要學習的內容進行概覽,明確告訴大家將從課程中學到開發一個爬蟲所需的相關技術。

第2章 爬蟲簡介以及爬蟲的技術價值

本章介紹了爬蟲技術的含義,以及爬蟲這門技術存在的價值和意義

第3章 簡單爬蟲架構

本章介紹了精心提煉的一個簡潔爬蟲技術架構,通過動態圖介紹了技術架構實現爬蟲任務的流程,使大家對爬蟲的整體組成和運行流程有整體的把握。

第4章 URL管理器和實現方法

本章介紹了簡單爬蟲架構的URL管理器模塊,用于管理待爬取的URL集合和已爬取的URL集合,也介紹了實現URL管理器的幾種方法

第5章 網頁下載器和urllib2模塊

本章介紹了簡單爬蟲架構的網頁下載器模塊,將網頁下載下來然后才能進行后續的數據提取,本章然后介紹了Python自帶的urllib2模塊的各種使用語法用于網頁的下載

第6章 網頁解析器和BeautifulSoup第三方模塊

本章介紹了簡單爬蟲架構的網頁解析器模塊,解析器用于從網頁中提取價值數據和新的待爬取URL,本章然后介紹了BeautifulSoup這個強大的第三方模塊用于數據的解析和提取

第7章 實戰演練:爬取百度百科1000個頁面的數據

本章是課程的核心部分,通過一套精心設計并編寫的爬蟲代碼,實現了課程前面講述的簡單爬蟲架構中各個組成部分,爬蟲代碼最終完成了百度百科1000個頁面的數據爬取并進行了數據展示,本代碼經過配置修改后,可以用來爬取任何網站數據。

第8章 課程總結

本章回顧了課程講過的知識,對爬蟲的技術架構有一個整體的回顧和把握,另外也對爬蟲技術的深入發展將會遇到的困難進行了簡單展望
課程須知
本課程是Python語言開發的高級課程 1、Python編程語法; 2、HTML語言基礎知識; 3、正則表達式基礎知識;
老師告訴你能學到什么?
1、爬蟲技術的含義和存在價值 2、爬蟲技術架構 3、組成爬蟲的關鍵模塊:URL管理器、HTML下載器和HTML解析器 4、實戰抓取百度百科1000個詞條頁面數據的抓取策略設定、實戰代碼編寫、爬蟲實例運行 5、一套極簡的可擴展爬蟲代碼,修改本代碼,你就能抓取任何互聯網網頁!

微信掃碼,參與3人拼團

意見反饋 幫助中心 APP下載
官方微信
友情提示:

您好,此課程屬于遷移課程,您已購買該課程,無需重復購買,感謝您對慕課網的支持!

lpl竞猜