碁峰資訊 -

Oreilly圖書程式設計蘋果與MAC Web 開發資料庫作業系統網路與系統管理科學與數學微軟軟體工程設計與圖形家庭辦公商業與文化認證與培訓安全數位音訊與視頻數位攝影硬體行動裝置

網站擷取｜使用Python 第三版

作者： Ryan Mitchell
譯者：賴屹民
書號： A774
出版日： 2025/08/22
ISBN：9786264250948
附件：線上下載
定價： 720
電子書：未出版

購買紙本書

內容特色

從現代網頁爬取資料

爬取×解析×轉換──讓資料收集快、準、全，告別繁瑣工作！

從HTML到API、從圖片到文字，使用Python做網頁爬取，能廣泛應用於市場預測、機器翻譯甚至是醫學診斷，實用性極高。因此，無論在哪一個領域，網路爬蟲都可以更有效地應用於商務、分析、提升生產效能，開創新機會。

「本書是內容豐富的傑作，可幫助讀者有意識地、有效地抓取網頁資料，值得推薦給想從網站爬取資料、打算建立網站和分享資料的每一個人。」
—Michael Hopkins
P.Geo., PMP

如果說程式設計像魔法一樣，那麼「網站擷取」無疑就是一種巫術，只要寫一個簡單的自動程式，就可以用它來查詢網頁伺服器、請求資料、解析資料，並提取所需資訊。本書第三版經過徹底翻新，不僅介紹網路爬取，也全面性地教你如何從現代網頁抓取幾乎每一種類型的資料。

本書的第一部分專門討論網路爬取機制，包括使用 Python 從網頁伺服器請求資訊、初步處理伺服器的回應，以及自動和網站進行互動。第二部分則探討更具體的工具和應用，以應對可能遇到的各種網頁爬取情境。

本書教你如何：
•解析複雜的HTML網頁
•使用Scrapy框架來開發爬蟲
•儲存你抓到的資料
•從文件中讀取和提取資料
•清理格式不嚴僅的資料，以及將之正規化
•讀寫自然語言
•爬取表單與登入網站
•爬取JavaScript和 API
•使用和編寫「圖片轉文字」軟體
•避免爬網陷阱和反機器人封鎖
•使用爬蟲來測試自己的網站

作者介紹

Ryan Mitchell 是 GLG 的高級軟體工程師，也是網路抓取、網路安全，和資料科學專家。她曾經主持多場研討會，並在許多活動中發表演說，包括 Data Day 和 DEF CON。此外，她也教導網路程式設計和資料科學，並在多家機構中提供相關課程的諮詢服務。Ryan 也是 Instant Web Scraping with Java（Packt Publishing）的作者。

序

電腦程式設計對尚未掌握技巧的人來說如同一種魔法。如果說程式設計就像魔法，那麼網路抓取就像巫術了，所謂的巫術，就是輕鬆寫意地施展魔法來實現令人印象深刻且實用的壯舉。

在我擔任軟體工程師的時期，很少程式設計實務可以像網路爬取一樣，讓程式設計師和外行人都備感期待。寫一個簡單的自主程式來收集資料，並將那些資料顯示在終端機上或儲存在資料庫裡並非難事，但無論你完成幾次，那種令人振奮的體驗和無限可能的感受都不會消失。

遺憾的是，當我和其他程式設計師討論網路爬取時，他們依然對這一門技術有一些誤解與困惑。有些人不確定這樣做是否合法（它是合法的），或不知道如何處理大量使用 JavaScript 的網頁，或需要登入才能爬取的情況。很多人不明白如何啟動大型的網路爬蟲專案，甚至不知道該去哪裡尋找資料。本書的目標是解答這些常見的疑問與誤解，並提供大多數網路爬取任務的完整指南。

網路爬取是一個多樣且變化迅速的領域，本書試著提供高階的概念和具體的範例，希望涵蓋你可能會遇到的各種資料收集專案。在整本書中，我提供許多程式來示範這些概念，並讓你實際操作它們；所有程式範例都可以在 GitHub 上閱讀和下載。這些範例程式可以自由使用和修改，無論你是否註明來源（當然，若能註明來源，我將感激不盡）。

章節目錄

第一部分建構爬蟲
第 1 章網際網路的運作方式
第 2 章網頁爬蟲的法律問題與道德原則
第 3 章網頁爬蟲的應用
第 4 章寫出你的第一個網路爬蟲
第 5 章進階 HTML 解析
第 6 章編寫網路爬蟲
第 7 章網頁爬取模型
第 8 章 Scrapy
第 9 章儲存資料

第二部分進階抓取
第 10 章讀取文件
第 11 章處理髒資料
第 12 章讀寫自然語言
第 13 章藉由表單與登入來爬網
第 14 章抓取 JavaScript
第 15 章透過 API 來爬取資料
第 16 章圖片處理與文字辨識
第 17 章避免抓取陷阱
第 18 章使用爬蟲來測試你的網站
第 19 章平行爬網
第 20 章網路爬蟲代理

延伸閱讀

架構資料與機器學習平台｜雲端啟動分析與AI驅動的創新
具成本效益的資料管道
資料科學：困難部分

Previous Next

GOTOP

圖書

資訊圖書

工程/3D繪圖

網站擷取｜使用Python 第三版分享

作者： Ryan Mitchell
書號：A774

ISBN：9786264250948

出版日：2025/08/22

定價：$ 720

電子書：已出版

購買紙本書

金石堂 MOMO 天瓏博客來

內容特色

從現代網頁爬取資料

爬取×解析×轉換──讓資料收集快、準、全，告別繁瑣工作！

從HTML到API、從圖片到文字，使用Python做網頁爬取，能廣泛應用於市場預測、機器翻譯甚至是醫學診斷，實用性極高。因此，無論在哪一個領域，網路爬蟲都可以更有效地應用於商務、分析、提升生產效能，開創新機會。

「本書是內容豐富的傑作，可幫助讀者有意識地、有效地抓取網頁資料，值得推薦給想從網站爬取資料、打算建立網站和分享資料的每一個人。」
—Michael Hopkins
P.Geo., PMP

如果說程式設計像魔法一樣，那麼「網站擷取」無疑就是一種巫術，只要寫一個簡單的自動程式，就可以用它來查詢網頁伺服器、請求資料、解析資料，並提取所需資訊。本書第三版經過徹底翻新，不僅介紹網路爬取，也全面性地教你如何從現代網頁抓取幾乎每一種類型的資料。

本書的第一部分專門討論網路爬取機制，包括使用 Python 從網頁伺服器請求資訊、初步處理伺服器的回應，以及自動和網站進行互動。第二部分則探討更具體的工具和應用，以應對可能遇到的各種網頁爬取情境。

本書教你如何：
•解析複雜的HTML網頁
•使用Scrapy框架來開發爬蟲
•儲存你抓到的資料
•從文件中讀取和提取資料
•清理格式不嚴僅的資料，以及將之正規化
•讀寫自然語言
•爬取表單與登入網站
•爬取JavaScript和 API
•使用和編寫「圖片轉文字」軟體
•避免爬網陷阱和反機器人封鎖
•使用爬蟲來測試自己的網站

作者介紹

Ryan Mitchell 是 GLG 的高級軟體工程師，也是網路抓取、網路安全，和資料科學專家。她曾經主持多場研討會，並在許多活動中發表演說，包括 Data Day 和 DEF CON。此外，她也教導網路程式設計和資料科學，並在多家機構中提供相關課程的諮詢服務。Ryan 也是 Instant Web Scraping with Java（Packt Publishing）的作者。

序

電腦程式設計對尚未掌握技巧的人來說如同一種魔法。如果說程式設計就像魔法，那麼網路抓取就像巫術了，所謂的巫術，就是輕鬆寫意地施展魔法來實現令人印象深刻且實用的壯舉。

在我擔任軟體工程師的時期，很少程式設計實務可以像網路爬取一樣，讓程式設計師和外行人都備感期待。寫一個簡單的自主程式來收集資料，並將那些資料顯示在終端機上或儲存在資料庫裡並非難事，但無論你完成幾次，那種令人振奮的體驗和無限可能的感受都不會消失。

遺憾的是，當我和其他程式設計師討論網路爬取時，他們依然對這一門技術有一些誤解與困惑。有些人不確定這樣做是否合法（它是合法的），或不知道如何處理大量使用 JavaScript 的網頁，或需要登入才能爬取的情況。很多人不明白如何啟動大型的網路爬蟲專案，甚至不知道該去哪裡尋找資料。本書的目標是解答這些常見的疑問與誤解，並提供大多數網路爬取任務的完整指南。

網路爬取是一個多樣且變化迅速的領域，本書試著提供高階的概念和具體的範例，希望涵蓋你可能會遇到的各種資料收集專案。在整本書中，我提供許多程式來示範這些概念，並讓你實際操作它們；所有程式範例都可以在 GitHub 上閱讀和下載。這些範例程式可以自由使用和修改，無論你是否註明來源（當然，若能註明來源，我將感激不盡）。

章節目錄

第一部分建構爬蟲
第 1 章網際網路的運作方式
第 2 章網頁爬蟲的法律問題與道德原則
第 3 章網頁爬蟲的應用
第 4 章寫出你的第一個網路爬蟲
第 5 章進階 HTML 解析
第 6 章編寫網路爬蟲
第 7 章網頁爬取模型
第 8 章 Scrapy
第 9 章儲存資料

第二部分進階抓取
第 10 章讀取文件
第 11 章處理髒資料
第 12 章讀寫自然語言
第 13 章藉由表單與登入來爬網
第 14 章抓取 JavaScript
第 15 章透過 API 來爬取資料
第 16 章圖片處理與文字辨識
第 17 章避免抓取陷阱
第 18 章使用爬蟲來測試你的網站
第 19 章平行爬網
第 20 章網路爬蟲代理

延伸閱讀

架構資料與機器學習平台｜雲端啟動分析與AI驅動的創新
具成本效益的資料管道
資料科學：困難部分

碁峰資訊股份有限公司 GOTOP INFORMATION INC.
台北市南港區三重路66號7樓之6 / 7F.-6,No.66,Sanchong Rd.,Nangang District,Taipei
TEL:(02)2788-2408 FAX:(02)8192-4433 劃撥帳號:14244383
Copyright 2022© GOTOP Information Inc, All Rights Reserved 請勿任意連結、轉載

購買紙本書

內容特色

作者介紹

序

章節目錄

延伸閱讀

架構資料與機器學習平台｜雲端啟動分析與AI驅動的創新 具成本效益的資料管道 資料科學：困難部分

網站擷取｜使用Python 第三版 分享

內容特色

作者介紹

序

章節目錄

延伸閱讀

架構資料與機器學習平台｜雲端啟動分析與AI驅動的創新
具成本效益的資料管道
資料科學：困難部分

網站擷取｜使用Python 第三版分享