碁峰資訊 -

Oreilly圖書程式設計蘋果與MAC Web 開發資料庫作業系統網路與系統管理科學與數學微軟軟體工程設計與圖形家庭辦公商業與文化認證與培訓安全數位音訊與視頻數位攝影硬體行動裝置

網站擷取｜使用Python

作者： Ryan Mitchell
譯者：Studio Tib.
書號： A452
出版日： 2016/09/30
ISBN：9789864761753
附件：線上下載
定價： 580
電子書：未出版

購買紙本書

內容特色

在現代網路蒐集資料

「本書涵蓋的工具與範例，讓我輕易把好幾個重複的工作自動化，騰出時間解決更多有趣的問題。這是本重視成果、內容從實務問題與解法出發，又能很快讀完的好書。」
— Eric VanWyk, 電子計算機工程師，麻州歐林工程學院

學會網頁搜刮(scraping)及爬行(crawling)技術，就能從任何網站來源取得任意格式的無限量資料。您可以從這本實務指南學到如何使用Python與web APIs，同時從上千，甚至上百萬的網頁之中獲取並處理資料。

本書適合會寫Python的程式設計者、網路安全工作者以及網站管理者閱讀。不僅會提到網頁搜刮的基本機制，還會提到一些進階主題，像是分析原始資料，或是利用搜刮工具進行網站前端測試。本書也將提供程式範例協助您從實務的角度理解觀念。

•學會如何解析複雜的HTML頁面
•走訪許多頁面與網站
•掌握APIs的概觀以及它們如何運作
•學會多種儲存搜刮來的資料的方式
•下載文件並讀取內容，從中擷取資料
•使用工具與技巧整理格式雜亂的原始資料
•讀寫自然語言
•爬過表單與登入頁
•瞭解如何搜刮JavaScript
•學會影像處理與文字識別

作者介紹

Ryan Mitchell 是波士頓LinkeDrive的軟體工程師，她為公司開發了API與資料分析工具，經常為金融與零售業界提供網站擷取技術的諮詢。

章節目錄

第一部分建構 Scraper
第一章您的第一個 Scraper
第二章進階 HTML 解析
第三章開始爬行
第四章使用 API
第五章儲存資料
第六章讀取文件

第二部分進階 Scraping
第七章清理您的髒資料
第八章讀寫自然語言
第九章爬過表單與登入頁
第十章搜刮 JavaScript
第十一章影像處理與文字辨識
第十二章避開 Scraping 陷阱
第十三章以 Scrapers 測試您的網站
第十四章遠端 Scraping

附錄A Python 概覽
附錄B Internet 概覽
附錄C 擷取網頁時的法律與道德考量

延伸閱讀

流暢的 Python｜清晰、簡潔、有效的程式設計
高效能 Python 程式設計
Python 錦囊妙計第三版

網站擷取｜使用Python 分享

作者： Ryan Mitchell

書號：A452

ISBN：9789864761753

出版日：2016/09/30

定價：$ 580

電子書：已出版

購買紙本書

金石堂天瓏博客來

內容特色

在現代網路蒐集資料

「本書涵蓋的工具與範例，讓我輕易把好幾個重複的工作自動化，騰出時間解決更多有趣的問題。這是本重視成果、內容從實務問題與解法出發，又能很快讀完的好書。」
— Eric VanWyk, 電子計算機工程師，麻州歐林工程學院

學會網頁搜刮(scraping)及爬行(crawling)技術，就能從任何網站來源取得任意格式的無限量資料。您可以從這本實務指南學到如何使用Python與web APIs，同時從上千，甚至上百萬的網頁之中獲取並處理資料。

本書適合會寫Python的程式設計者、網路安全工作者以及網站管理者閱讀。不僅會提到網頁搜刮的基本機制，還會提到一些進階主題，像是分析原始資料，或是利用搜刮工具進行網站前端測試。本書也將提供程式範例協助您從實務的角度理解觀念。

•學會如何解析複雜的HTML頁面
•走訪許多頁面與網站
•掌握APIs的概觀以及它們如何運作
•學會多種儲存搜刮來的資料的方式
•下載文件並讀取內容，從中擷取資料
•使用工具與技巧整理格式雜亂的原始資料
•讀寫自然語言
•爬過表單與登入頁
•瞭解如何搜刮JavaScript
•學會影像處理與文字識別

作者介紹

Ryan Mitchell 是波士頓LinkeDrive的軟體工程師，她為公司開發了API與資料分析工具，經常為金融與零售業界提供網站擷取技術的諮詢。

章節目錄

第一部分建構 Scraper
第一章您的第一個 Scraper
第二章進階 HTML 解析
第三章開始爬行
第四章使用 API
第五章儲存資料
第六章讀取文件

第二部分進階 Scraping
第七章清理您的髒資料
第八章讀寫自然語言
第九章爬過表單與登入頁
第十章搜刮 JavaScript
第十一章影像處理與文字辨識
第十二章避開 Scraping 陷阱
第十三章以 Scrapers 測試您的網站
第十四章遠端 Scraping

附錄A Python 概覽
附錄B Internet 概覽
附錄C 擷取網頁時的法律與道德考量

延伸閱讀

流暢的 Python｜清晰、簡潔、有效的程式設計

高效能 Python 程式設計

Python 錦囊妙計第三版

購買紙本書

內容特色

作者介紹

Ryan Mitchell 是波士頓LinkeDrive的軟體工程師，她為公司開發了API與資料分析工具，經常為金融與零售業界提供網站擷取技術的諮詢。

章節目錄

延伸閱讀

流暢的 Python｜清晰、簡潔、有效的程式設計 高效能 Python 程式設計 Python 錦囊妙計 第三版

網站擷取｜使用Python 分享

內容特色

作者介紹

章節目錄

延伸閱讀

流暢的 Python｜清晰、簡潔、有效的程式設計
高效能 Python 程式設計
Python 錦囊妙計第三版