碁峰資訊 -

Oreilly圖書程式設計蘋果與MAC Web 開發資料庫作業系統網路與系統管理科學與數學微軟軟體工程設計與圖形家庭辦公商業與文化認證與培訓安全數位音訊與視頻數位攝影硬體行動裝置

網站擷取｜使用Python 第二版

作者： Ryan Mitchell
譯者：楊尊一
書號： A552
出版日： 2018/10/09
ISBN：9789864769261
附件：線上下載
定價： 580
電子書：未出版

購買紙本書

內容特色

在現代網路蒐集資料

「本書涵蓋的工具與範例，讓我輕易把好幾個重複的工作自動化，騰出時間解決更多有趣的問題。這是本重視成果、內容從實務問題與解法出發，又能很快讀完的好書。」
— Eric VanWyk, 電子計算機工程師，麻州歐林工程學院

如果程式設計是魔術，那麼網站擷取當然是一種魔法。你可以撰寫簡單的自動化程式查詢網頁伺服器、請求資料、並解析所需的資訊。本書不只介紹網頁擷取，還包含擷取各種現代網站資料的詳盡指南。

本書第一部份專注於網站擷取機制：使用Python從網頁伺服器取得資料、執行伺服器回應的基本處理工作、以及與網站的自動化互動。第二部分探索適用於不同擷取場景的各種工具與應用程式。

‧解析複雜HTML網頁
‧以Scrapy架構開發爬行程序
‧學習爬行資料的儲存方式
‧從文件讀取與提煉資料
‧清理格式不良的資料
‧以自然語言讀寫
‧透過表單與登入的爬行
‧JavaScript與API爬行
‧使用影像文字識別軟體
‧避開爬行陷阱與機器人阻擋程序
‧使用爬行程序測試你的網站

作者介紹

Ryan Mitchell 是波士頓HedgeServ的資深軟體工程師，為公司開發API與資料分析工具。她畢業於Olin College of Engineering，取得資工學位與Harvard University Extension School的認證。曾任職於Abine，以Python開發爬行程序與自動化工具。為零售、金融、醫療等產業提供網站擷取專案的顧問服務，並曾在Northeastern University與Olin College of Engineering擔任課程顧問和兼職教員。

章節目錄

前言

第一部建構擷取程序
第一章你的第一個擷取程序
第二章進階HTML解析
第三章撰寫網站爬行程序
第四章網站爬行模型
第五章 Scrapy
第六章儲存資料

第二部儲存資料
第七章讀取文件
第八章清理髒資料
第九章讀寫自然語言
第十章表單與登入
第十一章與擷取相關的JavaScript
第十二章透過API 爬行
第十三章影像處理與文字辨識
第十四章避開擷取陷阱
第十五章以爬行程序測試你的網站
第十六章平行擷取網站
第十七章遠端擷取
第十八章網站擷取的法規與道德

索引

延伸閱讀

Python資料分析第二版
優雅的SciPy｜Python科學研究的美學
Python資料科學學習手冊

網站擷取｜使用Python 第二版分享

作者： Ryan Mitchell

書號：A552

ISBN：9789864769261

出版日：2018/10/09

定價：$ 580

電子書：已出版

購買紙本書

金石堂 MOMO 天瓏博客來

內容特色

在現代網路蒐集資料

「本書涵蓋的工具與範例，讓我輕易把好幾個重複的工作自動化，騰出時間解決更多有趣的問題。這是本重視成果、內容從實務問題與解法出發，又能很快讀完的好書。」
— Eric VanWyk, 電子計算機工程師，麻州歐林工程學院

如果程式設計是魔術，那麼網站擷取當然是一種魔法。你可以撰寫簡單的自動化程式查詢網頁伺服器、請求資料、並解析所需的資訊。本書不只介紹網頁擷取，還包含擷取各種現代網站資料的詳盡指南。

本書第一部份專注於網站擷取機制：使用Python從網頁伺服器取得資料、執行伺服器回應的基本處理工作、以及與網站的自動化互動。第二部分探索適用於不同擷取場景的各種工具與應用程式。

‧解析複雜HTML網頁
‧以Scrapy架構開發爬行程序
‧學習爬行資料的儲存方式
‧從文件讀取與提煉資料
‧清理格式不良的資料
‧以自然語言讀寫
‧透過表單與登入的爬行
‧JavaScript與API爬行
‧使用影像文字識別軟體
‧避開爬行陷阱與機器人阻擋程序
‧使用爬行程序測試你的網站

作者介紹

Ryan Mitchell 是波士頓HedgeServ的資深軟體工程師，為公司開發API與資料分析工具。她畢業於Olin College of Engineering，取得資工學位與Harvard University Extension School的認證。曾任職於Abine，以Python開發爬行程序與自動化工具。為零售、金融、醫療等產業提供網站擷取專案的顧問服務，並曾在Northeastern University與Olin College of Engineering擔任課程顧問和兼職教員。

章節目錄

前言

第一部建構擷取程序
第一章你的第一個擷取程序
第二章進階HTML解析
第三章撰寫網站爬行程序
第四章網站爬行模型
第五章 Scrapy
第六章儲存資料

第二部儲存資料
第七章讀取文件
第八章清理髒資料
第九章讀寫自然語言
第十章表單與登入
第十一章與擷取相關的JavaScript
第十二章透過API 爬行
第十三章影像處理與文字辨識
第十四章避開擷取陷阱
第十五章以爬行程序測試你的網站
第十六章平行擷取網站
第十七章遠端擷取
第十八章網站擷取的法規與道德

索引

延伸閱讀

Python資料分析第二版

優雅的SciPy｜Python科學研究的美學

Python資料科學學習手冊

購買紙本書

內容特色

作者介紹

章節目錄

延伸閱讀

Python資料分析 第二版 優雅的SciPy｜Python科學研究的美學 Python資料科學學習手冊

網站擷取｜使用Python 第二版 分享

內容特色

作者介紹

章節目錄

延伸閱讀

Python資料分析第二版
優雅的SciPy｜Python科學研究的美學
Python資料科學學習手冊

網站擷取｜使用Python 第二版分享