資訊圖書
電腦資訊
檢定認證書籍
語言學習
電子書
新書推薦
工程 / 3D 繪圖
辦公軟體應用
作業系統 / 伺服器
程式設計/APP開發
電腦硬體 / 創客
網頁開發設計
影像編修繪圖
影音多媒體
數位攝影
數位生活
資料庫 / 大數據
網路 / 架站
人文科普
商業管理
統計數學
遊戲設計
概論 / 科技趨勢
其他
新書推薦
Adobe 國際認證
Autodesk 國際認證
CCS 國際認證
Cisco 國際認證
ITS 國際認證
Microsoft MCF 國際認證
Microsoft MOS 國際認證
TQC技能檢定
技術士技能檢定
國家考試
其他認證
英語
日語
韓語
工程 / 3D 繪圖
辦公軟體應用
作業系統 / 伺服器
程式設計 / APP 開發
電腦硬體 / 創客
網頁開發設計
影像編修繪圖
影音多媒體
數位攝影
數位生活
資料庫 / 大數據
網路 / 架站
人文科普
商業管理
統計數學
遊戲設計
概論/科技趨勢
歐萊禮
歐萊禮
O'Reilly新書推薦
辦公軟體應用
作業系統 / 伺服器
程式設計/APP開發
電腦硬體 / 創客
網頁開發設計
資料庫 / 大數據
網路 / 架站
人文科普
商業管理
統計數學
遊戲設計
概論 / 科技趨勢
親子學習
親子學習
新書推薦
圖畫書
遊戲書
語言學習
藝術美勞
科普 / 百科
知識學習漫畫
電腦資訊
橋梁書
故事/小說
教學用書
大專教材
高中職教材
審定本
國小專區
教師專區
新書推薦
計算機概論組織 / 硬體
網路概論 / 通訊 / 資安
資料庫
資料結構 / 演算法
系統分析/軟體工程
作業系統/管理資訊系統
電子商務/網路行銷
數學/統計分析
程式設計
網頁設計 / 網頁程式設計
多媒體概論 / 設計 / 應用
商業套裝軟體應用
電腦輔助設計 / 電路設計
AI應用 / 人工智慧
檢定認證
新書推薦
校訂用書
檢定認證
教材推薦
科技領域
商業與管理群
電機與電子群
餐旅群
教材推薦
加入會員
忘記密碼
修改基本資料
考試認證
考科總覽
AI國際認證
通識領域
資訊領域
設計領域
商管領域
學習資源
考科總覽
AI 人工智慧國際認證總覽
CCS 生成式AI人工智慧核心能力
Microsoft Azure AI 人工智慧基礎能力
ITS 人工智慧核心能力
Microsoft MOS 微軟 Office 原廠國際認證
CCS 關鍵職業技能國際認證
Apple Swift 應用程式開發原廠國際認證
CCS 關鍵職業技能國際認證
Cisco CCST 思科認證技術人員原廠國際認證
IC3 資訊素養綜合能力國際認證
ITS 資訊科技專家國際認證
Microsoft MCF 微軟核心能力原廠國際認證
Microsoft MOS 微軟 Office 原廠國際認證
Adobe ACP 數媒設計原廠國際認證
Autodesk ACU 工程與數媒設計原廠國際認證
Autodesk Tinkercad 3D設計與建模原廠國際認證
CyberLink 訊連科技國際認證
Intuit 創新思維原廠國際認證
Unity 遊戲設計開發原廠國際認證
ESB 創業經營與企業管理國際認證
Meta 數位行銷原廠國際認證
PMI PMR 專案管理核心能力原廠國際認證
中華民國全國商業總會BMC認證
CertPREP GMetrix 雲端教學評量系統
Skill Test 線上模擬測驗系統
學習歷程對應代碼
校園軟體/教學設備
服務
圖書
考認認證
校園研習
線上目錄
聯絡我們
繳款方式
線上刷卡
校園購書
徵求作譯者
帳號註冊
修改姓名
下載電子證書
應考注意事項
合併帳號
數位徽章
預約考試
校園研習
線上目錄
聯絡我們
關於我們
關於我們
關於碁峯
服務團隊
歷史沿革
銷售資格
合作夥伴
全部
全部
圖書
認證
首頁
›
圖書
›
◀
▶
紙本書
電子書
網站擷取|使用Python 第二版
Web Scraping with Python, 2nd Edition
書號:
A552
作者:
Ryan Mitchell
譯者:
楊尊一
定價:
580
出版日:
2018/10/09
ISBN:
9789864769261
附件:
線上下載
內容特色
作者介紹
章節目錄
在現代網路蒐集資料
「本書涵蓋的工具與範例,讓我輕易把好幾個重複的工作自動化,騰出時間解決更多有趣的問題。這是本重視成果、內容從實務問題與解法出發,又能很快讀完的好書。」
— Eric VanWyk, 電子計算機工程師,麻州歐林工程學院
如果程式設計是魔術,那麼網站擷取當然是一種魔法。你可以撰寫簡單的自動化程式查詢網頁伺服器、請求資料、並解析所需的資訊。本書不只介紹網頁擷取,還包含擷取各種現代網站資料的詳盡指南。
本書第一部份專注於網站擷取機制:使用Python從網頁伺服器取得資料、執行伺服器回應的基本處理工作、以及與網站的自動化互動。第二部分探索適用於不同擷取場景的各種工具與應用程式。
‧解析複雜HTML網頁
‧以Scrapy架構開發爬行程序
‧學習爬行資料的儲存方式
‧從文件讀取與提煉資料
‧清理格式不良的資料
‧以自然語言讀寫
‧透過表單與登入的爬行
‧JavaScript與API爬行
‧使用影像文字識別軟體
‧避開爬行陷阱與機器人阻擋程序
‧使用爬行程序測試你的網站
下載勘誤資料
Ryan Mitchell 是波士頓HedgeServ的資深軟體工程師,為公司開發API與資料分析工具。她畢業於Olin College of Engineering,取得資工學位與Harvard University Extension School的認證。曾任職於Abine,以Python開發爬行程序與自動化工具。為零售、金融、醫療等產業提供網站擷取專案的顧問服務,並曾在Northeastern University與Olin College of Engineering擔任課程顧問和兼職教員。
前言
第一部 建構擷取程序
第一章 你的第一個擷取程序
第二章 進階HTML解析
第三章 撰寫網站爬行程序
第四章 網站爬行模型
第五章 Scrapy
第六章 儲存資料
第二部 儲存資料
第七章 讀取文件
第八章 清理髒資料
第九章 讀寫自然語言
第十章 表單與登入
第十一章 與擷取相關的JavaScript
第十二章 透過API 爬行
第十三章 影像處理與文字辨識
第十四章 避開擷取陷阱
第十五章 以爬行程序測試你的網站
第十六章 平行擷取網站
第十七章 遠端擷取
第十八章 網站擷取的法規與道德
索引
×
‹
›