前言【第一部分 資料科學生命週期】第一章 資料科學生命週期 生命週期的各個階段 生命週期的範例 總結第二章 問題與資料範疇 大數據與新機會 研究母體、抽樣架構與樣本 儀器與操作程序 自然現象的量測 準確度 總結第三章 模擬與資料設計 抽籤模型 範例:模擬選舉民調的偏誤與變異性 範例:模擬疫苗的隨機試驗 範例:空氣品質測量 總結第四章 以摘要統計量建構模型 常數模型 最小化損失 總結第五章 個案研究:為什麼我的公車總是拖班? 問題與範疇 資料整理 探索公車時間 建立等車時間模型 總結【第二部分】 矩形資料第六章 使用pandas操作資料框架 子集合選取(Subsetting) 匯總 合併 轉換 資料框架與其他資料表達法有何不同? 總結第七章 使用SQL操作關係 子集合選取(Subsetting) 匯總 合併 轉換與共通表格運算式 總結【第三部分】 理解資料第八章 整理檔案 資料來源範例 檔案格式 檔案編碼 檔案大小 殼層與命令行工具 表格形狀與粒度 總結第九章 整理資料框架 範例:整理冒納羅亞觀測站的CO2測量資料 品質檢查 缺漏的值與紀錄 轉換與時間戳記 修改結構 範例:處理餐廳安全違規資料 總結第十章 探索性資料分析 特徵類型 觀察分布的重點 在關係中應注意的事項 多變數情境下的比較 探索準則 範例:房屋售價 總結第十一章 資料視覺化 選擇合適的刻度以揭示結構 資料的平滑化與匯總 促進有意義的比較 融入資料設計 加入情境資訊 使用plotly繪製圖表 其他視覺化工具 總結第十二章 案例研究:空氣品質測量有多準確? 問題、設計與範疇 尋找共址感測器 整理與清洗 AQS感測器資料 整理PurpleAir感測器資料 探索PurpleAir與AQS測量值 建立校準PurpleAir測量值之模型 總結【第四部分】 其他資料來源第十三章 處理文字資料 文字與任務的範例 字串處理 正規表達式 文字分析 總結第十四章 資料交換 NetCDF資料 JSON資料 HTTP REST XML、HTML與XPath 總結【第五部分】 線性建模第十五章 線性模型 簡單線性模型 範例:空氣品質的簡單線性模型 擬合簡單線性模型 多元線性模型 擬合多元線性模型 範例:哪裡是機會之地? 數值型測量值之特徵工程 類別型測量值的特徵工程 總結 第十六章 模型選擇 過度擬合 訓練-測試切分 交叉驗證 正則化 模型偏誤與變異性 總結第十七章 推論與預測的理論基礎 分布:母體、經驗、抽樣 假設檢定的基本概念 以自助法推論 信賴區間的基本概念 預測區間的基本概念 用於推論與預測的機率理論 總結第十八章 案例研究:如何幫驢子秤體重? 驢子研究的問題與範圍 資料整理與轉換 探索 建立驢子體重的模型 總結【第六部分】 分類第十九章 分類 範例:風災倒木 建模與分類 對比例(與機率)建模 邏輯斯模型的損失函數 從機率到分類 總結第二十章 數值最佳化 梯度下降法基礎 最小化Huber損失 凸形且可微分的損失函數 梯度下降法的變體 總結第二十一章 個案研究:偵測假新聞 問題與範疇 取得與整理資料 探索資料 建模 總結 延伸資料資料來源索引
Python資料科學學習手冊 第二版 資料科學:困難部分 架構資料與機器學習平台|雲端啟動分析與AI驅動的創新