< >
從事資料科學方面的工作時,活用各種相關函式庫、軟體框架、模組、工具包是很好的做法,但如果原本完全不懂資料科學,從頭開始也是一種不錯的做法。本書將採取土法煉鋼從頭學起的方式,帶領讀者認識與資料科學相關的許多工具與演算法。你只要具備基本的數學能力,以及程式設計的基礎,本書就可以幫你在遇到相關的數學與統計知識時,不至於感到害怕,而且還能讓你學會一個資料科學家所需具備的相關駭客技術。如今到處充斥著各種雜亂的數據資料,其中包含許多問題的解答,但也有很多微妙之處,甚至連問題本身都還沒被提出來過。如果你真心想要挖掘問題的解答,本書將可以提供你一些相關的知識。.首先來一堂Python速成班.學習線性代數、統計、機率的基礎知識——並學會何時、如何在資料科學領域中靈活運用這些知識.搜集、探索、清理、轉換、處理各種數據資料.深入理解機器學習的基礎.靈活運用像是k最近鄰、單純貝氏、線性與邏輯迴歸、決策樹、神經網路、集群等種種模型.探討推薦系統、自然語言處理、網路分析、MapReduce與資料庫的相關知識「Joel帶領我們領略探索資料科學,讓我們從一般的好奇心,進入到更深入的理解,並學會所有資料科學家都應該知道的各種實用演算法。」——Rohit Sivaprasad, Soylent公司資料科學家v「推薦本書給想要跨入機器學習領域的工程師,這是一本幫你奠定基礎的最佳選擇」。——Tom Marthaler, 工程師「將資料科學的概念轉化為程式非常困難。這本書把它變簡單了。」——William Cox, Grubhub機器學習工程師
Joel Grus是一位目前任職於Google的一位軟體工程師,之前也曾在幾家新創公司擔任過資料科學家的工作。目前住在西雅圖,愉快地從事著資料科學方面的工作。他會不定期進行更新部落格joelgrus.com,推特帳號是@joelgrus。
有人説:資料科學家是「21世紀最性感的職業」,我猜那些人恐怕沒去過消防隊吧!話雖如此,但資料科學確實是個備受關注、而且還在不斷成長的領域;我們三不五時就能看到許多分析師大聲疾呼,宣稱目前資料科學家的人數遠遠不足,未來10年我們對資料科學家的需求勢必有增無減。但是,資料科學究竟是什麼呢?畢竟,我們如果連資料科學是什麼都搞不清楚,就沒辦法製造出更多資料科學家了。如果用維恩圖(Venn diagram,這東西在我們這行也算是小有名氣)來說明的話,資料科學其實跟駭客的技術能力、數學統計的知識、札實的專業素養都有關係。我本來想寫一本書來涵蓋這三個主題,但我很快就意識到,光是「札實的專業素養」,就可以寫出上萬頁的內容。因此,我決定只把重點放在前兩項就好。我的目標是幫助您發展出一些駭客技術能力,讓你可以真正開始從事一些資料科學相關的工作。另一個目標則是,讓你面對相關的數學和統計時(這些全都是資料科學的核心),能感到十分自在。這就是本書有點沉重的願望。如果想學好駭客技術,最好的方法還是設法去找個東西來駭一下。閱讀本書之後,你就會瞭解我駭東西的做法,不過對你來說,我的做法倒不一定是最好的做法。另外,你也會對我所使用的工具有相當多的了解,但對你而言那些工具也不一定是最好用的工具。你還會相當熟悉我處理數據問題的做法,而你自己在解決數據問題時,那同樣不見得是最好的做法。我的目的(和期待),就是希望我的例子能激發你,用你自己的方式去嘗試。本書所有程式碼和數據資料,全都可以在GitHub上取得,希望你能有個好的開始。
第1章 簡介第2章 Python速成班第3章 數據視覺化第4章 線性代數第5章 統計學第6章 機率第7章 假設與推論第8章 梯度遞減第9章 取得數據資料第10章 處理數據資料第11章 機器學習第12章 k最近鄰第13章 單純貝氏第14章 簡單線性迴歸第15章 多元迴歸第16章 邏輯迴歸第17章 決策樹第18章 神經網路第19章 集群第20章 自然語言處理第21章 網路分析第22章 推薦系統第23章 資料庫與SQL第24章 MapReduce第25章 勇往直前,資料科學做就對了
資料智慧化:利用資料科學,將資訊化為創見 資料科學的商業運用 Python資料科學學習手冊
購買紙本書