< >
完整的大數據概論大數據是無所不包的名詞,它代表無法使用傳統資料管理工具來管理十分大量、快速、且高度多樣又複雜的資料。理想上大數據包含了所有資料類型,可用來協助我們在正確的時間,以正確的數量,傳達正確的資訊給適當的人,最終協助人們做出正確決策。本書將為管理階層與資料科學家提供完整的大數據概論。涵蓋大數據的關鍵挑戰與優點,以及組織所需的必備工具與技術,還有能從大數據獲得的好處。本書涵蓋內容包括:.大數據的商業應用.頂尖組織如何應用大數據.大數據的生態系統.大數據的應用、入門與教學
Anil Maheshwari博士是瑪赫西管理大學的電腦科學與資訊系統教授以及資料分析中心總監。他在IBM Austin TX扮演領導角色,並且任職於許多其他公司,包括新創公司。他同時也是一位超覺靜坐技術的執業者。個人網站:anilmah.com
大數據是一種新穎、包羅萬象、如大自然一般廣大又雜亂的自然現象。想要搞懂它的規模與範疇及其機會和挑戰,需要新型的意識。而想要了解大數據的概念,則需要抑制許多關於資料上的傳統期望與假設,像是完整性、清晰度、一致性、以及簡潔性。對大數據的理解與掌握已從夢想慢慢轉變為現實,它是一個快速演化的領域,不論在值價與能力上皆呈指數型成長。關於大數據的書籍愈來愈多,大部分都屬於兩種類型,有些著重在商業觀點,討論若想從大數據提供的諸多機會中獲得商業利益,需要什麼樣的策略性內部轉移。另一種則是著重在特定技術平台,例如Hadoop或Spark。而本書的目標則是將商業考量與技術完美地整合在一起。感謝Maharishi Mahesh Yogi創辦了這所美好的大學,其以意識為基礎的環境,讓撰寫這本持續演進的書得以成真。感謝許多過去與當前學生對本書的貢獻。感謝Dheeraj Pandey協助「網路日誌分析器」應用程式與其細節,Suraj Thapalia協助Hadoop的安裝指導,Enkh Tseeleesuren協助撰寫Spark教學。感謝我的家人在此過程中的支持,本書亦得到許多同事與學生的讚許。願大數據原力與您同在!
第1章|大數據整體介紹第2章|大數據來源與應用第3章|大數據架構第4章|使用 Hadoop 進行分散式運算第5章|運用 MapReduce 進行平行處理第6章|NoSQL 資料庫第7章|運用 Spark 進行串流處理第8章|提取資料第9章|雲端運算第10章|網路日誌分析器應用程式個案研究第11章|資料探勘入門第12章|大數據程式設計入門附錄 A|在 Virtual Box 上使用 Cloudera 安裝 Hadoop附錄 B|在 Amazon Web Services (AWS) Elastic Compute Cluster (EC2) 上安裝 Hadoop附錄 C|Spark 安裝與教學
認識資料科學的第一本書 白話大數據與機器學習 網路+大數據:精準行銷的利器
購買紙本書