一次活用Python和Apache Spark,帶你精通機器學習及資料科學!
★提供資料科學必備的資料分析工具和技術
★在Python中訓練出高效能機器學習模型
★為你的商品打造出強而有力的推薦系統
★靈活運用Apache Spark進行大數據處理工作
作者Frank Kane曾在亞馬遜和IMDb等知名企業工作,從事機器學習演算法工作。在踏入資料科學的世界中,本書將提供你探索資料科學的核心領域所需的工具,以及各種動手做練習和信心建議,讓你打造自己的機器學習模型。透過簡單易懂的實作範例及大量的圖文解說,你將學會K-Means集群、貝氏方法、預測模型、推薦系統、Apache Spark、實驗設計等核心主題。
本書涵蓋了全面且詳盡的資料科學內容,首先帶你快速認識Python語言、基礎統計學和機率概念,接著深入討論資料探勘、機器學習相關等60多個主題。我們將用真實使用者的影評分數資料開發出一套電影推薦系統,並建立一個可實際運作的維基百科資料搜尋引擎。此外,我們還將建立一個垃圾郵件分類器,它可以將電子郵件帳戶中的垃圾郵件和正常郵件進行正確分類。此外,本書還有一個章節專門介紹如何將這個分類器擴展到使用Apache Spark的大數據叢集系統上。
讀完本書後,你將能活用各種Python中的資料探勘和資料分析技術,找出資料中的價值,並開發出優質的預測模型,讓你能預測未來的結果。另外,你還能靈活運用Apache Spark,針對大數據執行大規模機器學習。認識資料科學工作並非難事,從分析資料前的資料準備工作、訓練機器學習模型,到最終的資料分析結果視覺化……你都將一次精通!
在這本書中,你將學到:
• 清理和準備資料,讓資料能用於分析
• 用Python實作熱門的集群和迴歸方法
• 利用決策樹和隨機森林訓練高效率的機器學習模型
• 使用Python Matplotlib程式庫對分析結果進行視覺化
• 使用Apache Spark的MLlib在大型資料集上進行機器學習
適用讀者:
• 剛入行的新手資料科學家
• 想用Python對資料進行分析、獲得實用資訊的資料分析師
• 有Python程式設計經驗、想進入資料科學領域的程式設計師
讀者可以到博碩文化官網輸入書號或書名,下載「練習題參考解答」。