庫存狀況
「香港二樓書店」讓您 愛上二樓●愛上書
我的購物車 加入會員 會員中心 常見問題 首頁
「香港二樓書店」邁向第一華人書店
登入 客戶評價 whatsapp 常見問題 加入會員 會員專區 現貨書籍 現貨書籍 購物流程 運費計算 我的購物車 聯絡我們 返回首頁
香港二樓書店 > 今日好書推介
二樓書籍分類
 
Python網路文字探勘入門到上手:10堂基礎+5場實戰,搞定網路爬蟲、文本分析的淘金指南

Python網路文字探勘入門到上手:10堂基礎+5場實戰,搞定網路爬蟲、文本分析的淘金指南

沒有庫存
訂購需時10-14天
9789577637000
陳寬裕
五南
2020年1月25日
150.00  元
HK$ 142.5  






ISBN:9789577637000
  • 規格:平裝 / 372頁 / 17 x 23 x 1.86 cm / 普通級 / 單色印刷 / 初版
  • 出版地:台灣


  • 電腦資訊 > 程式設計 > SQL











      文字探勘,離我們一點都不遙遠。

      小至今天吃什麼,大至國際動態趨勢,

      想知道風往哪吹熱度怎麼蹭,就是派它上場的時刻!



      ?每位渴望突破的程式設計新手都應該閱讀的一本書?

      隨書附贈光碟:內含範例程式資料檔、習題解答程式檔。從做中學,效果加倍!



      翻開程式工具書就頭昏眼花的症頭

      ?口語化的親切教學,不怕你嫌生硬只怕你嫌囉嗦



      埋頭學習卻經常找不到方向的迷航學子

      ?範例導引式編排,附習題,示範編碼、驗收成果。



      不甘於紙上談兵的實用主義者

      ?豐富多元的探勘實作,PChome 24h、Google 學術、PTT八卦版



      到達純文字極限,數位學習上癮的科技人

      ?QRcode影音課程畫龍點睛,針對部份操作重點,加強吸收力度。



      ???



      大數據時代,網路的電子化文本恆河沙數,新聞、google、PTT、部落格、購物網、Facebook、Twitter,無一不是非結構化資料。偏偏在0和1的世界,要想馴服它們,就必須「轉換」為電腦可判讀的結構化資料。



      這個「轉換」的過程,就是文字探勘的研究領域,具有高度商業價值。

      本書給魚也給竿,帶領我們駕馭這項新興技術。



      攜手踏入網路爬蟲的場域,無論你是——

      ●程式設計零基礎,想在網路進行資料探勘的初心者

      ●統計學一知半解,卻需要時刻關注最新動態的社群小編

      ●需要快速調查、統合資源的市調顧問、行銷企劃工作者

      ●正好缺乏質性文本分析數據的社會科學研究者



      使用最新版本的Python3,易讀、易學且擴展性強的語法特點。

      ●從零開始,由安裝教起,快速習得10大基本技巧、萃取有用資訊。

      ●現學現賣,5大實戰演練,精進探勘能力:PChome 24h-商品資料、Google學術-論文資料、PTT 八卦版-PO文資料、誠品金石堂-書籍比價系統、PTT 政黑版-文字雲和長條圖。



      ???



      按部就班,嗅得先機。

      你,也可以是全新領域的開拓者!

    ?


     





    自 序



    Chapter 01 Python 簡介


    1-1 何謂程式設計

    1-2 Python 程式設計的特點

    1-3 選擇 Python 作為第一種程式語言的理由

    1-4 安裝Python 與環境設定

    1-5 安裝編輯器:Visual Studio Code

    1-6 建置Anaconda 開發環境



    Chapter 02 資料型態

    2-1 Python 處理的資料類型

    2-2 數值型態

    2-3 字串型態

    2-4 變數

    2-5 數值和字串間型態的轉換



    Chapter 03 流程控制

    3-1 流程控制的構成要素

    3-2 條件分岐

    3-3 input 函式

    3-4 條件運算式的組成

    3-5 多向的條件分岐



    Chapter 04 串列與迴圈

    4-1 串列的意義與操作

    4-2 for 迴圈

    4-3 for 迴圈和if 敘述的組合運用

    4-4 range() 函式

    4-5 亂數的運用

    4-6 break 及continue 命令

    4-7 while 迴圈

    4-8 進階串列操作



    Chapter 05 元組、字典與集合

    5-1 元組

    5-2 字典

    5-3 集合



    Chapter 06 函式

    6-1 函式的意義

    6-2 函式的參數

    6-3 函式與變數的作用範圍



    Chapter 07 錯誤與例外

    7-1 錯誤的型態

    7-2 例外

    7-3 例外處理

    7-4 錯誤的種類



    Chapter 08 網頁爬蟲的簡單範例

    8-1 網頁爬蟲(Web Scraping)

    8-2 網路爬蟲的執行步驟

    8-3 向網路伺服器發送請求服務的訊息

    8-4 解析網頁資訊

    8-5 BeautifulSoup 的運用:於自由時報電子報網站進行爬蟲



    Chapter 09 向伺服器發送請求的方式

    9-1 網頁爬蟲的基本步驟

    9-2 送出簡單的GET 請求

    9-3 送出帶有參數的GET 請求

    9-4 送出帶有參數的GET 請求至Ajax 網頁

    9-5 送出帶有Cookie 的GET 請求

    9-6 送出帶有Headers 的GET 請求

    9-7 以form 形式發送POST 請求

    9-8 送出帶有登入Cookie 的POST 請求

    9-9 模擬登入



    Chapter 10 萃取有用資訊

    10-1 網頁萃取的工作內容

    10-2 本章所使用的範例網頁

    10-3 走訪DOM 文件樹

    10-4 搜尋DOM 文件樹

    10-5 CSS 選擇器



    Chapter 11 爬取「PChome 24h 購物」的商品資料

    11-1 PChome 24h 購物網站

    11-2 確認標的網站的URL 網址

    11-3 送出 HTTP 請求,取得頁面資料(JSON 格式)

    11-4 解析結果頁面資料,獲取商品資訊

    11-5 將商品詳細資料,存入Excel 檔案中

    11-6 建立主程式



    Chapter 12 爬取「Google 學術搜尋」的論文資料

    12-1 確認標的網站的URL 網址

    12-2 送出HTTP 請求,取得搜尋結果頁面資料

    12-3 取得各分頁的連結url

    12-4 解析分頁資料,獲取分頁內的論文資料

    12-5 彙總所有分頁的論文資料

    12-6 將論文詳細資料,存入Excel 檔案中

    12-7 建立主程式

    12-8 執行爬蟲程式

    12-9 使用平行處理技術

    12-10 有關爬取Google 學術搜尋的結語



    Chapter 13 爬取「PTT 八卦版」的PO 文資料

    13-1 確認標的網站的URL 網址

    13-2 送出HTTP 請求,取得頁面資料

    13-3 取得八卦版目前總頁數

    13-4 取得各分頁的連結url

    13-5 取得各分頁中的PO 文標題

    13-6 彙總所有分頁的PO 文標題

    13-7 取得每篇PO 文之發言內容

    13-8 彙整所有PO 文的相關資訊

    13-9 將PO 文的詳細資料,存入Excel 檔案中

    13-10 建立主程式



    Chapter 14 書籍比價爬蟲

    14-1 確認標的網站的URL 網址

    14-2 送出HTTP 請求,取得頁面資料

    14-3 取得搜尋結果的總頁數

    14-4 取得各分頁的連結

    14-5 取得每本書的詳細資料

    14-6 取得每本書於誠品、金石堂的價格

    14-7 取得分頁中各書籍的其它基本資料與比價資料

    14-8 彙整所有書籍資料

    14-9 將書籍比價資料,存入Excel 檔案中

    14-10 建立主程式



    Chapter 15 製作文字雲

    15-1 簡介

    15-2 建立主程式

    15-3 取得所有PO 文的發言內容

    15-4 繪製文字雲

    15-5 繪製長條圖



    ?









      本書將要來介紹 Python 這一套功能強大、直譯式並且屬於物件導向的高階程式語言。你或許聽過,或許沒聽過,但現在可藉由來認識它了。



      Python 程式語言特別強調其簡潔與清晰的語法特點,它易讀、易懂、易學。此外,於程式開發的效率性、解決各種難度的應用上,亦相當優越,並可在大多數的系統中運行,以減少開發及維護的成本。Python 同時亦支援modules 和 packages 的應用概念,使其擴展性更為精進。這種功能強大而完善的通用型語言,可適用於開發各類的應用程式,至使 Python 吸引了許多程式設計師的目光,雖然至今僅有十多年的歷史,但深受應用程式開發者的喜愛。



      本書適合於沒有程式設計基礎,但想於網路進行資料探勘者。課程安排上由潛入深、循序漸進。在第1 章至第7 章先行介紹Python程式語言的基本語法與編寫程式基本技巧,包含資料基本型態、流程控制、串列與迴圈、元組、字典與集合、錯誤與例外處理等內容。第8 章至第10 章則介紹網路爬蟲的意義與於網路上進行資料探勘的基本技巧。第11 章至第15 章則連續以五個實際的網路資料探勘範例引導讀者精進實作的能力,其內容包含爬取PChome 24h購物的商品資料、Google 學術搜尋的論文資料、PTT 八卦版的PO文資料、開發網路書籍比價系統與製作文字雲。



      另外,本書亦適合於大專院校初級的程式設計課程,於第1 章至第7 章的Python 程式語言的基本語法與編寫程式基本技巧中,每一章皆附有範例供讀者練習或教師驗收學習成果。本書得以順利出版,首先感謝五南圖書公司的鼎力支持與協助,還有對我容忍有加的家人以及默默協助我的同事、學生。由於編寫時間倉促、後學水準亦有限,書中內容或有誤謬之處,在所難免。在此先向諸位先進與讀者致上十二萬分的歉意,並盼各方賢達能以正面思考之方式,提供後學補遺、改進之契機。

    ?
    陳寬裕




    其 他 著 作
    1. 論文統計分析實務:JASP的運用
    2. 論文統計分析實務:SPSS與SmartPLS的運用(5版)
    3. 結構方程模型:運用AMOS分析(2版)
    4. 論文統計完全攻略:統計小白也能變達人
    5. 論文統計分析實務:SPSS與AMOS的運用(4版)
    6. 結構方程模型分析實務:SPSS與SmartPLS的運用
    7. 結構方程模型:運用AMOS分析
    8. 應用統計分析:SPSS的運用
    9. 結構方程模型分析實務:AMOS的運用
    10. 論文統計分析實務:SPSS與AMOS的運用(附光碟)(2版)