Python網路文字探勘入門到上手:10堂基礎+5場實戰,搞定網路爬蟲、文本分析的淘金指南
類似書籍推薦給您
書名:Python網路文字探勘入門到上手:10堂基礎+5場實戰,搞定網路爬蟲、文本分析的淘金指南
作者:陳寬裕
出版社:五南
出版日期:2020/01/00
ISBN:9789577637000
內容簡介
文字探勘,離我們一點都不遙遠。
小至今天吃什麼,大至國際動態趨勢,
想知道風往哪吹熱度怎麼蹭,就是派它上場的時刻!
✦每位渴望突破的程式設計新手都應該閱讀的一本書✦
隨書附贈光碟:內含範例程式資料檔、習題解答程式檔。從做中學,效果加倍!
翻開程式工具書就頭昏眼花的症頭
✔口語化的親切教學,不怕你嫌生硬只怕你嫌囉嗦
埋頭學習卻經常找不到方向的迷航學子
✔範例導引式編排,附習題,示範編碼、驗收成果。
不甘於紙上談兵的實用主義者
✔豐富多元的探勘實作,PChome 24h、Google 學術、PTT八卦版
到達純文字極限,數位學習上癮的科技人
✔QRcode影音課程畫龍點睛,針對部份操作重點,加強吸收力度。
▶▶▶
大數據時代,網路的電子化文本恆河沙數,新聞、google、PTT、部落格、購物網、Facebook、Twitter,無一不是非結構化資料。偏偏在0和1的世界,要想馴服它們,就必須「轉換」為電腦可判讀的結構化資料。
這個「轉換」的過程,就是文字探勘的研究領域,具有高度商業價值。
本書給魚也給竿,帶領我們駕馭這項新興技術。
攜手踏入網路爬蟲的場域,無論你是——
●程式設計零基礎,想在網路進行資料探勘的初心者
●統計學一知半解,卻需要時刻關注最新動態的社群小編
●需要快速調查、統合資源的市調顧問、行銷企劃工作者
●正好缺乏質性文本分析數據的社會科學研究者
使用最新版本的Python3,易讀、易學且擴展性強的語法特點。
●從零開始,由安裝教起,快速習得10大基本技巧、萃取有用資訊。
●現學現賣,5大實戰演練,精進探勘能力:PChome 24h-商品資料、Google學術-論文資料、PTT 八卦版-PO文資料、誠品金石堂-書籍比價系統、PTT 政黑版-文字雲和長條圖。
▶▶▶
按部就班,嗅得先機。
你,也可以是全新領域的開拓者!
目錄
自 序
Chapter 01 Python 簡介
1-1 何謂程式設計
1-2 Python 程式設計的特點
1-3 選擇 Python 作為第一種程式語言的理由
1-4 安裝Python 與環境設定
1-5 安裝編輯器:Visual Studio Code
1-6 建置Anaconda 開發環境
Chapter 02 資料型態
2-1 Python 處理的資料類型
2-2 數值型態
2-3 字串型態
2-4 變數
2-5 數值和字串間型態的轉換
Chapter 03 流程控制
3-1 流程控制的構成要素
3-2 條件分岐
3-3 input 函式
3-4 條件運算式的組成
3-5 多向的條件分岐
Chapter 04 串列與迴圈
4-1 串列的意義與操作
4-2 for 迴圈
4-3 for 迴圈和if 敘述的組合運用
4-4 range() 函式
4-5 亂數的運用
4-6 break 及continue 命令
4-7 while 迴圈
4-8 進階串列操作
Chapter 05 元組、字典與集合
5-1 元組
5-2 字典
5-3 集合
Chapter 06 函式
6-1 函式的意義
6-2 函式的參數
6-3 函式與變數的作用範圍
Chapter 07 錯誤與例外
7-1 錯誤的型態
7-2 例外
7-3 例外處理
7-4 錯誤的種類
Chapter 08 網頁爬蟲的簡單範例
8-1 網頁爬蟲(Web Scraping)
8-2 網路爬蟲的執行步驟
8-3 向網路伺服器發送請求服務的訊息
8-4 解析網頁資訊
8-5 BeautifulSoup 的運用:於自由時報電子報網站進行爬蟲
Chapter 09 向伺服器發送請求的方式
9-1 網頁爬蟲的基本步驟
9-2 送出簡單的GET 請求
9-3 送出帶有參數的GET 請求
9-4 送出帶有參數的GET 請求至Ajax 網頁
9-5 送出帶有Cookie 的GET 請求
9-6 送出帶有Headers 的GET 請求
9-7 以form 形式發送POST 請求
9-8 送出帶有登入Cookie 的POST 請求
9-9 模擬登入
Chapter 10 萃取有用資訊
10-1 網頁萃取的工作內容
10-2 本章所使用的範例網頁
10-3 走訪DOM 文件樹
10-4 搜尋DOM 文件樹
10-5 CSS 選擇器
Chapter 11 爬取「PChome 24h 購物」的商品資料
11-1 PChome 24h 購物網站
11-2 確認標的網站的URL 網址
11-3 送出 HTTP 請求,取得頁面資料(JSON 格式)
11-4 解析結果頁面資料,獲取商品資訊
11-5 將商品詳細資料,存入Excel 檔案中
11-6 建立主程式
Chapter 12 爬取「Google 學術搜尋」的論文資料
12-1 確認標的網站的URL 網址
12-2 送出HTTP 請求,取得搜尋結果頁面資料
12-3 取得各分頁的連結url
12-4 解析分頁資料,獲取分頁內的論文資料
12-5 彙總所有分頁的論文資料
12-6 將論文詳細資料,存入Excel 檔案中
12-7 建立主程式
12-8 執行爬蟲程式
12-9 使用平行處理技術
12-10 有關爬取Google 學術搜尋的結語
Chapter 13 爬取「PTT 八卦版」的PO 文資料
13-1 確認標的網站的URL 網址
13-2 送出HTTP 請求,取得頁面資料
13-3 取得八卦版目前總頁數
13-4 取得各分頁的連結url
13-5 取得各分頁中的PO 文標題
13-6 彙總所有分頁的PO 文標題
13-7 取得每篇PO 文之發言內容
13-8 彙整所有PO 文的相關資訊
13-9 將PO 文的詳細資料,存入Excel 檔案中
13-10 建立主程式
Chapter 14 書籍比價爬蟲
14-1 確認標的網站的URL 網址
14-2 送出HTTP 請求,取得頁面資料
14-3 取得搜尋結果的總頁數
14-4 取得各分頁的連結
14-5 取得每本書的詳細資料
14-6 取得每本書於誠品、金石堂的價格
14-7 取得分頁中各書籍的其它基本資料與比價資料
14-8 彙整所有書籍資料
14-9 將書籍比價資料,存入Excel 檔案中
14-10 建立主程式
Chapter 15 製作文字雲
15-1 簡介
15-2 建立主程式
15-3 取得所有PO 文的發言內容
15-4 繪製文字雲
15-5 繪製長條圖
立即查看
數位審計-總帳智能資料分析與文字探勘應用實例演練(附試用教育版軟體90天使用權+教學演練資料) (1版)
類似書籍推薦給您
【簡介】
以資料分析為主題,運用JCAATs實務案例上機演練,讓審計更完整。
數位化時代,審計從業人員必須掌握最前沿的AI智能稽核技術,以便與國際標準接軌,降低偵查風險。國際審計準則(ISA)已明確提高會計師責任,要求更高的審計品質,隨著查核風險受重大不實表達風險及偵查風險的影響,智能資料分析技術成為不可或缺的工具。美國會計師公會 (AICPA) 發表《審計資料分析標準》 ( Audit Data Standards) 提供了一套透過資料分析技術來執行各種審計程序的有效指引。
本講義參考以上標準,以「總帳智能資料分析與文字探勘」為主題,提供完整的實例上機演練資料,經國際電腦稽核教育協會(ICAEA)認證,由國際專業稽核實務顧問群精心編寫,透過實務案例上機演練,指導學員學習最新的AI人工智慧審計軟體,內容總帳交易紀錄完整性分析、勾稽比對、Round Dollar化整為零、離群(Outlier)及文字探勘等進階技巧,幫助快速找出高風險總帳紀錄,協助會計師與審計人員熟悉數位化審計程序,提升審計品質與查核效率。學員可透過申請獲得JCAATs AI審計軟體試用教育版90天使用權,無論是會計師、審計人員、內部稽核還是大專院校的師生,本書皆是提升審計品質的必備工具,期待您的參與與交流。
【目錄】
1. 總帳作假事件回顧與案例分析
2. 國際審計準則公報加重會計師、內部稽核的財報舞弊查核責任
3. 會計總帳查核重點
4. 美國AICPA公會稽核資料標準- 總帳篇
5. 總帳查核各資料來源表關聯與審計資料倉儲建立實例
6. 數位審計好幫手-JCAATs AI審計軟體簡介
7. JCAATs指令實習:缺漏(GAP)、重複(DUPLICATE)、比對(JOIN)、離群(Outlier)、.mod()、日期函式等指令與函式應用
8. 文字探勘技術架構與實務應用
9. 總帳查核演練基礎篇:總帳交易紀錄完整性分析
實務案例上機演練一: 總帳資料缺漏測試
實務案例上機演練二: 總帳資料重複測試
10. 舞弊者常用的異常金額數值樣態
11. 總帳查核演練實務篇: 總帳記錄準確性、正確性和合規性查核
實務案例上機演練三:總帳金額Round Dollar(化整為零)分析
12. 實務案例上機演練四:離群分析於總帳金額查核應用
13. 實務案例上機演練五:總帳過帳異常日期或時間查核
14. 實務案例上機演練六:總帳科目異常查核(幽靈分錄)
15. 實務案例上機演練七:文字探勘於總帳查核應用
16. 總帳數位審計機器人(Audit Robotics)實例應用
原價:
1200
售價:
900
現省:
300元
立即查看
AI智能稽核-文字探勘於合約查核實例演練(附試用教育版軟體+教學演練資料)
類似書籍推薦給您
文字探勘技術(Text Mining)與自然語言處理(NLP)被美國麻省理工學院(MIT)評選為未來十大最重要的技術之一,傳統合約查核對法務或稽核人員來說是一項耗時且耗人力的工作。然而,隨著AI人工智慧技術的快速發展,AI合約審查機器人能夠提供智能審查,提升審查效率和效果,避免合約控制失效所帶來的停工或違約損失裁罰等重大營運風險。
本講義經國際電腦稽核教育協會(ICAEA)認證,由具備國際專業稽核實務顧問群精心編寫,檢附完整實例演練資料,並可申請取得AI稽核軟體JCAATs教育版,讓學員以實務案例上機操作,充分學習如何結合AI人工智慧文字探勘技術快速辨識PDF 文字、PDF 上表格資料或透過OCR(光學字元辨識)對PNG 等圖檔格式進行文字辨識相關的合約文字。
JCAATs 為Python-Based AI新世代的通用稽核軟體,具有更多的AI人工智慧功能包含機器學習、文字探勘及OEPN DATA連結器等,讓稽核工具的使用從傳統的大數據資料分析,升級到AI人工智慧新稽核。歡迎法遵、會計師、內稽、各階管理人員、大專院校師生等有興趣的專業人士,加入智能稽核(Smart Audit)行列共同交流與學習。
◎代理經銷 白象文化
原價:
1200
售價:
900
現省:
300元
立即查看
R語言資料分析 : 從機器學習、資料探勘、文字探勘到巨量資料分析 (3版)
類似書籍推薦給您
立即查看
文本探勘:小技術大應用(附範例光碟)
類似書籍推薦給您
內容簡介
動輒十萬字、甚至數十萬字的小說,其中人物錯綜複雜的關係、心境轉折與環境的變遷;廣大的網路訊息與文件,其中有多少潛藏的訊息等待我們發掘。文本探勘,就是要在大量文字中萃取出我們所需要的資訊。
本書之撰寫,是針對完全不具備R語言能力之初學者為主要對象,以手把手的方式進行教學,讀者只要跟隨書本的章節和範例,一步一步地練習,相信必能在最短的時間內學會文本探勘的基本技術,並應用在自身所屬的領域上。包括語料庫的建立與相關套件的使用;利用文本探勘對中、英文小說進行各種分析;以及利用文本探勘進行網路爬蟲。全書由淺入深、按部就班地指導讀者學會文本探勘技術,進而能從各類非結構化的文字當中擷取有用的資訊,以做為後續進行下決定(decision-making)或形成政策(policy-making)之用。
本書特色
1. 利用R語言的文本探勘能力做中、英文小說的情感分析。
2. 利用R語言進行網路爬蟲,在非結構化的文字中擷取資訊。
3. 學習上列的技術後,能從各類非結構化的文字中擷取有用的資訊,以利未來決定與決策之用。
目錄
Chapter 1 - R語言的下載與安裝
1.1 R語言
1.2 RStudio
1.3 R語言的套件
Chapter 2 - 學習文字探勘前的R基礎
2.1 變數
2.2 資料型態與資料結構
2.3 缺失值
2.4 管線運算子
2.5 正規表達式(Regular expression)
2.6 基本字符串函數
2.7 stringr套件
2.8 資料的讀取與匯出
2.9 建立R函數
2.10 條件執行
2.11 迴圈
2.12 apply相關函數
Chapter 3 - 文本探勘
3.1 文字探勘的基本概念
3.2 套件介紹
3.3 英文語料庫
3.4 中文語料庫
Chapter 4 - 中、英文小說
4.1 套件介紹
4.2 認識Gutenberg Project
4.3 tidy文本格式
4.4 情感詞庫
4.5 英文小說分析 - Little Women
4.6 英文小說 - n元語法
4.7 中文小說分析 - 三國演義
Chapter 5 - 網路爬蟲與文字探勘
5.1 網路爬蟲介紹
5.2 靜態擷取網頁
5.3 動態擷取網頁
立即查看