| 書名: | Python 資料科學實戰教本 - 爬蟲、清理、資料庫、視覺化、探索式分析、機器學習建模,數據工程一次搞定! (1版) | |||
| 作者: | 陳會安 | |||
| 版次: | 1 | |||
| ISBN: | 9789863127246 | |||
| 出版社: | 新月 | |||
| 書籍開數、尺寸: | 17x23x2.8 | |||
| 頁數: | 616 | |||
| 內文印刷顏色: | 單色 | |||
|
#資訊
#資訊科學與資訊系統 #編程與軟體開發 #雲端計算與大數據 #Python |
||||
Python 資料科學實戰教本 - 爬蟲、清理、資料庫、視覺化、探索式分析、機器學習建模,數據工程一次搞定! ISBN13:9789863127246 出版社:旗標出版社 作者:陳會安 裝訂/頁數:平裝/616頁 規格:23cm*17cm*2.8cm (高/寬/厚) 重量:946克 出版日:2022/08/22 中國圖書分類:電腦科學 內容簡介 【題材涵蓋最全面!一本書掌握資料科學 / 數據工程必學 know-how!】 從大數據到人工智慧世代,其背後蘊含的關鍵技術與理論不脫資料科學、機器學習的範疇。基本上,資料科學需要的背景知識與技能相當的多,通常要會 Python 程式設計基礎、熟悉相關 Python 套件和模組的使用;再加上機器學習的基礎就是機率和統計,因此也免不了得學機率和統計知識,可說有一拖拉庫的主題等著你去學,也難怪市面上各主題 (程式基礎、統計、套件、機器學習建模...) 的專書滿坑滿谷,一時間實在讓人難以消化... 為了降低讀者初學資料科學面對的負擔以及混亂感,我們精心設計了這本入門實戰教本,秉持讓讀者「買一本抵多本」的精神,本書一次涵蓋所有入門必須熟悉的重要題材,同時也將初學資料科學的脈絡梳理清楚。 在章節的安排上,本書從資料取得的網路爬蟲開始,提供一個標準 SOP 來幫助讀者從網路取得資料;接著說明資料科學必學的 Python 重量級套件,再接著介紹機率、統計和探索式資料分析的基礎知識,最後進入最熱門的機器學習、深度學習建模主題。 這一連串「取得資料 → 探索資料 → 預測分析」是一套完整的資料科學 / 數據工程實戰訓練,跟著本書掌握這些重要 know-how 後,就不難看懂網路上眾多資料科學、機器學習專案的 Python 程式碼和線上教材,甚至參與資料科學、機器學習的網路競賽;希望本書能協助讀者開啟資料科學家 / 數據工程師的成功之路! 本書特色 □ 資料科學三部曲:取得資料 → 探索資料 → 預測分析 □ 一次補足最入門的統計和機率基礎 □ Python 開發環境與基礎語法快速上手 □ 從網頁爬蟲、資料清理到資料視覺化,快速完成資料探索的預處理程序 □ 將清理後的資料存入 SQL 資料庫,便於日後存取利用 □ 實踐資料科學的四大套件:NumPy、Pandas、Matplotlib、Seaborn 一次掌握 □ 用 Scikit-learn、tensorflow.Keras 套件實作最熱門的 AI 機器學習應用 目錄 第一篇 資料科學和 Python 基礎 第 1 章 資料科學概論與開發環境建立 – Anaconda 第 2 章 Python 程式語言 第二篇 網路爬蟲和 Open Data (取得、清理與儲存資料) 第 3 章 取得網路資料 第 4 章 資料擷取 第 5 章 資料清理與資料儲存 第 6 章 網路爬蟲實作案例 第三篇 Python資料科學套件 – 探索資料(資料視覺化與大數據分析) 第 7 章 向量與矩陣運算 – NumPy 套件 第 8 章 資料處理與分析 – Pandas 套件 第 9 章 大數據分析 (一) – Matplotlib 和 Pandas 資料視覺化 第 10 章 大數據分析 (二) – Seaborn 統計資料視覺化 第 11 章 機率與統計 第 12 章 估計與檢定 第 13 章 探索性資料分析實作案例 第四篇 人工智慧、機器學習與深度學習 – 預測資料 第 14 章 人工智慧與機器學習概論 – 認識深度學習 第 15 章 機器學習演算法實作案例 – 迴歸 第 16 章 機器學習演算法實作案例 – 分類與分群 第 17 章 深度學習神經網路實作案例 附錄 A:HTML 網頁結構與 CSS 附錄 B:Python 文字檔案存取與字串處理 附錄 C:下載與安裝 MongoDB 和 MySQL 資料庫
還沒有人留下心得,快來搶頭香!
為您推薦
其他會員也一起購買
內容特色 ★完整說明資料庫設計與開發人員應具備的觀念和技能,幫助你精通MySQL/MariaDB資料庫的使用與SQL程式設計! ★介紹如何使用ChatGPT輔助學習MySQL/MariaDB資料庫程式設計與開發。 .本書以資料庫設計與開發人員角度來切入MySQL/MariaDB資料庫程式設計與開發,完整說明資料庫系統相關原理、資料庫設計實務與SQL語言,能夠訓練和提昇讀者擁有足夠的技術能力來自行設計與建立資料庫應用程式。 .內容適用Oracle的MySQL與開放原始碼的MariaDB資料庫系統,是一本為有志成為資料庫設計與開發人員的讀者、或學校資料庫設計相關課程所規劃的實務教材和訓練指南。 .完美結合資料庫理論與設計實務,除了使用大量圖形和範例來說明資料庫系統理論、實體關聯模型和正規化外,更以實例說明資料庫設計,讀者不只可以實際在資料庫設計工具繪製專案的實體關聯圖,更可以將設計成果建立成MySQL/MariaDB資料庫,來驗證實體關聯模型的資料庫設計理論。 .詳細且完整說明SQL語言的語法、預存程序、函數、觸發程序、資料指標和交易處理,可以幫助讀者精通MySQL/MariaDB的SQL程式設計。 .實際說明如何使用Python建立資料庫用戶端程式和PHP語言架設Web網站。 .詳細介紹如何使用ChatGPT幫助讀者學習MySQL/MariaDB資料庫程式設計與開發。 章節目錄 Part1:資料庫理論與MySQL/MariaDB的基礎 第1章 資料庫系統 第2章 關聯式資料庫模型 第3章 實體關聯模型與正規化 第4章 MySQL/MariaDB資料庫管理系統 Part2:建立MySQL/MariaDB資料庫與資料表 第5章 資料庫設計工具的使用 第6章 SQL語言與資料庫建置 第7章 建立資料表與完整性限制條件 Part3:SQL語言的DML指令 第8章 SELECT敘述的基本查詢 第9章 SELECT敘述的進階查詢 第10章 新增、更新與刪除資料 Part4:MySQL/MariaDB檢視表與索引 第11章 檢視表的建立 第12章 規劃與建立索引 Part5:ChatGPT × MySQL/MariaDB 程式設計與用戶端程式開發 第13章 MySQL/MariaDB 的SQL 程式設計 第14章 預存程序、函數與觸發程序 第15章 資料指標、參數化查詢與交易處理 第16章 MySQL/MariaDB 用戶端程式開發–使用Python 與PHP 語言 第17章 使用ChatGPT 學習MySQL、寫出SQL 指令敘述與建立資料庫程式 附錄A:MySQL內建函數和JSON欄位處理(電子書) 附錄B:安裝與使用MariaDB資料庫管理系統(電子書)
類似書籍推薦給您
Python資料科學自學聖經:不只是建模!用實戰帶你預測趨勢、找出問題與發現價值(附關鍵影音教學、範例檔) 系列名:程式設計 ISBN13:9786263241657 出版社:碁峰資訊 作者:鄧文淵-總監製;文淵閣工作室-編著 裝訂/頁數:平裝/440頁 規格:23cm*17cm*2cm (高/寬/厚) 出版日:2022/05/09 中國圖書分類:電腦程式語言 內容簡介 網路書店年度百大電腦資訊暢銷書 《Python自學聖經》系列力作 運用Python掌握資料科學的價值 讓人工智慧機器學習找出趨勢的關鍵密碼 完整涵蓋Python資料科學技術,從開發工具、資料預處理、 機器學習、深度學習到模型訓練進化一應俱全! 給需要本書的人: ★想進入Python資料科學領域,又不知怎麼切入的人 ★面對資料科學龐大又雜亂的理論與資訊卻不知如何下手的人 ★想快速且有系統收集大量資料,並提高處理運用效率的人 ★想利用大量資料進行分析,找出隱藏訊息與趨勢以協助決策的人 ★想運用資料數據訓練人工智慧模型,開發適用的演算法進行預測與解決問題的人 隨著AI人工智慧帶來的科技革命,資料科學的應用正在改變你我的生活。如何由龐大的資料數據中擷取爬梳出有價值的資訊,判斷決策,甚至能預測趨勢、掌握契機,是資料科學為現代社會帶來的新視野。 資料科學橫跨多個領域,涵蓋數學、統計與電腦科學等面向。如果想有系統的進入資料科學領域,歡迎藉由本書循序漸進的學習。書中除了有資料科學的觀念,還有技術應用與發展方向,讓每個艱澀觀念都能在範例實作的引導下有著更清楚的輪廓,讓你一探資料科學迷人的樣貌。 【重要關鍵】 ■應用工具:雲端開發平台(Google Colab)、資料科學工具(Numpy、Pandas、Matplotlib、Seaborn)、網路爬蟲(requests、BeautifulSoup)。 ■資料預處理:資料清洗、缺失值、重複值及異常值的處理、資料檢查、資料合併、樞紐分析表、圖片增量,以及資料標準化、資料轉換與特徵選擇。 ■機器學習:學習工具(Scikit-Learn)、非監督式學習(K-means演算法、DBSCAN演算法、PCA降維演算法)、監督式學習分類演算法(Scikit-Learn資料集、K近鄰演算法、單純貝氏演算法、決策樹演算法、隨機森林演算法)、監督式學習迴歸演算法(線性迴歸演算法、邏輯迴歸演算法、支持向量機演算法)。 ■深度學習:學習工具(TensorFlow、Keras)、深度神經網路(DNN)、MNIST手寫數字圖片辨識實作、Gradio模組(深度學習成果展示、過擬合)、卷積神經網路(CNN)與循環神經網路(RNN)。 ■模型訓練進化:預訓練模型、遷移學習、深度學習參數調校、hyperas參數調校神器,以及手寫數字辨識參數調校。 【超值學習資源】 獨家收錄「Python資料科學關鍵影音教學」、全書範例程式檔 本書特色 ■深入淺出,只要具備基礎Python程式語言能力即可輕鬆上手。 ■標示出重要觀念,在學習的過程中不會錯失關鍵內容。 ■應用範例導向,每個觀念皆附實用案例,不怕學不會。 ■不使用艱澀數學推導資料科學原理,而以淺顯易懂的文字解說學理。 ■實作圖片增量及遷移學習,即使少量資料也可訓練出實用模型。 ■實作機器學習與深度學習模型參數調校,輕鬆建立完美模型。 目錄 資料科學工具篇 第1章 進入資料科學的學習殿堂 1.1 認識資料科學 1.2 Google Colab:雲端的開發平台 1.3 Colab 的筆記功能 第2章 資料科學神器:Numpy 與Pandas 2.1 Numpy:高速運算的解決方案 2.2 Numpy 陣列建立 2.3 Numpy 陣列取值 2.4 Numpy 的陣列運算功能 2.5 Pandas:資料處理分析的強大工具 2.6 Series 的使用 2.7 DataFrame 的建立 2.8 Pandas DataFrame 資料取值 2.9 DataFrame 資料操作 第3章 資料收集:檔案存取與網路爬蟲 3.1 資料來源的取得 3.2 CSV 檔案的讀取 3.3 JSON 資料的讀取 3.4 Excel 試算表檔案的讀取 3.5 HTML 網頁資料讀取 3.6 儲存資料為檔案 3.7 認識網路爬蟲 3.8 requests 模組:讀取網站檔案 3.9 BeautifulSoup 模組:網頁解析 3.10 文字及檔案資料的收集 第4章 資訊圖表化:Matplotlib 與Seaborn 4.1 Matplotlib:資訊視覺化的核心工具 4.2 折線圖:plot 4.3 長條圖與橫條圖:bar、barh 4.4 圓形圖:pie 4.5 直方圖:hist 4.6 散佈圖:scatter 4.7 線箱圖:boxplot 4.8 設定圖表區:figure 4.9 在圖表區加入多張圖表:subplot、axes 4.10 Pandas 繪圖應用 4.11 Seaborn:更美觀的圖表工具 資料預處理篇 第5章 資料預處理:資料清洗及圖片增量 5.1 資料清洗處理 5.2 資料檢查 5.3 資料合併 5.4 樞紐分析表 5.5 圖片增量 第6章 資料預處理:標準化、資料轉換與特徵選擇 6.1 Scikit-Learn:機器學習的開發工具 6.2 數值資料標準化 6.3 非數值資料轉換 6.4 認識特徵選擇 6.5 使用Pandas 進行特徵選擇 6.6 使用Scikit-Learn 進行特徵選擇 機器學習篇 第7章 機器學習:非監督式學習 7.1 認識機器學習 7.2 K-means 演算法 7.3 DBSCAN 演算法 7.4 降維演算法 第8章 機器學習:監督式學習分類演算法 8.1 Scikit-Learn 資料集 8.2 K 近鄰演算法 8.3 單純貝氏演算法 8.4 決策樹演算法 8.5 隨機森林演算法 第9章 機器學習:監督式學習迴歸演算法 9.1 線性迴歸演算法 9.2 邏輯迴歸演算法 9.3 支持向量機演算法 深度學習篇 第10章 深度學習:深度神經網路(DNN) 10.1 認識深度學習 10.2 認識深度神經網路(DNN) 10.3 實作MNIST 手寫數字圖片辨識 10.4 Gradio 模組:深度學習成果展示 10.5 過擬合 第11章 深度學習:卷積神經網路(CNN) 11.1 認識卷積神經網路(CNN) 11.2 實作貓狗圖片辨識 第12章 深度學習:循環神經網路(RNN) 12.1 認識循環神經網路(RNN) 12.2 下載台灣股市資料 12.3 實作台灣股票市場股價預測 模型訓練進化篇 第13章 預訓練模型及遷移學習 13.1 預訓練模型 13.2 遷移學習 第14章 深度學習參數調校 14.1 hyperas 模組:參數調校神器 14.2 手寫數字辨識參數調校
類似書籍推薦給您
【簡介】 資料科學、機器學習是近來最夯的關鍵字, 所引發的學習熱潮從未間斷。然而初學的你只要稍微上網搜尋可能會發現, 資料科學涉及的領域實在超~級~廣, 包括 AI、機器學習、程式設計、資料視覺化、數學、統計...等等, 一拖拉庫的名詞都與資料科學沾上邊;相關書籍更是不少, 各書的切入點明顯都不一樣, 卻都一致高喊「我帶你學資料科學!」讓初學者看得更花了, 對於如何入門愈來愈沒頭緒... 這麼雜到底怎麼學?AI、統計、Python / R 程式語言...通通碰過一輪? 先看完這本書再說!與其雜亂無章東學西學, 本書大聲告訴你:「資料科學沒那麼複雜!」, 只要跟著書中精心設計的「資料科學 5 步驟」: 問個感興趣的問題 → 資料取得 → 資料處理 → 探索性資料分析 → 機器學習做資料分析 「記牢」、「做熟」這 5 步就夠了! [鐵了心就是要你會!利用 Colab ✕ Python 反覆操演] 在各步驟中, 我們會帶你用 Colab 免費雲端平台以及 Python 這個超夯工具動手操演多個資料科學經典案例, 讀者可以從過程中逐步吸收資科科學乃至於機器學習各階段要處理的「眉眉角角」。 要是做過一輪還不熟沒關係, 我們換個範例多 run 幾遍!幾輪下來一定會對資料科學的內涵更加清晰, 也會對機器學習在其中所扮演的角色有更深刻的認識! [圖解爆棚, 隨便翻閱都有感] 更棒的是, 學習資料科學、機器學習免不了會碰到許多看起來很難懂的數學公式, 實作時也得學習各種陌生的 Python 語法, 為此作者特別在書中設計大量插圖, 協助你有效率地理解內容;而每一章最前面的「學習地圖」更可以幫你隨時掌握學習脈絡, 有這些超圖解的「加持」, 讓你遇到再複雜的概念也不怕! 【目錄】 Ch01 破冰!資料科學觀念養成 Ch02 Python 資料科學實作平台:Google Colab Ch03 認識資料科學神器 pandas 並用網路爬蟲取得資料 Ch04 初探資料科學 (一):用 pandas 做資料前處理 Ch05 初探資料科學 (二):用資料視覺化發掘重要資訊 Ch06 經典案例演練!更深入的探索性資料分析 Ch07 資料科學 Level UP!認識機器學習演算法 Ch08 機器學習實戰 (一):用線性迴歸分析做趨勢預測 Ch09 機器學習實戰 (二):用 K最近鄰法 (KNN) 做分類 Ch10 機器學習實戰 (三):用 K平均法 (K-Means) 做分群
類似書籍推薦給您
【簡介】 「這本書正是我當年提出『資料科學家』這個職稱時,所希望能擁有的一本書。如果您希望投身資料科學/工程、人工智慧,或機器學習領域,就該從這裡開始。」 ── DJ Patil 博士,美國首任首席資料科學家 身為一位有志成為資料科學家的讀者,能夠理解各類組織為何仰賴資料來做出關鍵決策──無論是公司在設計網站、還是市政府在改善公共服務,或者是科學家在致力於阻止疾病擴散。而您也希望具備將雜亂資料整理為可行洞見的能力。我們將這整個過程稱為「資料科學生命週期」:也就是從資料的收集、整理、分析,到導出結論的完整流程。 本書是第一本涵蓋程式設計與統計兩大基礎技能、並貫穿整個資料科學生命週期的書籍。本書的對象包括希望成為資料科學家的人、與資料科學家共事的專業人士,以及希望跨越「技術/非技術」界線的資料分析師。只要具備基本的 Python 程式設計知識,便可學習如何透過業界標準工具(如 pandas)來處理資料: .將感興趣的問題精煉為可透過資料探究的研究問題 .執行資料蒐集,其中可能涉及文字處理、網頁爬蟲等技術 .透過資料清理、探索與視覺化,萃取出有價值的洞見 .學會使用建模來描述資料特性 .推廣研究結果,進行超出資料本身的推論 【目錄】 前言 【第一部分 資料科學生命週期】 第一章 資料科學生命週期 生命週期的各個階段 生命週期的範例 總結 第二章 問題與資料範疇 大數據與新機會 研究母體、抽樣架構與樣本 儀器與操作程序 自然現象的量測 準確度 總結 第三章 模擬與資料設計 抽籤模型 範例:模擬選舉民調的偏誤與變異性 範例:模擬疫苗的隨機試驗 範例:空氣品質測量 總結 第四章 以摘要統計量建構模型 常數模型 最小化損失 總結 第五章 個案研究:為什麼我的公車總是拖班? 問題與範疇 資料整理 探索公車時間 建立等車時間模型 總結 【第二部分】 矩形資料 第六章 使用pandas操作資料框架 子集合選取(Subsetting) 匯總 合併 轉換 資料框架與其他資料表達法有何不同? 總結 第七章 使用SQL操作關係 子集合選取(Subsetting) 匯總 合併 轉換與共通表格運算式 總結 【第三部分】 理解資料 第八章 整理檔案 資料來源範例 檔案格式 檔案編碼 檔案大小 殼層與命令行工具 表格形狀與粒度 總結 第九章 整理資料框架 範例:整理冒納羅亞觀測站的CO2測量資料 品質檢查 缺漏的值與紀錄 轉換與時間戳記 修改結構 範例:處理餐廳安全違規資料 總結 第十章 探索性資料分析 特徵類型 觀察分布的重點 在關係中應注意的事項 多變數情境下的比較 探索準則 範例:房屋售價 總結 第十一章 資料視覺化 選擇合適的刻度以揭示結構 資料的平滑化與匯總 促進有意義的比較 融入資料設計 加入情境資訊 使用plotly繪製圖表 其他視覺化工具 總結 第十二章 案例研究:空氣品質測量有多準確? 問題、設計與範疇 尋找共址感測器 整理與清洗 AQS感測器資料 整理PurpleAir感測器資料 探索PurpleAir與AQS測量值 建立校準PurpleAir測量值之模型 總結 【第四部分】 其他資料來源 第十三章 處理文字資料 文字與任務的範例 字串處理 正規表達式 文字分析 總結 第十四章 資料交換 NetCDF資料 JSON資料 HTTP REST XML、HTML與XPath 總結 【第五部分】 線性建模 第十五章 線性模型 簡單線性模型 範例:空氣品質的簡單線性模型 擬合簡單線性模型 多元線性模型 擬合多元線性模型 範例:哪裡是機會之地? 數值型測量值之特徵工程 類別型測量值的特徵工程 總結 第十六章 模型選擇 過度擬合 訓練-測試切分 交叉驗證 正則化 模型偏誤與變異性 總結 第十七章 推論與預測的理論基礎 分布:母體、經驗、抽樣 假設檢定的基本概念 以自助法推論 信賴區間的基本概念 預測區間的基本概念 用於推論與預測的機率理論 總結 第十八章 案例研究:如何幫驢子秤體重? 驢子研究的問題與範圍 資料整理與轉換 探索 建立驢子體重的模型 總結 【第六部分】 分類 第十九章 分類 範例:風災倒木 建模與分類 對比例(與機率)建模 邏輯斯模型的損失函數 從機率到分類 總結 第二十章 數值最佳化 梯度下降法基礎 最小化Huber損失 凸形且可微分的損失函數 梯度下降法的變體 總結 第二十一章 個案研究:偵測假新聞 問題與範疇 取得與整理資料 探索資料 建模 總結 延伸資料 資料來源 索引
類似書籍推薦給您
內容簡介 已經有越來越多的公司採用資料科學與機器學習來輔助行銷活動的進行。本書將告訴您,如何有效地運用數據,制定更有效率的行銷策略。 本書可以幫助您了解: .如何使用Python或R計算KPI並產生視覺化圖表 .如何利用資料科學找出行銷活動的成功因素 .如何使用機器學習預測客戶行為 .如何提供客戶成交率最高的產品建議 .如何使用A/B Test來制定更好的行銷策略 .如何藉由機器學習來了解目標客群 目錄 Section 1 導論與環境設定 chapter 1 資料科學與行銷 Section 2 導論與環境設定 chapter 2 關鍵績效指標與視覺化 chapter 3 行銷參與度背後的驅動因素 chapter 4 從參與度到轉換率 Section 3 產品可見度與行銷 chapter 5 產品分析5 chapter 6 推薦對的產品 Section 4 個人化行銷 chapter 7 消費者行為的探索式分析 chapter 8 預測行銷參與度的可能性 chapter 9 顧客終身價值 chapter 10 以資料驅動的顧客區隔 chapter 11 留住顧客 Section 5 更好的決策 chapter 12 運用 A/B測試發展更佳行銷策略 chapter 13 下一步?
資訊
工程
數學與統計學
機率與統計
自然科學
健康科學
地球與環境
建築、設計與藝術
人文與社會科學
教育
語言學習與考試
法律
會計與財務
大眾傳播
觀光與休閒餐旅
考試用書
研究方法
商業與管理
經濟學
心理學
生活
生活風格商品
參考書/測驗卷/輔材