| 書名: | 資料科學 SQL 工作術 – 以 MySQL 為例與情境式 ChatGPT 輔助學習 (1版) | |||
| 作者: | Renée M. P. Teate | |||
| 譯者: | 莊昊耘 | |||
| 版次: | 1 | |||
| ISBN: | 9789863127659 | |||
| 出版社: | 旗標科技 | |||
| 出版日期: | 2023/08 | |||
| 書籍開數、尺寸: | 17x23x2.4 | |||
| 頁數: | 400 | |||
| 內文印刷顏色: | 全彩 | |||
|
#資訊
#編程與軟體開發 #資料庫與資料管理 #AI人工智慧與機器學習 |
||||
內容介紹 [學會關鍵 SQL 技能,開啟你的資料科學職業生涯] 現今,許多企業與組織都要求資料科學家、資料分析師,必須具備從資料庫提取與結合原始資料、設計並生成所需資料集的能力,不需要靠資料工程師或資料庫管理者處理。 [SQL 是從事資料科學必學的 3 大技能之一] 本書是由與資料為伍 18 年經驗的資料科學家、資料庫開發者親自撰寫,教導有志於從事資料科學者一定要學會的 SQL 查詢技能,以及發現可能問題的解決方法。你將學到如何設計查詢程式,建構用於探索、分析的資料集,並於過程中培養資料分析思維。 此書會引導你建立用於商業智慧軟體,以及機器學習演算法等應用的資料集。教導做為資料科學家最需要的 SQL 查詢技能,並透過專家經驗學習如何從資料中獲得有價值的訊息或知識,並避免處理資料時會遇到的陷阱,幫助企業主管快速掌握情況做出正確決策。 [搭配 ChatGPT 輔助學習 SQL] 本書以業界主流也最普及的 MySQL 8.0 資料庫系統與 MySQL Workbench 工具做示範。在各章進行過程中依情境穿插 “ChatGPT 來幫忙” 說明框 (總共有 40 多個) 在你可能需要的地方補充相關背景知識或額外的學習技巧,例如請 ChatGPT 依指示產生 SQL 程式、挑出程式錯誤並修改、調整程式寫法增加執行效率、用 Show Me Diagram plugin 為 SQL 查詢繪製執行流程圖、用 Code Interpreter 執行 SQL 程式查詢 Excel 檔內容等等,讓 ChatGPT 與學習 SQL 融為一體。 [SQL 查詢技巧重點] ●瞭解基本 SQL 語法並設計有效的 SQL 查詢 ●使用 SQL 進行探索性資料分析 ●從資料庫中建構、篩選和排序需要的資料集 ●使用 SQL JOIN 技巧,連結多個表格的資料 ●為分析報表和機器學習應用設計資料集 ●應用更進階的 SQL 技術,如窗口函數和 CTE ●建立資料庫表格和視圖,儲存並引用查詢結果 本書特色 ● 資深資料科學家寫給有志從事資料科學者的貼心指導 ● 學習作者觀察資料的視角,培養資料分析思維 ● 提供書中 SQL 程式碼下載,節省讀者輸入時間 ● 依學習情境所需穿插 40 多個 "ChatGPT 來幫忙" 說明框 ● 各章練習題皆附參考答案,非常適合自主學習 書籍目錄 第 1 章 資料來源與資料庫 1.1 資料來源 1.2 用整合開發工具或程式皆可連上資料庫 1.3 關聯式資料庫 1.4 維度資料倉儲 1.5 對資料來源提出疑問 1.6 認識農夫市集資料庫 1.7 資料科學的術語 1.8 將農夫市集資料庫匯入 MySQL 第 2 章 查詢資料的 SELECT 基本語法 2.1 SELECT 敘述句 2.2 查詢的語法結構 2.3 選擇要輸出的欄位,並可限制回傳的資料筆數 2.4 將輸出依欄位做排序的 ORDER BY 子句 2.5 單列欄位資料運算 2.6 數值四捨五入的函數 2.7 連接字串的函數 2.8 評估查詢指令的輸出 2.9 SELECT 語法小結 第 3 章 為查詢設定篩選條件的 WHERE 3.1 篩選出符合條件的資料 3.2 利用多重條件篩選 3.3 多個欄位條件式篩選 3.4 數種用於篩選的關鍵字 3.5 透過子查詢(subquery)做篩選 第 4 章 依條件作分支處理的 CASE 4.1 將每個分支個別處裡 4.2 以 CASE 產生二元欄位(Binary Flags) 4.3 將連續數值用 CASE 分出區間 4.4 透過 CASE 進行分類編碼 4.5 CASE 語法小結 第 5 章 連結兩個或多個表格資料的 JOIN 5.1 兩個表格透過關聯的欄位連結 5.2 LEFT JOIN 左外部連結 5.3 RIGHT JOIN 右外部連結 5.4 INNER JOIN 內部連結 5.5 比較 LEFT、RIGHT、INNER JOIN 的差異 5.6 篩選連結資料時常見的陷阱 5.7 JOIN 兩個以上的表格 第 6 章 摘要總結與聚合函數 6.1 將資料分組的 GROUP BY 子句 6.2 查詢分組與聚合資料 6.3 在聚合函數中放入算式 6.4 挑出最大與最小值的 MAX 和 MIN 函數 6.5 計數的 COUNT 函數與 DISTINCT 關鍵字 6.6 計算平均值的 AVG 函數 6.7 用 HAVING 子句篩選分組後的資料 6.8 在聚合函數中使用 CASE 語法 第 7 章 窗口函數與子查詢 7.1 窗口函數 ROW_NUMBER 7.2 窗口函數 RANK & DENSE RANK 7.3 窗口函數 NTILE 7.4 聚合窗口函數 7.5 窗口函數 LAG & LEAD 第 8 章 日期與時間函數 8.1 建立 datetime 資料型別欄位 8.2 提取 datetime 局部數值 EXTRACT、DATE、TIME 8.3 取得時間間隔的結束時間 DATE_ADD & DATE_SUB 8.4 計算時間差異 DATEDIFF 8.5 指定時間差異單位 TIMESTAMPDIFF 8.6 用聚合函數與窗口函數處理 datetime 資料 第 9 章 探索資料的結構與特性 9.1 EDA 準備要探索的標的 9.2 探索 product 表格 9.3 探索所有可能的欄位值 9.4 探索資料隨時間變化的情況 9.5 探索多個表格(1) - 彙總銷售量 9.6 探索多個表格(2) - 存貨量 vs. 銷售量 第 10 章 打造可重複分析用的自訂資料集 10.1 思考自訂資料集的需求 10.2 可重複使用自訂資料集的方法:CTEs 和 Views 10.3 SQL 為資料集增加更多可用性 第 11 章 進階查詢語法結構 11.1 將兩個查詢結果聯集的 UNION 11.2 自我連結(Self-Join)找出最大值 11.3 統計每週的新顧客與回頭客 第 12 章 建立機器學習需要的資料集 12.1 時間序列模型的資料集 12.2 二元分類模型的資料集 12.3 特徵工程的考量 12.4 建立資料集之後要做的事 第 13 章 開發分析資料集的案例 13.1 生鮮蔬果銷售分析資料集(1):影響銷售額的氣象、季節因素 13.2 生鮮蔬果銷售分析資料集(2):供應商產品與存貨因素 13.3 生鮮蔬果銷售分析資料集(3):整合市集與供應商的影響因素 13.4 顧客居住地區與人口統計分析資料集 13.5 價格分布與高低價分析資料集 第 14 章 資料儲存與修改 14.1 將 SQL 查詢的資料集儲存成表格、視圖 14.2 加入時間戳記欄位 14.3 在既存表格中插入列資料與更新數值 14.4 將 SQL 納入程式腳本 14.5 本書結尾 附錄 練習題解答
還沒有人留下心得,快來搶頭香!
為您推薦
類似書籍推薦給您
【簡介】 「這本書正是我當年提出『資料科學家』這個職稱時,所希望能擁有的一本書。如果您希望投身資料科學/工程、人工智慧,或機器學習領域,就該從這裡開始。」 ── DJ Patil 博士,美國首任首席資料科學家 身為一位有志成為資料科學家的讀者,能夠理解各類組織為何仰賴資料來做出關鍵決策──無論是公司在設計網站、還是市政府在改善公共服務,或者是科學家在致力於阻止疾病擴散。而您也希望具備將雜亂資料整理為可行洞見的能力。我們將這整個過程稱為「資料科學生命週期」:也就是從資料的收集、整理、分析,到導出結論的完整流程。 本書是第一本涵蓋程式設計與統計兩大基礎技能、並貫穿整個資料科學生命週期的書籍。本書的對象包括希望成為資料科學家的人、與資料科學家共事的專業人士,以及希望跨越「技術/非技術」界線的資料分析師。只要具備基本的 Python 程式設計知識,便可學習如何透過業界標準工具(如 pandas)來處理資料: .將感興趣的問題精煉為可透過資料探究的研究問題 .執行資料蒐集,其中可能涉及文字處理、網頁爬蟲等技術 .透過資料清理、探索與視覺化,萃取出有價值的洞見 .學會使用建模來描述資料特性 .推廣研究結果,進行超出資料本身的推論 【目錄】 前言 【第一部分 資料科學生命週期】 第一章 資料科學生命週期 生命週期的各個階段 生命週期的範例 總結 第二章 問題與資料範疇 大數據與新機會 研究母體、抽樣架構與樣本 儀器與操作程序 自然現象的量測 準確度 總結 第三章 模擬與資料設計 抽籤模型 範例:模擬選舉民調的偏誤與變異性 範例:模擬疫苗的隨機試驗 範例:空氣品質測量 總結 第四章 以摘要統計量建構模型 常數模型 最小化損失 總結 第五章 個案研究:為什麼我的公車總是拖班? 問題與範疇 資料整理 探索公車時間 建立等車時間模型 總結 【第二部分】 矩形資料 第六章 使用pandas操作資料框架 子集合選取(Subsetting) 匯總 合併 轉換 資料框架與其他資料表達法有何不同? 總結 第七章 使用SQL操作關係 子集合選取(Subsetting) 匯總 合併 轉換與共通表格運算式 總結 【第三部分】 理解資料 第八章 整理檔案 資料來源範例 檔案格式 檔案編碼 檔案大小 殼層與命令行工具 表格形狀與粒度 總結 第九章 整理資料框架 範例:整理冒納羅亞觀測站的CO2測量資料 品質檢查 缺漏的值與紀錄 轉換與時間戳記 修改結構 範例:處理餐廳安全違規資料 總結 第十章 探索性資料分析 特徵類型 觀察分布的重點 在關係中應注意的事項 多變數情境下的比較 探索準則 範例:房屋售價 總結 第十一章 資料視覺化 選擇合適的刻度以揭示結構 資料的平滑化與匯總 促進有意義的比較 融入資料設計 加入情境資訊 使用plotly繪製圖表 其他視覺化工具 總結 第十二章 案例研究:空氣品質測量有多準確? 問題、設計與範疇 尋找共址感測器 整理與清洗 AQS感測器資料 整理PurpleAir感測器資料 探索PurpleAir與AQS測量值 建立校準PurpleAir測量值之模型 總結 【第四部分】 其他資料來源 第十三章 處理文字資料 文字與任務的範例 字串處理 正規表達式 文字分析 總結 第十四章 資料交換 NetCDF資料 JSON資料 HTTP REST XML、HTML與XPath 總結 【第五部分】 線性建模 第十五章 線性模型 簡單線性模型 範例:空氣品質的簡單線性模型 擬合簡單線性模型 多元線性模型 擬合多元線性模型 範例:哪裡是機會之地? 數值型測量值之特徵工程 類別型測量值的特徵工程 總結 第十六章 模型選擇 過度擬合 訓練-測試切分 交叉驗證 正則化 模型偏誤與變異性 總結 第十七章 推論與預測的理論基礎 分布:母體、經驗、抽樣 假設檢定的基本概念 以自助法推論 信賴區間的基本概念 預測區間的基本概念 用於推論與預測的機率理論 總結 第十八章 案例研究:如何幫驢子秤體重? 驢子研究的問題與範圍 資料整理與轉換 探索 建立驢子體重的模型 總結 【第六部分】 分類 第十九章 分類 範例:風災倒木 建模與分類 對比例(與機率)建模 邏輯斯模型的損失函數 從機率到分類 總結 第二十章 數值最佳化 梯度下降法基礎 最小化Huber損失 凸形且可微分的損失函數 梯度下降法的變體 總結 第二十一章 個案研究:偵測假新聞 問題與範疇 取得與整理資料 探索資料 建模 總結 延伸資料 資料來源 索引
類似書籍推薦給您
【簡介】 針對商品感官屬性的評分資料,介紹分析方法與視覺化討論的技巧。 感官資料有各式各樣的形態,除了量化數字,還有質性文字,本書將以量化數字為主軸,透過多變量方法的應用與視覺化技術,來回答:最受消費者喜歡的是哪些特性?現行商品符合市場需求嗎? 本書寫作為完整的資料導向,涵蓋推薦系統和消費者與專家品鑑兩類資料的形狀與特性,實做上則以R 套件SensoMineR 完成分析為重點。每章開場皆以詳述特定的資料結構為鋪陳,希望透過認識資料(know your data)深入感官資料分析的方法。 第一章是基於消費的採購行為所做的關聯推論,也是第二章品鑑資料的基礎。第三章則是稍微特殊一點的感官資料,也就是對商品屬性的專業品鑑,分別針對專業品鑑者(panelists)和商品的多種屬性作系統性分析。第四、五章為「商品角度的感官評分:單維度以及多重的屬性清單」。最後一章則是分析現今最流行的「按讚」行為,從中分析出消費者的偏好。 【目錄】 序 第一章 推薦演算之一:關聯規則與購物籃分析 第一節 交易記錄資料與基礎測量 第二節 關聯規則演算法之一:Apriori 第三節 其他方法 第二章 推薦演算之二:評分資料分析Real Rating 第一節 Real Rating 資料處理 第二節 協同演算法Collaborative Filtering 第三章 感官資料量化分析:ANOVA 方法 第一節 品鑑者角度的感官品鑑:單維度屬性清單 第二節 ANOVA 之一:使用panelperf() 第三節 ANOVA 之二:使用paneliperf() 第四章 商品角度的感官評分之一:單維度屬性清單 第一節 資料 第二節 主成分方法簡介 第三節 adjmean 的主成分分析 第四節 集群分析方法 第五節 adjmean 的集群分析之一:階層式集群樹狀圖 第六節 adjmean 的集群分析之二:K-means 方法 第五章 商品角度的感官評分之二:屬性的多重清單 第一節 利用MFA 建構商品空間 第二節 從Group 角度的整合與詮釋 第三節 資料練習—酒的感官饗宴 第六章 大家一起來按讚:消費者品鑑 第一節 享樂分數資料分析 第二節 當消費者喜好Liking 遇到專家評分Rating 第三節 消費者接受性分析之一:JAR 資料 第四節 消費者接受性分析之二:IPM 資料
類似書籍推薦給您
【簡介】 新版書將 AI 協作各個部分整合到章節中,從 AI 幻覺的案例開始說明提示工程,到如何利用 AI 協助除錯、產生測試案例、分析問題、推薦語法,並以通用大語言模型 ChatGPT、Claude 與哈佛大學特殊用途 CS50.ai 助教來作說明。 本書分成基礎篇和應用篇兩個部分來引發讀者學習興趣,第一部分「基礎篇」主要在介紹 Python 程式語言的基本語法與基本套件。第二部分「應用篇」分別是:「AI 協作案例」、「人臉辨識」、「物件辨識」、「視覺化文字資料」、「簡單線性迴歸」、「簡單線性分類」、「地理資訊系統應用」、「序列資料處理」、「資料的動畫呈現」、「字元辨識、翻譯與語音轉譯」。讓讀者可以用非常少的程式碼,製作出各式各樣與 AI 和「資料科學」相關的應用系統。 本書有完整的學習地圖,讀者可以依循學習地圖來學習,部分「應用篇」的章節,不會用到所有「基礎篇」的內容,所以可以安排提前學習,讀者甚至可以自行規劃學習路徑。另外,本書大部分所使用的資料集都會重複使用,讀者也可以依據資料使用的前後關係來自行規劃學習路徑。 【目錄】 Part 1 基礎篇 Chapter 1 Python程式語言簡介 Chapter 2 人工智慧與資料科學簡介 Chapter 3 變數與輸入輸出 Chapter 4 控制結構 ─ 分支 Chapter 5 控制結構 ─ 迴圈 Chapter 6 函數的使用與製作 Chapter 7 容器型別 Chapter 8 套件簡介 Part 2 應用篇 Chapter 9 AI協作案例簡介 Chapter 10 人臉辨識 Chapter 11 物件辨識 Chapter 12 視覺化文字資料 Chapter 13 簡單線性迴歸 Chapter 14 簡單線性分類 Chapter 15 地理資訊系統應用 Chapter 16 序列資料處理 Chapter 17 資料的動畫呈現 Chapter 18 字元辨識、翻譯與語音轉譯
類似書籍推薦給您
【簡介】 本書是一本專為初學者設計的Python程式設計及資料科學全面教材,也可作為iPAS巨量資料分析師考試的先修教材。 透過圖解與實作,循序漸進地引導讀者掌握Python程式設計及資料科學的核心技能。書中內容豐富,從Python基礎語法開始,逐步深入到資料科學的實際應用。搭配詳細的圖例和實作範例,讓學習更加直觀和實用。 本書特別強調實務應用,詳細介紹了Python資料科學必學的套件,如Numpy、Matplotlib、Pandas、Seaborn、Plotly和SciPy。這些工具不僅幫助讀者進行資料運算和分析,還能輕鬆繪製各種圖表,視覺化資料結果。 在學習Python程式設計的過程中,本書運用了當前最熱門的AI工具——ChatGPT,來輔助學習。ChatGPT可以提供程式設計協助、解釋程式概念,進而寫出資料收集的網路爬蟲程式,以便更好地理解Python程式設計和資料分析的關鍵概念。這種互動式學習方式,大大提升了學習效率和理解深度。 此外,本書還包含多個實務導向的案例,從資料預處理、資料清理到探索性資料分析,再到機器學習與深度學習應用,幫助讀者將所學知識應用於實際問題中。這些案例不僅鞏固了讀者的學習成果,還提升了實戰技能,為未來的職場應用打下堅實的基礎。 【目錄】 CH01 Python語言與運算思維基礎 1-1 程式與程式邏輯 1-2 認識Python、運算思維和Thonny 1-3 下載與安裝Thonny 1-4 使用Thonny建立第一個Python程式 1-5 Thonny基本使用與程式除錯 CH02 寫出和認識Python程式 2-1 開發Python程式的基本步驟 2-2 編輯現存的Python程式 2-3 建立第二個Python程式的加法運算 2-4 看看Python程式的內容 2-5 Python文字值 2-6 Python寫作風格 CH03 變數、運算式與運算子 3-1 程式語言的變數 3-2 在程式使用變數 3-3 變數的資料型態和型態轉換函數 3-4 讓使用者輸入變數值 3-5 認識運算式和運算子 3-6 在程式使用運算子 CH04 條件判斷 4-1 你的程式可以走不同的路 4-2 關係運算子與條件運算式 4-3 if單選條件敘述 4-4 if/else二選一條件敘述 4-5 if/elif/else多選一條件敘述 4-6 在條件敘述使用邏輯運算子 CH05 重複執行程式碼 5-1 認識迴圈敘述 5-2 for計數迴圈 5-3 while條件迴圈 5-4 改變迴圈的執行流程 5-5 巢狀迴圈與無窮迴圈 5-6 在迴圈中使用條件敘述 CH06 函數 6-1 認識函數 6-2 使用者自訂函數 6-3 函數的參數 6-4 函數的回傳值 6-5 函數的實際應用 6-6 變數範圍和內建函數 CH07 字串與容器型態 7-1 字串型態 7-2 串列型態 7-3 元組型態 7-4 字典型態 7-5 字串與容器型態的運算子 7-6 串列與字典推導 CH08 檔案、類別與例外處理 8-1 檔案處理 8-2 二進位檔案讀寫 8-3 類別與物件 8-4 建立例外處理 CH09 Python模組與套件 9-1 Python模組與套件 9-2 os模組:檔案操作與路徑處理 9-3 math模組:數學函數 9-4 turtle模組:海龜繪圖 9-5 pywin32套件:Office軟體自動化 CH10 使用ChatGPT學習Python程式設計 10-1 認識ChatGPT 10-2 註冊與使用ChatGPT 10-3 ChatGPT是你最佳的Python程式助手 10-4 ChatGPT應用:找出Python視窗程式的學習方向 10-5 ChatGPT應用:幫助你學習Python視窗程式設計 10-6 ChatGPT應用:寫出資料收集的網路爬蟲程式 CH11 NumPy向量與矩陣運算 11-1 Python資料科學套件 11-2 陣列的基本使用 11-3 一維陣列:向量 11-4 二維陣列:矩陣 11-5 使用進階索引取出元素 11-6 陣列的常用操作與廣播 CH12 Matplotlib資料視覺化 12-1 資料視覺化與Matplotlib套件 12-2 使用Matplotlib繪製圖表 12-3 散佈圖、長條圖、直方圖和派圖 12-4 子圖表 12-5 多軸圖表 CH13 使用Pandas掌握你的資料 13-1 Pandas 套件的基礎 13-2 DataFrame 的基本使用 13-3 選擇、篩選與排序資料 13-4 新增、更新、刪除與合併資料 13-5 群組、樞紐分析與統計函數 13-6 Pandas 資料視覺化 CH14 Seaborn進階圖表與Plotly互動視覺化 14-1 Seaborn基礎與基本使用 14-2 使用Seaborn繪製各種類型的圖表 14-3 使用Seaborn繪製不同類型組合的圖表 14-4 使用Plotly繪製互動圖表 14-5 實作案例:PTT BBS推文的資料視覺化 14-6 實作案例:台積電股價的互動資料視覺化 CH15 SciPy科學運算與探索式資料分析 15-1 SciPy套件的基礎 15-2 SciPy套件的科學運算 15-3 探索性資料分析的基礎 15-4 找出資料之間的關聯性 15-5 資料預處理 15-6 實作案例:鐵達尼號資料集的探索性資料分析 CH16 Python機器學習與深度學習 16-1 機器學習的基礎 16-2 機器學習實例:使用線性迴歸預測房價 16-3 機器學習實例:使用決策樹分類鳶尾花 16-4 認識深度學習 16-5 深度學習實例:加州房價預測的迴歸分析 16-6 深度學習實例:鳶尾花資料集的多元分類
資訊
工程
數學與統計學
機率與統計
自然科學
健康科學
地球與環境
建築、設計與藝術
人文與社會科學
教育
語言學習與考試
法律
會計與財務
大眾傳播
觀光與休閒餐旅
考試用書
研究方法
商業與管理
經濟學
心理學
生活
生活風格商品
參考書/測驗卷/輔材