書名: 資料工程基礎|規劃和建構強大、穩健的資料系統 (1版)
作者: Joe Reis, Matt Housley
譯者: 蔣大偉
版次: 1
ISBN: 9786263248748
出版社: OREILLY歐萊禮
出版日期: 2024/11
書籍開數、尺寸: 23*18.5
頁數: 446
#資訊
定價: 980
售價: 833
庫存: 庫存: 2
LINE US! 詢問這本書 團購優惠、書籍資訊 等

付款方式: 超商取貨付款 line pay
信用卡 全支付
線上轉帳 Apple pay
物流方式: 超商取貨
宅配
門市自取

詳細資訊

【簡介】 🏆🏆🏆 Amazone 400+ 五星好評 🏆🏆🏆 👉 資料領域的必讀書單📚 ,適合IT專業人士和學生,尤其適合希望深入了解資料工程的讀者。 👉 書中提供資料工程的基本和進階概念,對於理解當前和未來的資料工程趨勢和技術非常有幫助。 👉 作者的寫作風格值得讚賞,使用的比喻和舉例能將複雜的概念有效簡化,更易理解。 👉 提供清晰的資料工程生命週期概念,有助提升資料管理和專案管理的能力。 「資料世界發展到現在已經有一段時間。首先從設計師開始,然後是資料庫管理員,接著是首席資訊官,然後是資料架構師。這本書將促使該行業朝著更加成熟和先進的方向發展。對於每一位認真對待自己的專業和職業的人來說,這都是一本必讀之作。」 —Bill Inmon 資料倉儲創建者 「《資料工程基礎》是一本絕佳的入門書籍,涵蓋了資料遷移、處理和管理的相關業務。我要強力推薦給任何想要快速瞭解資料工程或分析方面的人,或者想要填補自己知識漏洞的現有從業人員。」 —Jordan Tigani MotherDuck創始人和首席執行官 / BigQuery創始工程師和共同創始人 過去十年來,資料工程發展迅速,讓許多軟體工程師、資料科學家及分析師渴望全面了解這個領域的全貌。這本實用的書籍將告訴你,如何在資料工程生命週期的框架下,評估並選擇最適合的技術,規劃和建構系統能滿足你的組織與客戶需求的資料系統。 本書作者Joe Reis和Matt Housley將帶您深入瞭解資料工程生命週期,並解說如何把各種雲端技術接合起來,以滿足下游資料消費者的需求。你將瞭解如何應用資料產生、攝取、編排、轉換、儲存和治理等概念,這些概念在任何資料環境中都至關重要,而且與底層技術無關。 本書將助您: ‧掌握資料工程領域的精要與全貌。 ‧使用端到端的最佳實踐框架評估資料工程問題。 ‧正確選擇資料技術、架構和流程,避開誇大的行銷手法。 ‧使用資料工程生命週期來設計和建構強大、穩健的架構。 ‧將資料治理與安全性融入整個資料工程的生命週期。 【目錄】 第一篇 基本概念和構成要素 第一章 資料工程概述 第二章 資料工程生命週期 第三章 設計良好的資料架構 第四章 在資料工程生命週期中的各個階段,選擇適合的技術 第二篇 資料工程生命週期深入解析 第五章 來源系統中資料的產生 第六章 儲存 第七章 攝取 第八章 查詢、建模和轉換 第九章 為分析、機器學習和反向 ETL 提供資料 第三篇 安全性、隱私以及資料工程的未來 第十章 安全性和隱私 第十一章 資料工程的未來 附錄A 序列化和壓縮技術細節 附錄B 雲端網路

為您推薦

Python大數據專案X工程X產品 資料工程師的升級攻略 (2版)

Python大數據專案X工程X產品 資料工程師的升級攻略 (2版)

類似書籍推薦給您

★☆★☆★ 獨家解析知名大數據專案,FinMind,帶你一窺大數據產品的發展過程,打造專屬個人的大數據 Side Project、作品、產品 ★☆★☆★ 本書承襲第一版的精彩內容,分享在 Github 獲得 1,900 stars 的大數據 Side Project,並幫助讀者從 0 開始,打造專屬個人的大數據 Side Project。 精彩收錄: 【資料工程】 ○ 使用分散式技術,RabbitMQ、Flower、Celery,收集證交所、櫃買中心、期交所等股市資訊。 ○ 使用 Docker、FastAPI 架設 RESTful API 服務。 ○ 使用 Docker Swarm 架設分散式服務,包含爬蟲、RESTful API、資料庫 MySQL、RabbitMQ 等服務。 ○ 使用雲端服務,一個月 5 美金,且免費提供 100 美金額度。 ○ 一站式管理多台分散式機器。 ○ 使用業界等級的,分散式 Airflow。 【產品迭代】 ○ 單元測試 Unit Test 介紹,包含爬蟲、API 測試範例。 ○ 使用 CICD 做持續性整合、部屬,並以 Gitlab-CI 搭配 API 服務做為範例。 【API 產品上線】 ○ 免費網址申請教學,No-IP。 ○ 免費 SSL 憑證教學,Let's Encrypt。 ○ 一站式管理多服務網址,容器化反向代理工具 Traefik。 【業界資料視覺化工具】 ○ 使用 Redash 建立個人化、股市分析儀錶板。 【監控系統】 ○ 使用最知名的監控工具,Prometheus、Grafana,同時監控所有服務。 讀完本書,你將學會分散式爬蟲、RESTful API、MySQL 資料庫、壓力測試、Docker Swarm、CICD、雲端、Traefik、Redash 視覺化、分散式 Airflow、監控系統 Prometheus、Grafana 等,本書是一本集大成的作品。 ※本書程式實例可至深智官網下載http://deepwisdom.com.tw 產品目錄 【第1 篇 資料工程 ETL】 01 本書介紹 02 開發環境 2.1 開發環境重要性 2.2 Linux 作業系統 2.3 Windows 作業系統 2.4 Mac 作業系統 2.5 Python 開發工具 VS Code 03 Docker 3.1 為什麼先介紹 Docker ? 3.2 什麼是 Docker ? 3.3 安裝 Docker 3.4 安裝 Docker-Compose 04 雲端 4.1 為什麼要用雲端? 05 資料收集 5.1 Python 環境設置 5.2 爬蟲 5.3 資料庫架設 5.4 上傳資料到資料庫 5.5 分散式爬蟲 5.6 定時爬蟲 06 資料提供—RESTful API 設計 6.1 什麼是 API ? 6.2 輕量 API --- Flask 6.3 高效能 API --- FastAPI 07 容器管理工具 Docker 7.1 為什麼要用 Docker 7.2 建立第一個Docker Image --- Dockerfile 7.3 發布 Docker Image 7.4 雲端部屬 7.5 Docker Swarm 7.6 部屬服務 【第2 篇 產品迭代-- 測試運維】 08 自動化測試 8.1 單元測試 Unit Test 09 CICD 持續性整合、部屬 9.1 什麼是 CICD ? 9.2 CI 持續性整合 9.3 Gitlab-CI、以爬蟲專案為例 9.4 Gitlab-CI,建立 Docker Image 9.5 Gitlab-CI,部屬新版本 9.6 Gitlab-CI、以 API 專案為例 9.7 總結 【第3 篇 API 產品上線】 10 API 服務網址 10.1 為什麼需要網址? 10.2 No-Ip 免費的網址申請 10.3 Let's Encrypt 免費的 SSL 憑證 10.4 Traefik 10.5 API 結合Traefik 10.6 總結 【第4 篇 資料視覺化】 11 視覺化工具 11.1 什麼是視覺化? 11.2 Redash 11.3 Redash 帳號設定 11.4 資料庫連接 11.5 匯入資料 11.6 製作第一個圖表 11.7 第一個 Dashboard 11.8 設定下拉式選單 11.9 其他 BI 工具 【第5 篇 排程管理工具】 12 排程管理工具 - Apache Airflow 12.1 事前準備 12.2 什麼是排程管理工具? 12.3 為什麼選擇 Airflow ? 12.4 什麼是 Airflow ? 12.5 架設第一個 Airflow 12.6 DAG 介紹 12.7 常見 Operator 介紹 12.8 Airflow 結合爬蟲 - CeleryExecutor 12.9 結論 13 Redis 介紹 13.1 什麼是 Redis ? 13.2 使用Docker 架設Redis - 結合 Celery 【第6 篇 監控系統】 14 監控工具介紹 14.1 為什麼需要監控系統? 14.2 最知名的開源監控系統之一 14.3 架設個人化監控儀表板 14.4 總結 15 結論

原價: 780 售價: 702 現省: 78元
立即查看
Python 資料科學實戰教本 - 爬蟲、清理、資料庫、視覺化、探索式分析、機器學習建模,數據工程一次搞定! (1版)

Python 資料科學實戰教本 - 爬蟲、清理、資料庫、視覺化、探索式分析、機器學習建模,數據工程一次搞定! (1版)

類似書籍推薦給您

Python 資料科學實戰教本 - 爬蟲、清理、資料庫、視覺化、探索式分析、機器學習建模,數據工程一次搞定! ISBN13:9789863127246 出版社:旗標出版社 作者:陳會安 裝訂/頁數:平裝/616頁 規格:23cm*17cm*2.8cm (高/寬/厚) 重量:946克 出版日:2022/08/22 中國圖書分類:電腦科學 內容簡介 【題材涵蓋最全面!一本書掌握資料科學 / 數據工程必學 know-how!】   從大數據到人工智慧世代,其背後蘊含的關鍵技術與理論不脫資料科學、機器學習的範疇。基本上,資料科學需要的背景知識與技能相當的多,通常要會 Python 程式設計基礎、熟悉相關 Python 套件和模組的使用;再加上機器學習的基礎就是機率和統計,因此也免不了得學機率和統計知識,可說有一拖拉庫的主題等著你去學,也難怪市面上各主題 (程式基礎、統計、套件、機器學習建模...) 的專書滿坑滿谷,一時間實在讓人難以消化...   為了降低讀者初學資料科學面對的負擔以及混亂感,我們精心設計了這本入門實戰教本,秉持讓讀者「買一本抵多本」的精神,本書一次涵蓋所有入門必須熟悉的重要題材,同時也將初學資料科學的脈絡梳理清楚。   在章節的安排上,本書從資料取得的網路爬蟲開始,提供一個標準 SOP 來幫助讀者從網路取得資料;接著說明資料科學必學的 Python 重量級套件,再接著介紹機率、統計和探索式資料分析的基礎知識,最後進入最熱門的機器學習、深度學習建模主題。   這一連串「取得資料 → 探索資料 → 預測分析」是一套完整的資料科學 / 數據工程實戰訓練,跟著本書掌握這些重要 know-how 後,就不難看懂網路上眾多資料科學、機器學習專案的 Python 程式碼和線上教材,甚至參與資料科學、機器學習的網路競賽;希望本書能協助讀者開啟資料科學家 / 數據工程師的成功之路!   本書特色   □ 資料科學三部曲:取得資料 → 探索資料 → 預測分析 □ 一次補足最入門的統計和機率基礎 □ Python 開發環境與基礎語法快速上手 □ 從網頁爬蟲、資料清理到資料視覺化,快速完成資料探索的預處理程序 □ 將清理後的資料存入 SQL 資料庫,便於日後存取利用 □ 實踐資料科學的四大套件:NumPy、Pandas、Matplotlib、Seaborn 一次掌握 □ 用 Scikit-learn、tensorflow.Keras 套件實作最熱門的 AI 機器學習應用 目錄 第一篇 資料科學和 Python 基礎 第 1 章 資料科學概論與開發環境建立 – Anaconda 第 2 章 Python 程式語言   第二篇 網路爬蟲和 Open Data (取得、清理與儲存資料) 第 3 章 取得網路資料 第 4 章 資料擷取 第 5 章 資料清理與資料儲存 第 6 章 網路爬蟲實作案例   第三篇 Python資料科學套件 – 探索資料(資料視覺化與大數據分析) 第 7 章 向量與矩陣運算 – NumPy 套件 第 8 章 資料處理與分析 – Pandas 套件 第 9 章 大數據分析 (一) – Matplotlib 和 Pandas 資料視覺化 第 10 章 大數據分析 (二) – Seaborn 統計資料視覺化 第 11 章 機率與統計 第 12 章 估計與檢定 第 13 章 探索性資料分析實作案例   第四篇 人工智慧、機器學習與深度學習 – 預測資料 第 14 章 人工智慧與機器學習概論 – 認識深度學習 第 15 章 機器學習演算法實作案例 – 迴歸 第 16 章 機器學習演算法實作案例 – 分類與分群 第 17 章 深度學習神經網路實作案例   附錄 A:HTML 網頁結構與 CSS 附錄 B:Python 文字檔案存取與字串處理 附錄 C:下載與安裝 MongoDB 和 MySQL 資料庫

原價: 680 售價: 612 現省: 68元
立即查看
特徵工程不再難:資料科學新手也能輕鬆搞定!

特徵工程不再難:資料科學新手也能輕鬆搞定!

類似書籍推薦給您

原價: 520 售價: 442 現省: 78元
立即查看
圖解資料庫的工作原理

圖解資料庫的工作原理

類似書籍推薦給您

內容簡介 在電腦與網路普及的現代社會中,大量的資訊讓我們得以擁抱便利的生活。只要稍微仔細觀察,就能發現生活中充斥了許多資訊。例如,社群網路服務與通訊軟體、電車時刻表、記錄於出勤系統中的時間、地圖軟體中的餐廳資訊、設定手機提醒的行事曆,以及網路購物的商品資訊等。如今,這些資訊在世界各處持續增加,大量的資料要如何儲存,又要儲存在哪裡?處理大量的資料時又該怎麼做?解決這些問題時,資料庫是一項關鍵的技術。 本書包含使用資料庫前必須了解的知識,包括: .資料庫的基礎知識 .資料庫的操作方法 .系統設計的相關知識 .資料庫運用的相關知識 產品目錄 第1章 資料庫的基本概念|掌握資料庫的概要 1-1 生活中的資料 1-2 資料庫的特徵 1-3 運作資料庫的系統 1-4 導入資料庫的理由 1-5 資料庫管理系統的種類 1-6 操作資料庫的指令 1-7 資料庫的使用案例 1-8 生活中常見的資料庫 第2章 資料的儲存模式|關聯式資料庫的特徵 2-1 各式資料的儲存模式 2-2 以表的格式儲存資料 2-3 將表與表結合 2-4 關聯式的優缺點 2-5 關聯式以外的類型 2-6 NoSQL資料庫的種類①|由鍵與值組成的資料模型 2-7 NoSQL資料庫的種類②|呈現階層結構與關聯性的模型 第3章 資料庫的操作|SQL的使用方式 3-1 操作資料庫前的準備 3-2 資料操作指令的基本文法 3-3 建立、刪除資料庫 3-4 顯示所有資料庫、選擇資料庫 3-5 建立、刪除資料表 3-6 新增紀錄 3-7 取得紀錄 3-8 篩選出符合條件的紀錄 3-9 搜尋時使用的符號①|不相等的值、指定值的範圍 3-10 搜尋時使用的符號②|包含指定值的資料、搜尋空值 3-11 更新資料 3-12 刪除資料 3-13 將資料重新排序 3-14 指定取得資料的筆數 3-15 取得資料的筆數 3-16 取得資料的最大值、最小值 3-17 取得資料的數值加總、平均值 3-18 將紀錄群組化 3-19 對群組化的資料指定篩選條件 3-20 合併資料表並取得資料 3-21 取得鍵值一致的資料 3-22 取得基準資料與鍵值一致的資料 第4章 管理資料|防止不當的資料操作 4-1 指定儲存資料的種類 4-2 數值的資料類型 4-3 字串的資料類型 4-4 日期與時間的資料類型 4-5 只能儲存兩種值的資料類型 4-6 設定資料的儲存限制 4-7 設定預設值 4-8 當資料空白時 4-9 避免資料為空值 4-10 限制輸入與其他列相同的值 4-11 自動編號 4-12 讓紀錄的辨識具有唯一性 4-13 與其他資料表建立關聯 4-14 將不可分割的操作整合 4-15 一次執行一連串的操作 4-16 取消一連串已執行的處理 4-17 兩個處理互相衝突導致處理終止 第5章 導入資料庫|資料庫的結構與資料表設計 5-1 導入系統的流程 5-2 導入系統會有哪些影響? 5-3 評估導入資料庫的必要性 5-4 使用對象與使用目的 5-5 思考哪些資料必須儲存 5-6 思考資料間的關聯性 5-7 以圖呈現資料間的關係 5-8 ER圖的呈現方法 5-9 ER圖的種類 5-10 調整資料結構 5-11 讓項目不重複 5-12 切割不同種類的項目 5-13 切割具有從屬關係的項目 5-14 決定欄位設定 5-15 決定資料表與欄位名稱 5-16 書籍評論網站資料表的設計範例①|完成後的系統概要 5-17 書籍評論網站資料表的設計範例②|掌握資料的關聯性 5-18 書籍評論網站資料表的設計範例③|決定需要的資料表 5-19 書籍評論網站資料表的設計範例④|設定資料表與欄位 第6章 使用資料庫|安全使用資料庫的注意事項 6-1 放置資料庫的場所 6-2 公司自行管理資料庫伺服器的注意事項 6-3 使用資料庫的相關費用 6-4 設定使用者的存取範圍 6-5 監控資料庫 6-6 定期記錄當下的資料 6-7 轉移資料 6-8 轉換並儲存機密資料 6-9 升級作業系統與軟體的版本 第7章 保 護資料庫的安全|問題與安全性措施 7-1 對系統帶來不良影響的問題①~物理性威脅的例子與因應措施~ 7-2 對系統帶來不良影響的問題②~技術性威脅的例子與因應措施~ 7-3 對系統帶來不良影響的問題③~人為威脅的例子與因應措施~ 7-4 錯誤發生的紀錄 7-5 錯誤的種類與對策 7-6 執行時間較久的SQL 7-7 縮短取得資料的時間 7-8 分散工作負荷 7-9 複製並使用資料庫 7-10 資料庫從外部被操作的問題 第8章 運用資料庫|從應用程式使用資料庫 8-1 使用軟體存取資料庫 8-2 在應用程式中使用資料庫的範例 8-3 從程式使用資料庫 8-4 以程式語言操作資料庫 8-5 雲端服務的應用 8-6 迅速取得資料 8-7 收集並分析大量資料 8-8 資料庫與從資料中學習的應用程式 8-9 內建AI功能的資料庫

原價: 450 售價: 383 現省: 67元
立即查看
機器學習實務:資料科學工作流程與應用程式開發及最佳化

機器學習實務:資料科學工作流程與應用程式開發及最佳化

類似書籍推薦給您

序 前言 關於作者 【PART I基本結構】 chapter 01資料科學家的角色 1.1 介紹 1.2 資料科學家的角色 1.3 結論 chapter 02專案工作流程 2.1 介紹 2.2 資料團隊背景 2.3 敏捷開發與產品專注 2.4 結論 chapter 03誤差量化 3.1 介紹 3.2 量化測量值誤差 3.3 採樣誤差 3.4 誤差傳播 3.5 結論 chapter 04資料編碼與預處理 4.1 介紹 4.2 簡單文字處理 4.3 資訊損失 4.4 結論 chapter 05假設檢定 5.1 介紹 5.2 何謂假設? 5.3 誤差類型 5.4 P 值與信賴區間 5.5 多重測試與 "P-hacking" 5.6 範例 5.7 規劃與背景 5.8 結論 chapter 06資料視覺化 6.1 介紹 6.2 分佈與摘要統計 6.3 時間序列圖 6.4 圖視覺化 6.5 結論 【PART II 演算法與架構】 chapter 07演算法與架構 7.1 介紹 7.2 架構 7.3 模型 7.4 結論 chapter 08比較 8.1 介紹 8.2 Jaccard 距離 8.3 MinHash 8.4 Cosine 相似度 8.5 馬氏距離 8.6 結論 chapter 09迴歸 9.1 介紹 9.2 線性最小平方 9.3 線性迴歸的非線性迴歸 9.4 隨機森林 9.5 結論 chapter 10分類與群集 10.1 介紹 10.2 邏輯迴歸 10.3 貝葉斯推論,單純貝葉斯 10.4 K 平均 10.5 領先特徵向量 10.6 貪婪 Louvain 10.7 最近鄰居 10.8 結論 chapter 11貝葉斯網路 11.1 介紹 11.2 因果圖、條件獨立、Markovity 11.3 D 分離與 Markov 性質 11.4 貝葉斯網路因果圖 11.5 模型適配 11.6 結論 chapter 12降維與潛在變項模型 12.1 介紹 12.2 先驗 12.3 因素分析 12.4 主成分分析 12.5 獨立成分分析 12.6 隱含狄利克雷分布 12.7 結論 chapter 13因果推論 13.1 介紹 13.2 實驗 13.3 觀察:一個例子 13.4 控制阻斷非因果路徑 13.5 機器學習估計量 13.6 結論 chapter 14進階機器學習 14.1 介紹 14.2 最佳化 14.3 神經網路 14.4 結論 【PART III 瓶頸與最佳化】 chapter 15硬體基礎知識 15.1 介紹 15.2 隨機存取記憶體 15.3 非揮發性/固定儲存 15.4 吞吐量 15.5 處理器 15.6 結論 chapter 16軟體基礎知識 16.1 介紹 16.2 換頁 16.3 編索引 16.4 顆粒度 16.5 強固性 16.6 擷取、轉換、載入 16.7 結論 chapter 17軟體架構 17.1 介紹 17.2 主從架構 17.3 N 層/服務導向架構 17.4 微服務 17.5 一大塊 17.6 實際案例(混合架構) 17.7 結論 chapter 18CAP 定理 18.1 介紹 18.2 一致性/同時性 18.3 可用性 18.4 分割容錯 18.5 結論 chapter 19邏輯網路拓撲節點 19.1 介紹 19.2 網路圖 19.3 負載平衡 19.4 快取 19.5 資料庫 19.6 佇列 19.7 結論 參考書

原價: 580 售價: 493 現省: 87元
立即查看