書名:	記憶體管理與多工絕版
作者:	侯俊傑
ISBN:	9789577170187
出版社:	新月

定價:	~~450~~元
折扣:	9 折
售價:	405 元
庫存:	已售完
此書籍已售完，調書籍需2-5工作日。建議與有庫存書籍分開下單
查看店內位置
LINE US!	詢問這本書團購優惠、書籍資訊等

記憶體管理與多工絕版

官網限定: 405

此書籍已售完，調書籍需2-5工作日。建議與有庫存書籍分開下單

付款方式:	超商取貨付款
	信用卡
	線上轉帳
物流方式:	超商取貨
	宅配
	門市自取

詳細資訊
閱讀心得

此書籍沒有詳細資訊。

大家的想法

還沒有人留下心得，快來搶頭香！

撰寫您的閱讀心得

為您推薦

Linux程式設計完全攻略：記憶體管理×檔案系統×多執行緒×網路×多媒體

原價: ~~720~~ 售價: 612 現省: 108元

立即查看

透視C語言指標：深度探索記憶體管理核心技術

透視C語言指標：深度探索記憶體管理核心技術 ISBN13：9789862769409 出版社：美商歐萊禮作者：Richard Reese 譯者：莊弘祥裝訂／頁數：平裝／232頁規格：23cm*19cm*1.3cm (高/寬/厚) 出版日：2013/10/25 中國圖書分類：電腦程式語言簡介深入理解 C 語言指標與記憶體管理能提昇程式設計能力。本書以實務應用為導向，介紹指標在動態記憶體操作、輔助資料結構實作與存取硬體的各種機制，在書中作者透過記憶體模型為讀者示範，如何將指標與陣列、字串、結構以及函式結合的各種使用方式。指標讓 C 語言有強大的彈性與能力，卻也難以精通--很難找到指標相關的參考資源。無論是初學者或是有經驗的 C/C++ 程式設計師與開發人員，本書鉅細靡遺涵蓋讀者所需要的資訊。 ‧介紹指標，包含不同指標型態的宣告 ‧學習動態記憶體配置、釋放以及其他記憶體管理技巧 ‧使用將資料傳入函數或自函數中傳回的技巧 ‧透過陣列與指標的關係理解陣列的基礎概念 ‧介紹字串的基礎，以及指標的各種字串操作 ‧瞭解指標各能造成的安全問題，如緩衝區溢位 ‧學習各種指標技巧，如不透明指標（opaque pointer）、有界指標（bounded pointer）以及使用 restrict 關鍵字目錄第一章入門第二章 C語言的動態記憶體管理第三章指標與函數第四章指標與陣列第五章指標與字串第六章指標與結構第七章安全問題與不當使用指標第八章其他補充

原價: ~~480~~ 售價: 408 現省: 72元

立即查看

不止量化及LORA：原生PyTorch性能及記憶體優化精解 (1版)

【簡介】不止量化及LORA - 原生PyTorch性能及記憶體優化精解　　✴︎深入介紹深度學習硬體，包括 CPU、GPU、記憶體與分散式系統。　　✴︎系統化學習 PyTorch 張量、運算元、自動微分與動態圖機制。　　✴︎提供 PyTorch 性能分析工具，幫助診斷與提升執行效率。　　✴︎優化資料載入與前處理，提升 Dataset 與 DataLoader 效能。　　✴︎介紹單卡 GPU 訓練最佳化，如 Batch Size 調整與同步減少。　　✴︎探討 GPU 記憶體管理，降低訓練時的記憶體佔用與浪費。　　✴︎解析分散式訓練，涵蓋資料平行、模型平行與多機多卡技術。　　✴︎涵蓋高級最佳化，如混合精度、自訂運算元與計算圖優化。　　✴︎深入解析 GPT-2 訓練最佳化，提供實戰經驗與效能提升。　　✴︎從程式碼到硬體調校，建立高效 PyTorch 訓練與開發流程。【目錄】第 1 章歡迎來到這場大模型競賽 1.1 模型規模帶來的挑戰 1.2 資料規模帶來的挑戰 1.3 模型規模與資料增長的應對方法第 2 章深度學習必備的硬體知識 2.1 CPU 與記憶體 2.1.1 記憶體 2.1.2 CPU 2.2 硬碟 2.3 GPU 2.3.1 CPU 的局限性 2.3.2 GPU 的硬體結構 2.3.3 GPU 程式設計模型及其硬體對應 2.3.4 GPU 的關鍵性能指標 2.3.5 顯示記憶體與記憶體間的資料傳輸 2.4 分散式系統 2.4.1 單機多卡的通訊 2.4.2 多機多卡的通訊 2.4.3 分散式系統的資料儲存第 3 章深度學習必備的 PyTorch 知識 3.1 PyTorch 的張量資料結構 3.1.1 張量的基本屬性及建立 3.1.2 存取張量的資料 3.1.3 張量的儲存方式 3.1.4 張量的視圖 3.2 PyTorch 中的運算元 3.2.1 PyTorch 的運算元函數庫 3.2.2 PyTorch 運算元的記憶體分配 3.2.3 運算元的呼叫過程 3.3 PyTorch 的動態圖機制 3.4 PyTorch 的自動微分系統 3.4.1 什麼是自動微分 3.4.2 自動微分的實現 3.4.3 Autograd 擴充自訂運算元 3.5 PyTorch 的非同步執行機制第 4 章定位性能瓶頸的工具和方法 4.1 配置性能分析所需的軟硬體環境 4.1.1 減少無關程式的干擾 4.1.2 提升PyTorch 程式的可重複性 4.1.3 控制GPU 頻率 4.1.4 控制CPU 的性能狀態和工作頻率 4.2 精確測量程式執行時間 4.2.1 計量CPU 程式的執行時間 4.2.2 程式預熱和多次執行取平均 4.2.3 計量GPU 程式的執行時間 4.2.4 精確計量GPU 的執行時間 4.3 PyTorch 性能分析器 4.3.1 性能分析 4.3.2 顯示記憶體分析 4.3.3 視覺化性能圖譜 4.3.4 如何定位性能瓶頸 4.4 GPU 專業分析工具 4.4.1 Nsight Systems 4.4.2 Nsight Compute 4.5 CPU 性能分析工具 4.5.1 Py-Spy 4.5.2 strace 4.6 本章小結第 5 章資料載入和前置處理專題 5.1 資料連線的準備階段 5.2 資料集的獲取和前置處理 5.2.1 獲取原始資料 5.2.2 原始資料的清洗 5.2.3 資料的離線前置處理 5.2.4 資料的儲存 5.2.5 PyTorch 與第三方函數庫的互動 5.3 資料集的載入和使用 5.3.1 PyTorch 的 Dataset 封裝 5.3.2 PyTorch 的 DataLoader 封裝 5.4 資料載入性能分析 5.4.1 充分利用CPU 的多核心資源 5.4.2 最佳化CPU 上的計算負載 5.4.3 減少不必要的CPU 執行緒 5.4.4 提升磁碟效率 5.5 本章小結第 6 章單卡性能最佳化專題 6.1 提高資料任務的平行度 6.1.1 增加資料前置處理的平行度 6.1.2 使用非同步介面提交資料傳輸任務 6.1.3 資料傳輸與GPU 計算任務平行 6.2 提高GPU 計算任務的效率 6.2.1 增大BatchSize 6.2.2 使用融合運算元 6.3 減少CPU 和GPU 間的同步 6.4 降低程式中的額外銷耗 6.4.1 避免張量的建立銷耗 6.4.2 關閉不必要的梯度計算 6.5 有代價的性能最佳化 6.5.1 使用低精度資料進行裝置間拷貝 6.5.2 使用性能特化的最佳化器實現 6.6 本章小結第 7 章單卡顯示記憶體最佳化專題 7.1 PyTorch 的顯示記憶體管理機制 7.2 顯示記憶體的分析方法 7.2.1 使用PyTorch API 查詢當前顯示記憶體狀態 7.2.2 使用PyTorch 的顯示記憶體分析器 7.3 訓練過程中的顯示記憶體佔用 7.4 通用顯示記憶體重複使用方法 7.4.1 使用原位操作運算元 7.4.2 使用共用儲存的操作 7.5 有代價的顯示記憶體最佳化技巧 7.5.1 跨批次梯度累加 7.5.2 即時重算前向張量 7.5.3 將GPU 顯示記憶體下放至CPU 記憶體 7.5.4 降低最佳化器的顯示記憶體佔用 7.6 最佳化Python 程式以減少顯示記憶體佔用 7.6.1 Python 垃圾回收機制 7.6.2 避免出現迴圈依賴 7.6.3 謹慎使用全域作用域 7.7 本章小結第 8 章分散式訓練專題 8.1 分散式策略概述 8.2 集合通訊基本操作 8.3 應對資料增長的平行策略 8.3.1 資料平行策略 8.3.2 手動實現資料平行算法 8.3.3 PyTorch 的DDP 封裝 8.3.4 資料平行的C/P 值 8.3.5 其他資料維度的切分 8.4 應對模型增長的平行策略 8.4.1 靜態顯示記憶體切分 8.4.2 動態顯示記憶體切分 8.5 本章小結第 9 章高級最佳化方法專題 9.1 自動混合精度訓練 9.1.1 浮點數的表示方法 9.1.2 使用低精度資料型態的優缺點 9.1.3 PyTorch 自動混合精度訓練 9.2 自訂高性能運算元 9.2.1 自訂運算元的封裝流程 9.2.2 自訂運算元的後端程式實現 9.2.3 自訂運算元匯入Python 9.2.4 自訂運算元匯入PyTorch 9.2.5 在Python 中使用自訂運算元 9.3 基於計算圖的性能最佳化 9.3.1 torch.compile 的使用方法 9.3.2 計算圖的提取 9.3.3 圖的最佳化和後端程式生成 9.4 本章小結第 10 章 GPT-2 最佳化全流程 10.1 GPT 模型結構簡介 10.2 實驗環境與機器配置 10.3 顯示記憶體最佳化 10.3.1 基準模型 10.3.2 使用跨批次梯度累加 10.3.3 開啟即時重算前向張量 10.3.4 使用顯示記憶體友善的最佳化器模式 10.3.5 使用分散式方法降低顯示記憶體佔用—FSDP 10.3.6 顯示記憶體最佳化小結 10.4 性能最佳化 10.4.1 基準模型 10.4.2 增加 BatchSize 10.4.3 增加資料前置處理的平行度 10.4.4 使用非同步介面完成資料傳輸 10.4.5 使用計算圖最佳化 10.4.6 使用float16 混合精度訓練 10.4.7 （可選）使用自訂運算元 10.4.8 使用單機多卡加速訓練 10.4.9 使用多機多卡加速訓練 10.4.10 性能最佳化小結結語

原價: ~~790~~ 售價: 711 現省: 79元

立即查看

Intel大師帶你架設AI底層：持久記憶體架構服務實作

原價: ~~880~~ 售價: 792 現省: 88元

立即查看

巨型服務架構：分布式/資料庫優化/記憶體快取設計/IO模型

原價: ~~690~~ 售價: 621 現省: 69元

立即查看

大家的想法

撰寫您的閱讀心得

書籍分類

您的購物車