
本网站不提供下载链接,喜欢看书的朋友请关注公众号:【lennylee的碎碎念】(lennyleede),首页回复:授人以渔,自动获取搜索资源的方法。
内容简介:
本书以“真实数据科学”为核心视角,通过扎实且具实践导向的内容,深入解析负责任的数据科学实践路径。从提出PCS框架(可预测性、可计算性、稳定性)切入,贯穿数据科学生命周期全流程,探究如何通过批判性思维和实证评估,确保数据分析结果的可信度,避免“数据窥探”和误导性结论。
同时,本书敏锐聚焦数据科学实践中的关键环节,借助全球器官捐赠数据、美国农业部营养数据等真实案例,详细演示数据清洗、探索性分析、模型构建等技术的实际应用,展现多重因素如何影响分析质量,以及如何通过严谨的全流程管理提升结果可靠性。
通过本书,读者将深入理解数据科学实践的核心逻辑,解锁负责任数据分析与决策的有效方法,了解如何在复杂真实数据场景中产出可信结论,成为推动数据科学负责任应用的实践者。
作者简介:
第一部分 简介
第1章 真实数据科学简介
1.1 数据和算法在现实决策中的作用
1.2 运用批判性思维评估和建立可信度
1.3 使用PCS框架评估和建立可信度
练习题
第2章 数据科学生命周期
2.1 数据术语
2.2 DSLC阶段1:问题构建和数据收集
2.3 DSLC阶段2:数据清洗、预处理和探索性数据分析
2.4 DSLC阶段3:探索数据的内在结构
2.5 DSLC阶段4:预测和/或推断分析
2.6 DSLC阶 5:评估结果
2.7 DSLC阶段6:沟通结果和更新领域知识
练习题
第3章 建立数据科学项目
3.1 编程语言和集成开发环境
3.2 一致的项目结构
3.3 可重复性
3.4 协作工具
练习题
第二部分 准备、探索和描述数据
第4章 数据准备
4.1 器官捐献数据
4.2 通用的数据清洗流程
4.3 步骤1:了解数据收集过程和问题域
4.4 步骤2:加载数据
4.5 步骤3:检查数据并创建操作项
4.6 步骤4:清洗数据
4.7 其他常见的预处理步骤
练习题
第5章 探索性数据分析
5.1 基于问答的探索性数据分析工作流程
5.2 常见的数据汇总方法
5.3 可比性
5.4 探索性数据分析结果的PCS审查
练习题
第6章 主成分分析
6.1 食物营养项目
6.2 生成归纳变量:主成分分析
6.3 预处理:为了可比性的标准化
6.4 奇异值分解
6.5 预处理:高斯性和变换
6.6 主成分分析步骤总结
6.7 PCS评估主成分分析
6.8 将主成分分析应用于每个营养组
6.9 主成分分析的替代方法
练习题
第7章 聚类
7.1 理解聚类
7.2 层次聚类
7.3 K-means聚类
7.4 高维聚类可视化
7.5 聚类质量的定量度量
7.6 比较聚类相似性的兰德指数
7.7 选择类别数
7.8 聚类结果的PCS审查
7.9 最终的聚类结果
练习题
第三部分 预测
第8章 预测问题简介
8.1 连接过去、现在和未来的预测问题
8.2 设置预测问题
8.3 PCS和评估预测算法
8.4 艾奥瓦州艾姆斯房价预测项目
练习题
第9章 连续响应和最小二乘法
9.1 可视化预测关系
9.2 使用拟合直线生成预测
9.3 计算拟合直线
9.4 预测性能的量化指标
9.5 预测结果的PCS审查
练习题
第10章 最小二乘法的推广
10.1 基于多个解释变量的线性拟合
10.2 预处理:独热编码
10.3 预处理:变量变换
10.4 变量选择
10.5 正则化
10.6 PCS评估
10.7 附录:线性拟合的矩阵形式
练习题
第11章 二元响应变量和逻辑回归
11.1 在线购物购买预测项目
11.2 二元预测的最小二乘法
11.3 逻辑回归
11.4 二元预测性能的定量度量
11.5 二元预测结果的PCS审查
练习题
第12章 决策树和随机森林算法
12.1 决策树
12.2 分类与回归树算法
12.3 随机森林算法
12.4 随机森林变量重要性度量
12.5 CART和RF算法的PCS评估
练习题
第13章 生成最终预测结果
13.1 方法1:使用PCS选择单一预测拟合
13.2 方法2:PCS集成
13.3 方法3:校准的PCS预测扰动区间
13.4 选择最终预测方法
13.5 在实际应用中使用预测
练习题
第14章 结论
14.1 可预测性
14.2 稳定性和不确定性
14.3 PCS的未来方向:推断
14.4 结束语
判断练习参考答案
参考文献
· · · · · · (收起)
原文摘录: