基于Rattle的可视化数据挖掘技术-预付365_综合福利消费平台
0 购物车
商品详情
首页 > 图书> 计算机与互联网> 数据库 > 基于Rattle的可视化数据挖掘技术
基于Rattle的可视化数据挖掘技术
商品价格: ¥28.70 [定价  ¥39.00]
商品编号: 12137783
服      务: 图书 负责发货并提供售后服务
商品运费: 全站满99包邮,不满收10元,实际运费以支付页面金额为准。
温馨提示: 不支持7天无理由退货
购买数量: - +
365商城不参加品牌方的满减优惠及赠品活动
商品介绍
规格与包装
  • 商品名称:基于Rattle的可视化数据挖掘技术
  • 商品编号:12137783
产品特色
  数据挖掘是指从大量数据中通过各种算法挖掘知识的过程,是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解模式的过程。近年来,数据挖掘技术发展异常迅猛,不仅产生了大量不同类型、功能强大的数据挖掘算法,而且推动了众多数据挖掘工具软件的发展。在这些软件中,R语言已悄然成为数据挖掘领域最重要的软件之一。R语言是一个包含众多学科、工程统计的庞大系统,是目前世界上流行的统计软件之一。R语言既是用于统计计算和统计制图的优秀工具,又是大数据分析和挖掘的重要工具。
  R语言得到全球顶级的统计学家支持,并实现了数据挖掘的所有关键算法。本书介绍了基于R语言开发的自由开源软件包Rattle进行数据挖掘的基本过程。Rattle包的源代码对每个人都是可见的,没有限制,任何人都可以扩展它。
  本书将引导读者通过Rattle包提供的各种选项完成数据挖掘任务。许多例子深入到R语言编程,目的是鼓励读者直接使用R语言作为脚本语言,通过R脚本实现数据挖掘所需要的基本技能。
  本书程序很少依赖对某些计算机编程语言的熟练程度。即使没有计算机编程经验,也能从本书受益。不过,还是鼓励所有读者熟悉使用某种计算机编程语言来处理和分析数据的方法。
  对大多数读者而言,本书容易理解,不需要很深的计算机和统计学背景知识。本书也会介绍一些较为复杂的统计、数学和程序设计概念,但主要的原则是保持简单,这意味着简化概念,且在不失去概念内涵的前提下保证概念的准确性。
  Rattle易学易用,不要求很多的R语言基础,被广泛应用于数据挖掘实践和教学之中。即使对R语言不是很了解的用户,也可以通过简单的鼠标点击来读入、转换、探索数据。而且,用户可以在Log中了解Rattle所使用的R语言命令记录。
  全书共9章,内容包括绪论、入门指南、数据准备、数据理解、数据检验、数据变换、数据建模、模型评估、模型部署。
  由于篇幅限制,本书并不能涵盖数据挖掘全部内容,读者可以通过《数理统计和数据分析》扩展统计学方面的知识;通过《线性回归分析导论》扩展线性回归方面的知识;通过《统计建模与R语言》扩展R在统计中应用方面的知识。若想更深入地了解R语言在数据挖掘中的应用,推荐参考《R语言与数据挖掘——最佳实践和经典案例》;若想了解数据挖掘可视化R语言实现,推荐参考《R数据可视化手册》。
  感谢南通大学程显毅教授在资料整理过程中所做的工作。感谢北京信息科技大学计算中心给予的支持。
  R语言是正在蓬勃发展的编程语言,其在数据挖掘领域的应用还有一些有价值的新内容来不及收入本书。加之编者知识水平和实践经验有限,书中难免存在不足之处,敬请读者批评指正。
内容简介
  数据挖掘技术近年来发展异常迅猛,已成为大数据时代*热门的技术和研究热点,不仅产生了大量不同类型、功能强大的数据挖掘算法,而且推动了众多数据挖掘工具软件的发展。在这些软件中,R语言是数据挖掘领域*重要的软件之一。Rattle是一种用于数据挖掘的R语言的图形交互界面,或称为可视化数据挖掘工具。Rattle给出了从数据整理到模型评价的完整解决方案。
  《基于Rattle的可视化数据挖掘技术》主要介绍如何用Rattte包进行数据挖掘,全书共9章,通过大量精选实例,循序渐进、全面系统地讲述数据挖掘过程。
  《基于Rattle的可视化数据挖掘技术》不仅是从事数据挖掘和大数据分析工程技术人员开发相关系统的技术资料,也可作为学习数据挖掘和大数据分析等课程的参考用书。
目录
第1章 绪论
1.1 数据挖掘的认识
1.1.1 为什么要进行数据挖掘
1.1.2 数据挖掘过程
1.1.3 数据挖掘九大定律
1.2 R与Rattle
1.2.1 R语言
1.2.2 R语言的基本语法
1.2.3 R语言的优势
1.2.4 Rattle包
1.3 本章小结

第2章 入门指南
2.1 概述
2.2 认识Rstudio
2.2.1 Rstudio的界面
2.2.2 R脚本编辑
2.2.3 R命令控制台
2.2.4 工作空间
2.2.5 结果展示区
2.3 认识Rattle
2.3.1 Rattle的安装与启动
2.3.2 选项卡
2.3.3 工具栏
2.3.4 菜单栏
2.3.5 属性面板
2.4 本章小结

第3章 数据准备
3.1 概述
3.2 数据
3.2.1 术语
3.2.2 变量
3.2.3 数据集
3.3 可用数据
3.4 数据质量
3.4.1 数据质量概述
3.4.2 数据质量评估维度
3.4.3 影响数据质量的因素
3.5 数据匹配
3.6 数据仓库
3.7 数据访问
3.8 载人数据
3.8.1 载入CSV数据
3.8.2 载入数据库
3.8.3 载入SPSS类型数据
3.8.4 载入自带数据集
3.8.5 载入网页数据
3.8.6 载入其他格式的数据
3.9 本章小结

第4章 数据理解
4.1 概述
4.2 汇总数据
4.2.1 查看数据的简单信息
4.2.2 查看数据的细节信息
4.2.3 查看数据的分布信息
4.2.4 查看数据的缺失值
4.3 数据分布图
4.3.1 数值型变量分布图
4.3.2 分类变量分布图
4.3.3 散点图矩阵
4.4 相关分析
4.4.1 相关矩阵和相关图
4.4.2 缺失值的相关分析
4.4.3 相关树
4.5 主成分分析
4.6 交互式探索数据
4.6.1 安装GGobi
4.6.2 安装rggobi
4.6.3 实验指导
4.7 本章小结

第5章 数据检验
5.1 概述
5.2 K-S正态性检验
5.3 Wilcoxon检验
5.4 t检验
5.5 F检验
5.6 本章小结

第6章 数据变换
6.1 概述
6.2 取值范围调整
6.3 缺失值填充
6.4 变量类型转换
6.4.1 数值变量离散化
6.4.2 分类变量指标化
6.4.3 分类变量合并
6.4.4 分类变量和数值变量互相转换
6.4.5 变量和数据的删除
6.5 离群点数据的处理
6.6 本章小结

第7章 数据建模
7.1 概述
7.2 聚类模型
7.2.1 背景
7.2.2 K-means聚类
7.2.3 Ewkm聚类
7.2.4 层次聚类
7.2.5 双向聚类
7.3 关联规则挖掘
7.3.1 背景
7.3.2 基本术语
7.3.3 关联规则分类
7.3.4 Apriori算法
7.3.5 实验指导
7.4 传统决策树模型
7.4.1 背景
7.4.2 ID3算法
7.4.3 C4.5 算法
7.4.4 实验指导
7.5 随机森林决策树模型
7.5.1 背景
7.5.2 随机森林算法
7.5.3 实验指导
7.6 自适应选择决策树模型
7.6.1 背景
7.6.2 Boosting算法
7.6.3 Adaboost算法
7.6.4 实验指导
7.7 SVM
7.7.1 背景
7.7.2 SVM算法
7.7.3 实验指导
7.8 线性回归模型
7.8.1 背景
7.8.2 一元线性回归方法
7.8.3 实验指导
7.9 神经网络模型
7.9.1 背景
7.9.2 人工神经网络模型
7.9.3 实验指导
7.10 本章小结

第8章 模型评估
8.1 概述
8.2 数据集
8.3 混淆矩阵
8.3.1 二分类混淆矩阵
8.3.2 模型评价指标
8.3.3 多分类混淆矩阵
8.4 风险图
8.4.1 风险图的作用
8.4.2 实验指导
8.5 ROC曲线
8.5.1 ROC曲线的定义
8.5.2 ROC曲线的作用
8.5.3 实验指导
8.6 其他模型评估图
8.7 本章小结

第9章 模型部署
9.1 概述
9.2 模型的应用
9.3 转换为PMML
9.4 电商数据挖掘案例
9.4.1 背景
9.4.2 数据理解
9.4.3 数据准备
9.4.4 清洗数据
9.4.5 探索数据
9.4.6 数据建模
9.5 本章小结
参考文献
  • 著者张冬慧
  • 出版社清华大学出版社
  • ISBN9787302474326
  • 版次1
  • 包装精装
  • 开本11
  • 出版时间2017-08-01
  • 用纸胶版纸
  • 页数174
  • 正文语种中文

温馨提示

由于部分商品包装更换较为频繁,因此您收到的货品有可能与图片不完全一致,请您以收到的商品实物为准,同时我们会尽量做到及时更新,由此给您带来不便多多谅解,谢谢!