|
数据科学的三个层次
在讨论数据科学能力进程表之前,首先介绍数据科学的三个层次。本节将讨论笔者认为的数据科学能力的三个层次:1级(基础)、2级(中级)和3级(高级)。能力从1级增加到3级。这里将使用Python作为默认语言,即使其他编程语言(例如R,SAS和MATLAB)也可用于数据科学。
基础水平
在第一级,你应该学会使用通常以逗号分隔符(CSV)文件格式表示的数据集,应该具备掌握数据基础知识的能力,如数据可视化和线性回归。
1. 数据基础知识
能够操作、清理、结构化、缩放和设计数据。熟练使用pandas和NumPy库,具备以下能力:
-
知道如何导入和导出以CSV文件格式存储的数据
-
能够清理、整理和组织数据以进行进一步分析或建模
-
能够处理数据集中的缺失值
-
了解并能够应用数据插值技术,例如均值或中位数插值
-
能够处理类别数据
-
知道如何将数据集划分为训练和测试集
-
能够使用诸如归一化和标准化之类的缩放技术来缩放数据
-
能够通过降维技术(例如主成分分析(PC))来压缩数据
2. 数据可视化
能够理解好的数据可视化的基本组成部分。能够使用数据可视化工具,包括Python的matplotlib和seaborn包和R的ggplot2包。应该了解好的数据可视化的基本组成部分:
-
数据组件:决定如何可视化数据的重要的第一步是了解数据的类型,例如分类数据、离散数据、连续数据、时间序列数据等。
-
几何组件:决定哪种可视化适合你的数据,例如散点图、线图、条形图、直方图、Q-Q图、平滑密度图、箱形图、多变量图以及热图等。
-
映射组件:需要确定将什么变量用作x变量,将什么变量用作y变量。这一点很重要,尤其是当数据集是具有多个特征的多维数据集时。
-
比例组件:决定使用哪种比例,例如线性比例、对数比例等。
-
标签组件:包括轴标签、标题、图例、要使用的字体大小等内容。
-
道德构成要素:确保可视化过程是真实的。在清理、汇总、操作和生成数据可视化效果时注意操作,并确保不会使用可视化效果误导或操纵受众。
3. 监督学习(预测连续目标变量)
熟悉线性回归和其他高级回归方法。能够使用scikit-learn和caret等数据包进行线性回归模型构建。具有以下能力:
-
能够使用NumPy或Pylab执行简单的回归分析
-
能够使用scikit-learn执行多元回归分析
-
了解正则化的回归方法,例如Lasso回归、岭回归和弹性网络
-
了解其他非参数回归方法,例如K近邻回归(KNR)和支持向量回归(SVR)
-
了解评估回归模型的各种指标,例如MSE(均方误差)、MAE(平均绝对误差)和R2分数
-
能够比较不同的回归模型
-

(编辑:甘孜站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|