数据挖掘与python实践 中央财经大学
第一单元 导言 第一单元测验
1、 数据挖掘又称从数据中发现知识,后者英文简称为( )。
答案: KDD
2、 数据挖掘又称从数据中发现知识,前者英文简称为( )。
答案: DM
3、 一般数据挖掘的流程顺序,下列正确的是( )。①选择数据挖掘的技术、功能和合适的算法②选择数据,数据清洗和预处理③了解应用领域,了解相关的知识和应用目标④寻找感兴趣的模式、模式评估、知识表示⑤创建目标数据集
答案: ③⑤②①④
4、 结构化的数据是指一些数据通过统一的( )的形式存储的,这类数据我们称为结构化的数据。
答案: 二维表格
5、 数值预测用于连续变量的取值,常用的预测方法是( )。
答案: 回归分析
6、 下列应用场景不属于分类的是( )。
答案: 为了解用户特点,公司将客户分群
7、 数据挖掘包括下面哪些方法( )。
答案: 分类;
聚类;
关联;
异常发现
8、 数据挖掘和哪些学科领域有关系( )。
答案: 统计;
机器学习;
数据库;
优化
9、 聚类针对有标签的数据。
答案: 错误
10、 分类和回归都可用于预测,分类的输出是离散的类别值。
答案: 正确
11、 分类就是根据物以类聚的原理,将没有类别的对象根据对象的特征自动聚成不同簇的过程。
答案: 错误
12、 序列分析经常会用在购物篮分析中。
答案: 错误
13、 关联分析是数据分析中常用的分析方法。
答案: 正确
14、 在这个大数据爆炸的时代,我们期待能够从这些数据中提炼出有用的知识,解决的方法就是数据仓库技术和 技术。
答案: 数据挖掘
15、 在这个大数据爆炸的时代,我们期待能够从这些数据中提炼出有用的知识,解决的方法就是 技术和数据挖掘技术。
答案: 数据仓库
16、 从存储方式对数据类型进行分类,可分为 数据和 数据。(输入两个位置的答案时,以一个空格作为分隔符)
答案: 结构化 非结构化
17、 预测的模型构建需要 来进行分析。
答案: 历史数据
18、 就是根据有类别的数据提供的信息,来概括类别的主要特征,构建模型或者规则,根据该模型或者规则预测对象的类别。
答案: 分类
第二单元 认识数据 第二章单元测验
1、 下列对学生相关属性描述中,不是标称属性的是( )。
答案: 身高
2、 下列哪些选项能表示序数属性的数据集中趋势度量( )。
答案: 众数
3、 ( )可以观察从一个分布到另一分布是否有漂移。
答案: 分位数-分位数图
4、 4人喜欢服饰的颜色如下,属性是标称属性。李四和孙六的相似性是( )。姓名帽子颜色上衣颜色裤子颜色鞋子颜色围巾颜色张三红蓝蓝绿红李四红蓝蓝红粉王五黄绿蓝绿红孙六蓝蓝蓝红粉
答案: 4/5
5、 度量作为一种测度,满足以下哪些条件:
答案: 以上均是
6、 Python语言在创始人是( )。
答案: Guido van Rossum
7、 Python科学计算的基本包是( )。
答案: Numpy
8、 以下Python包中,绘图功能最强大的是( )。
答案: Matplotlib
9、 以下Python包中,最适合用于机器学习的是( )。
答案: Scikit-learn
10、 以下Python包中,提供了DataFrame数据类型的是( )。
答案: Pandas
11、 为了避免包的依赖关系和系统兼容性等方面出现问题,本课程推荐的Python安装方式为( )。
答案: 通过Anaconda安装
12、 下列对学生的描述属性中,标称属性的属性是:
答案: 头发颜色;
婚姻状况;
学号
13、 下列哪些指标可以度量数据的离散趋势度量:
答案: 极差;
四分位数;
四分位数极差;
五数概括
14、 在探索性数据分析中,认为最有代表性,最能反映数据重要特征的五数概括,包括:
答案: 中位数Q2;
四分位数Q1;
四分位数Q3;
最小值;
最大值
15、 在文献中,属性、维、特征和变量通常可以互换地使用。
答案: 正确
16、 二元属性是一种特殊的标称属性,分为对称和不对称两种。
答案: 正确
17、 序数属性的值存在有意义的序。相邻两者之间的差是已知的。
答案: 错误
18、 如果属性不是离散的,则它是连续的。
答案: 正确
19、 四分位数极差(IQR)是第1个和第2个四分位数之间的距离。
答案: 错误
20、 盒图用来考察两个属性之间是否存在正相关和负相关。
答案: 错误
21、 对于非对称的二元属性,两个都取值1的情况(正匹配)被认为比两个都取值0的情况(负匹配)更有意义,其中负匹配数t被认为是不重要的,因此在计算时可以忽略。
答案: 正确
22、 一般来说数据库中行对应于数据对象,而列对应于属性。
答案: 正确
23、 相异性矩阵又称对象-对象结构,存放n个对象两两之间的邻近度。
答案: 正确
24、 在计算混合类型属性的相异性时,一般是通过将所有有意义的属性转换到共同的区间[0.0,1.0]上,实现在单个相异性矩阵中进行计算。
答案: 正确
25、 为了抵消少数极端值对均值计算的影响,我们可以使用 。
答案: 截尾均值
26、 中列数是数据集的 最大值 和 的平均值。
答案: 最小值
27、 给定两个数据对象(19,4,5)和(22,6,3),则两个对象之间的欧氏距离 。如果计算结果是小数,则保留一位;如果是整数,则直接填写整数
答案: 4.1
28、 给定两个数据对象(19,4,5)和(22,6,3),则两个对象之间的曼哈顿距离 。如果计算结果是小数,则保留一位;如果是整数,则直接填写整数
答案: 7
29、 给定两个数据对象(19,4,5)和(22,6,3),则两个对象之间的上确界距离 。如果计算结果是小数,则保留一位;如果是整数,则直接填写整数
答案: 3
30、 x=(5,0,3,0,2,0,0,2,0,0)和y=(3,0,2,0,1,1,0,1,0,1),使用余弦相似度公式计算这两个向量之间的相似性等于 。如果计算结果是小数,则保留一位;如果是整数,则直接填写整数
答案: 0.9
第三单元 数据预处理 第三单元测验
1、 运行以下代码from sklearn.datasets import load_irisiris_data = load_iris()iris_data.data.shape输出结果为(150, 4)。则表示iris数据集包括样本个数为( )。
答案: 150
2、 运行以下代码from sklearn.datasets import load_irisiris_data = load_iris()iris_data.data.shape输出结果为(150, 4)。则表示iris数据集包括样本特征数为( )。
答案: 4
3、 在Numpy包中,计算中位数的函数为( )。
答案: numpy.median()
4、 在Numpy包中,计算标准差的函数为( )。
答案: numpy.std()
5、 给定df是一个DataFrame对象,对df所有字段进行描述性统计,可以利用的方法为( )。
答案: df.describe()
6、 运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制饼状图,需要利用的函数为( )。
答案: plt.pie()
7、 运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制折线图,需要利用的函数为( )。
答案: plt.plot()
8、 运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制直方图,需要利用的函数为( )。
答案: plt.hist()
9、 运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制散点图,需要利用的函数为( )。
答案: plt.scatter()
10、 使用最小-最大法进行数据规范化,需要映射的目标区间为[0,100],原来的取值范围是[-10,10]。根据等比映射的原理,一个值8映射到新区间后的值是( )。
答案: 90
11、 使用零均值规范化方法,年收入属性的均值为65,标准差为12,则年收入59万元规范化后为( )。
答案: -0.5
12、 使用等距离分箱法进行数据离散化,数据范围为20, 40, 50, 58, 65, 80, 80, 82, 86, 90, 96, 105, 120, 200,区间个数为4。下列属于4个箱的区间是( )。
答案: [110,155)
13、 特征选择方法中,一般的启发式方法有( )。
答案: 以上都是
14、 在使用主成分分析法进行数据属性特征提取中,在对数据集进行中心化处理后,为了去除冗余和降低噪音,应将协方差矩阵非对角线上的元素化为( )。
答案: 0
15、 关联规则的挖掘算法只能处理( )类型的取值,为此( )是继续其知识发现过程的必要步骤。
答案: 离散;数据离散化
16、 ( )是指对描述对象的属性进行重新组合,获得一组反映事物本质的少量的新的属性的过程。( )是指从属性集合中选择那些重要的、与分析任务相关的子集的过程。
答案: 特征提取;特征选择
17、 下列不属于数据预处理原因的是( )。
答案: 数据量过于庞大
18、 下列关于数据规范化说法错误的是( )。
答案: 数据规范化是为了给重要的属性赋予更大的权重
19、 缺失值处理方法中错误的是( )。
答案: 对于所有属性都可以使用均值
20、 主成分分析的步骤是( )。
答案: 中心化数据集-计算协方差矩阵-计算特征根-计算主成分矩阵-得到降维后的数据集
21、 下列关于等距离分箱的说法中错误的是( )。
答案: 等距离分箱能使每个区间内包含的取值个数大致相同
22、 数据预处理的任务不包括( )。
答案: 数据分类
23、 使用python处理缺失值的方法中叙述错误的是( )。
答案: interpolate()使用中位数填充缺失值
24、 最小最大规范化方法MinMaxScaler属于python中的哪个包( )。
答案: sklearn
25、 主成分分析方法PCA属于属于python中的哪个包( )。
答案: sklearn
26、 最小-最大法中,假设需要映射到目标区间为[L,R ],原来的取值范围为[l, r ]。一个值x映射到新区间后的值v的计算方法是( )。
答案:
27、 在利用中文文本绘制词云时,需要在anaoncda的基础上安装哪些工具包( )。
答案: Wordcloud;
Jieba
28、 数据预处理的任务有哪些( )。
答案: 数据离散化;
数据规范化;
数据清洗;
特征提取与特征选择
29、 数据规范化方法有哪些( )。
答案: 最小-最大法;
z-score
30、 数据清洗的主要目的是将数据集中存在的( )和( )进行处理,降低其对后续数据分析处理的影响。
答案: 缺失;
噪声
31、 特征选择过程是描述同一对象的多个属性的取值范围,统一到相同的范围,避免某些属性的作用大于其它属性。
答案: 错误
32、 通过数据离散化,可以实现缩减数据量的效果。
答案: 正确
33、 有监督的离散化方法常用的有分箱法和ChiMerge方法。
答案: 错误
34、 基于熵的方法可以被看做是自顶向下的分裂方法,ChiMerge则属于自底向上的合并方法。
答案: 正确
35、 一种简单的填补缺失值的方法为, 将属于同一类的对象的该属性值的均值赋予此缺失值。
答案: 正确
36、 分箱离散化是一种有监督离散化方法。
答案: 错误
37、 基于熵的离散化方法是常用的有监督的离散化方法。
答案: 正确
38、 选择属性子集的方法一般采用启发式方法,只检验部分可能性比较大的子集,这样可以快速完成属性的选择。
答案: 正确
39、 主成分分析能够达到去除冗余、降低噪音和降维的目的,但无法得到反映事物本质的新变量。
答案: 错误
40、 将数据分为n个等频的箱中,可以⽤箱均值、箱中位数或箱边界光滑数据。
答案: 正确
41、 在主成分分析中,每个主成分都是原始变量的线性组合,且各个主成分之间互不相关。
答案: 正确
42、 等距离分箱可能导致属于某些区间的取值非常多,而某些区间的取值又非常少。 则能够解决此问题。
答案: 等频
43、 面对噪音,一类是识别出噪音,将其去除;另一类是可以使用 方法,用于平滑噪音。
答案: 分箱
44、 使用主成分分析法进行数据属性特征提取中,每个新的特征是原有特征的 。
答案: 线性组合
45、 一组数据:20,40,50,58,65,80,80,82,86,90,96,105,120,200。采用等距分箱法分为4箱,其中82位于第____个箱。(填写阿拉伯数字)
答案: 2
46、 一组数据:20,40,50,58,65,80,80,82,86,90,96,105,120,200。使用最大-最小法进行数据规范化,目标区间为[0,1],则80映射到新区间后的值为___。(四舍五入保留小数点后两位)
答案: 0.33
下方是付费阅读内容:本平台商品均为虚拟商品,无法用作二次销售,不支持退换货,请在购买前确认您需要购买的资料准确无误后再购买,望知悉!
完整答案需点击上方按钮支付5元购买,所有答案均为章节测试答案,购买后上方矩形框将出现已付费的隐藏内容。
如果点击【立即购买】不能跳转,请更新一下APP版本,如百度APP可能有兼容性问题,更新版本即可正常使用,或者换一个浏览器(如UC浏览器)再试试
为了方便下次阅读,建议在浏览器添加书签收藏本网页
添加书签方法:
1.电脑按键盘的Ctrl键+D键即可收藏本网页
2.手机浏览器可以添加书签收藏本网页
获取更多慕课答案,欢迎在浏览器访问我们的网站:http://mooc.mengmianren.com
注:请切换至英文输入法输入域名,如果没有成功进入网站,请输入完整域名:http://mooc.mengmianren.com/
我们的公众号
打开手机微信,扫一扫下方二维码,关注微信公众号:萌面人APP
本公众号可查看各种网课答案,还可免费查看大学教材答案
点击这里,可查看公众号功能介绍
一键领取淘宝,天猫,京东,拼多多无门槛优惠券,让您购物省省省,点击这里,了解详情