大数据与金融(中央财经大学)中国大学MOOC答案-(免费)

第一讲 大数据金融的原理 第一讲单元测验

1、 问题:以下数据单位换算正确的是()
选项:
A:1GB=1024KB  
B:1MB=1024GB
C:1TB=1024GB
D:1EB=1024TB
答案: 【1TB=1024GB】

2、 问题:以下属于随机采样的困境的是()
选项:
A:真正的随机性难以保证 
B:成本高
C:人力消耗较多 
D:技术难度高
答案: 【真正的随机性难以保证 】

3、 问题:以下不属于信息不对称三个层次的是()
选项:
A:空间的信息不对称
B:时间的信息不对称
C:自身的信息不对称 
D:外界的信息不对称
答案: 【外界的信息不对称】

4、 问题:利用大数据进行精准营销克服的是()
选项:
A:空间的信息不对称
B:时间的信息不对称
C: 自身的信息不对称
D:外界的信息不对称
答案: 【空间的信息不对称】

5、 问题:以下表述正确的是()
选项:
A:大数据是一种随机采样 
B:大数据指大于1GB的数据
C:大数据分析胜过经验判断 
D:大数据分析不能够用于股票预测
答案: 【大数据分析胜过经验判断 】

第二讲 对金融数据降维 第二讲单元测验

1、 问题:以下不属于缺失值填充常规方法的是()
选项:
A:用均值填充
B:插值
C:预测填充
D:用随机数填充
答案: 【用随机数填充】

2、 问题:以下不属于降维方法的是()
选项:
A:平均法
B:主成份分析
C:因子分析
D:回归分析
答案: 【回归分析】

3、 问题:A股综合指数今日下跌1%,券商股领涨,有数只股票涨停。大盘A股平均换手率是2%,最大3%。已知,有三只股票的换手率和收益率分别为:股票A: 1%,1%股票B: 1.5%,1%股票C: 1%,1.5%从这两个特征看,以下正确的是 ()
选项:
A:与其他相比,A和B更相似
B:与其他相比,B和C更相似
C:与其他相比,A和C更相似
D:B和A、C和A的相似程度一致
答案: 【与其他相比,A和C更相似】

4、 问题:以下关于PCA和因子分析说的错误的是? ()
选项:
A:因子分析是有损的降维方法
B:PCA较因子分析更常用于问卷分析
C:PCA方法得到的变量较因子分析有更大的方差
D:在PCA的基础上因子旋转即可得到一种因子分析结果
答案: 【PCA较因子分析更常用于问卷分析】

5、 问题:PCA的理论基础是()
选项:
A:方差最大理论
B:残差最大理论
C:系数最大理论
D:成份最大理论
答案: 【方差最大理论】

第三讲 聚类在金融中的应用 第三讲单元测验

1、 问题:以下属于大数据聚类算法在金融领域运用的是()
选项:
A:根据客户信息识分析违约概率
B:根据银行客户的特点对客户进行细分,推荐合适的业务
C:根据资产价格的走势判断最佳的持仓量
D:判断一个保险客户出险的概率
答案: 【根据银行客户的特点对客户进行细分,推荐合适的业务】

2、 问题:以下不属于聚类算法的是()
选项:
A:K近邻
B:K均值
C:模糊C-均值
D:层次聚类
答案: 【K近邻】

3、 问题:以下属于基于密度的聚类方法是()
选项:
A:DBSCAN
B:K均值
C:模糊C-均值
D:层次聚类
答案: 【DBSCAN】

4、 问题:一般而言,聚类算法得到的结果非此即彼,以下可以得到属于某一类概率的方法是()
选项:
A:DBSCAN
B:K均值
C:模糊C-均值
D:层次聚类
答案: 【模糊C-均值】

5、 问题:以下表述正确的是()
选项:
A:在聚类之前应该先分类
B:在聚类之前应该先知道需要分几类
C:在聚类之前应该先将数据标准化
D:无论有多少指标,都可以直接聚类
答案: 【在聚类之前应该先将数据标准化】

第四讲 关联规则分析 第四讲单元测验

1、 问题:关于Apriori 算法以下表述错误的是()
选项:
A:置信度是指一个项集或者规则在所有事物中出现的频率
B:如果一个项集是频繁的,则它的所有子集一定也是频繁的
C:如果一个项集是非频繁的,则它的所有超集也一定是非频繁的
D:包含0个或多个项的集合被称为项集
答案: 【置信度是指一个项集或者规则在所有事物中出现的频率】

2、 问题:以下可能运用到关联规则分析金融场景是()
选项:
A:预测大盘的走势

B:银行APP的理财产品推荐系统
C:分析企业违约的可能性
D:以上皆有可能
答案: 【以上皆有可能】

3、 问题:能够用于关联规则分析的R语言包是()
选项:
A:pca
B:cluster
C:arules
D:apriori
答案: 【arules】

4、 问题:以下属于频繁项集的是()
选项:
A: 该项集的条目数超过一定阈值
B:该项集的支持度超过一定阈值
C:该项集的子集的是频繁项集
D:以上都是
答案: 【以上都是】

5、 问题:以下数据相关性的测度的是()
选项:
A:正弦相似度
B:余弦相似度
C:正切相似度
D:余切相似度
答案: 【余弦相似度】

第五讲 金融数据可视化 第五讲单元测验

1、 问题:以下哪项不属于南丁格尔玫瑰的优点()
选项:
A:放大选项间的差距
B:个性突出、醒目美观
C:方便绘制
D:具有视觉冲击力
答案: 【方便绘制】

2、 问题:以下哪项不属于数据可视化的目的()
选项:
A:生动形象展示结果     
B:批量展现结果
C:以更多载体进行展示
D:进行艺术创作
答案: 【进行艺术创作】

3、 问题:相较于传统的excel绘图,以下哪项不是Echart的优点()
选项:
A:图表丰富,设计感强
B:可以做交互
C:方便易用门槛低
D:组件众多,功能全
答案: 【方便易用门槛低】

4、 问题:东沙群岛在行政上属于以下哪个省级行政区()
选项:
A:广东省
B:海南省
C:台湾省
D:福建省
答案: 【广东省】

5、 问题:绘制地图时,一定要检查的点在()
选项:
A:钓鱼岛
B:南海诸岛
C:藏南地区
D:以上均是
答案: 【以上均是】

第六讲 网络数据采集 第六讲单元测验

1、 问题:以下哪项是我们编写数据采集器(爬虫)的目的:
选项:
A:获取某个网站全部数据
B:获取网站不公开数据
C:获取部分网页上的有限量数据
D:获得公民私人设备(如手机)上的数据
答案: 【获取部分网页上的有限量数据】

2、 问题:爬虫可能产生法律风险的点有()
选项:
A:频繁访问导致网站服务器过载
B:获得非公开数据并商业化售卖
C:获得公民隐私数据
D:以上都是
答案: 【以上都是】

3、 问题:常见的反爬虫策略不包括()
选项:
A:限制访问频率
B:限制登录
C:限制IP
D:部署robot.txt
答案: 【部署robot.txt】

4、 问题:如果我们只需要对少量(10万以下)的网页进行单次采集,并获得一份表格数据,以下哪个环节是我们不需要过分投入的()
选项:
A:网页遍历与访问
B:网页解析
C:合理合法的反反爬虫策略
D:支持动态更新的数据库
答案: 【支持动态更新的数据库】

5、 问题:本节课的教学目的是()
选项:
A:介绍爬虫的定义与规范,让大家可以使用简单的爬虫合理合法的进行采集,满足部分研究需要
B:学习如何进行反爬虫
C:学习如何入侵网站
D:学习如何入侵他人电子设备
答案: 【介绍爬虫的定义与规范,让大家可以使用简单的爬虫合理合法的进行采集,满足部分研究需要】

第七讲 特征工程在金融分析中的应用 第七讲单元测验

1、 问题:特征工程的目的不包括()
选项:
A:对数据进行清洗
B:对数据进行分布调整
C:对数据进行变形(如连续值变分组值)
D:调整部分样本,以得到预期结果
答案: 【调整部分样本,以得到预期结果】

2、 问题:缺失值处理的方法不包括()
选项:
A: 进行随机值填充
B:0值填充
C:均值填充
D:丢弃缺失太多的变量
答案: 【 进行随机值填充】

3、 问题:以下数据embedding而非encoding的是()
选项:
A:使用学号标志每个学生
B:使用one-hot编码表示单词
C:使用0,1,2,3表示文盲、小学、中学、大学学历
D:使用词向量方法将一个词语表示成向量
答案: 【使用词向量方法将一个词语表示成向量】

4、 问题:实践中,我们将连续值处理为分段值再进行学习的目的是()
选项:
A:增强算法稳健性
B:使线性方法可以处理复杂分布
C:让算法保持白盒方便调整
D:以上都是
答案: 【以上都是】

5、 问题:经计算,某变量的IV值为0.2,那么说明该变量的预测效果是()
选项:
A:几乎无效
B:弱
C:中等
D:强
答案: 【中等】

第八讲 文本分析初步 第八讲单元测验

1、 问题:以下哪项属于自然语言内容()
选项:
A:分析文章主题
B:判断文章情绪
C:机器生产文章
D:以上都是
答案: 【以上都是】

2、 问题:以下属于聚类问题的是()
选项:
A:判断评论的情绪  
B:判断文章的主题
C:进行中英文互译
D:自动摘要撰写
答案: 【判断文章的主题】

3、 问题:以下哪项不属于中文处理中常用预处理技术()
选项:
A:分词 
B:停用词 
C:词根化
D:分词
答案: 【词根化】

4、 问题:根据TF-IDF算法,以下哪项会使得某文档中某词的TF-IDF值变大()
选项:
A:本文本词出现频率升高
B:本文其他某词出现频率出现频率升高
C:包含本词的文章数量升高
D:删减若干篇不包含本词的文章
答案: 【本文本词出现频率升高】

5、 问题:一个理想化训练的词向量模型,以下哪个词会与“优秀”一词的空间距离最接近()
选项:
A:出色
B:获奖
C:冠军
D:失败
答案: 【出色】

第九章单元测试

1
多选(20分)

‍网络爬虫的主要步骤有()

答案:
B:信息解析
C:信息获取

2
多选(20分)

‏在实践中由于反爬虫技术的存在,往往我们并不能简单地用爬虫从网页上获取信息,而是需要编写程序绕过反爬虫。常见的反爬虫类型有哪些()

答案:
A:访问频率限制
B:网页验证码
D:登录限制

3
多选(20分)

‌在使用网络爬虫时,我们常利用开发者工具查看页面的源代码。开发者工具中所包含的主要模块有哪些()

答案:
A:元素
B:控制台
C:源代码
D:网络

4
多选(20分)

‌在网络爬虫的信息获取阶段,我们常用的python库有哪些()

答案:
A:Requests
B:Selenium

5
多选(20分)

‌网页解析时,我们常使用BeautifulSoup库进行解析。下列关于网页解析的说法中,正确的有()

答案:
B:find_all方法返回的是所有满足条件的节内容列表
D:find方法返回的是第一个满足条件的节点内容

6
判断(20分)

‎网络爬虫其实就是模拟客户端与服务器之间请求—响应行为从而获取信息的一类技术()

答案:
B:正确

7
判断(20分)

‌只要是在互联网上公开可得的信息,均可以使用网络爬虫技术来批量获取()

答案:
B:错误

8
判断(20分)

‌对于动态网页的信息进行爬取时,我们只能通过selenium库来实现()

答案:
B:错误

9
判断(20分)

‍利用requests库的get方法获取网页源代码时,除了网页地址,一般还需要加上网页请求参数、请求头和cookies等信息,以绕过反爬虫的设置()

答案:
B:正确

10
判断(20分)

‌网页解析的核心,其实就是要找到需要获取的内容所存放的节点以及不同节点之间的从属关系()

答案:
B:正确

更多中国大学MOOC答案。点击这里查看!