网课铺 2023-10-16 11:26
第一章测试
1、2011年麦肯锡研究院提出的大数据定义是:大数据是指其大小超出了常规数据库工具获取、储存、管理和( )能力的数据集。
A、计算
B、访问
C、应用
D、分析
参考答案:D
2、用4V来概括大数据的特点的话,一般是指:Value、Velocity、Volume和( )。
A、Variety
B、Vainly
C、Vagary
D、Valley
参考答案:A
3、大数据分析四个方面的工作主要是:数据分类、( )、关联规则挖掘和时间序列预测。
A、数据统计
B、数据计算
C、数据聚类
D、数据清洗
参考答案:C
4、新浪和京东联合推出的大数据商品推荐,是由京东盲目推送到当前浏览新浪网站的用户的页面上的。
参考答案:X
5、目前的大数据处理技术只能处理结构化数据。
参考答案:X
第二章测试
1、我们常用的微软Office套件中的Access数据库软件的数据库文件格式后缀名是( )。
A、mdf
B、mdb
C、dbf
D、xls
参考答案:B
2、大多数日志文件的后缀名是( )。
A、txt
B、csv
C、xml
D、log
参考答案:D
3、本课程重点介绍的weka软件的专有文件格式是( )。
A、MongoDB
B、ARFF
C、value
D、key map
参考答案:B
4、数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和( )。
A、专业性
B、排他性
C、一致性
D、共享性
参考答案:C
5、八爪鱼软件的“自定义采集”工作方式下,需要在软件里输入一个( )来作为采集的目标。
A、电话号码
B、关键词
C、网页地址
D、用户名
参考答案:C
6、八爪鱼软件的采集规则可以通过文件的形式来导入或者导出,这种文件的后缀名是( )。
A、otd
B、jpg
C、png
D、gif
参考答案:A
7、Excel可以通过“数据有效性”按钮操作来规范数据输入的范围。
参考答案:√
8、Excel不能导入txt或csv格式的文件。
参考答案:X
9、八爪鱼软件只能对软件内建了“简易采集”规则的网站采集数据。
参考答案:X
10、八爪鱼软件进行自定义采集时,需要了解对网页的页面结构。
参考答案:√
第三章测试
1、使用DBSCAN算法对鸢尾花数据集(Iris.arff)进行聚类,将epsilon参数设置为0.2, minPoints参数设置为5,忽略class属性,那么将形成( )个簇。
A、1
B、2
C、3
D、4参考答案:C
2、使用EM算法对天气数据集(weather.numeric.arff)进行聚类,将numClusters设置为4,即簇数为4,其他参数保持默认值,忽略class属性,从结果中可知,下列选项中,( )是错误的。
A、模型的最大似然估计值是-7.18
B、这组数据用算法迭代15次
C、第四个簇的先验概率是0.14
D、第四个簇的实例数为4参考答案:D
3、使用SimpleKMeans算法对天气数据集(weather.numeric.arff)进行聚类,保持默认参数,即3个簇以及欧氏距离。选择play属性为忽略属性,从结果中可知,下列选项中,( )是错误。
A、这组数据用算法迭代四次
B、产生了三个中心点
C、聚合为3个簇,分别有7,3,4个实例
D、平方和误差为8.928参考答案:A
4、使用线性回归(LinearRegression)分类器和用M5P分类器对cpu.arff分别进行分类,由其输出的误差指标可知( )。
A、LinearRegression的标准误差比M5P的标准误差小
B、LinearRegression的平均绝对误差比M5P的平均绝对误差小
C、LinearRegression的相对误差比M5P的相对误差小
D、LinearRegression的平均方根误差比M5P的平均方根误差大
参考答案:D
5、删去cpu.arff数据文件中的CACH属性后,使用M5P分类器构建方案,在结果中,到达LM2的实例数有( )个。
A、165
B、21
C、23
D、30参考答案:B
6、根据J48分类器训练weather.nominal.arff所生产的决策树,当outlook=sunny;temperature=cool;humidity =high;windy=TRUE时,分类的结果是( )。
A、Yes
B、No
C、没有结果
D、无法分类
参考答案:B
7、根据J48分类器训练iris.arff所生产的决策树,当sepallength=4.4;sepalwidth=3.0;petallength=1.3;petalwidth=0.2时,分类的结果是( )。
A、Iris-setosa
B、Iris-versicolor
C、Iris-virginica
D、无法分类
参考答案: