北语22年5月《大数据技术与应用》作业1参考-北京语言大学-无忧答案网

aopeng 发表于 2022-5-14 09:13:54

北语22年5月《大数据技术与应用》作业1参考

22春《大数据技术与应用》作业1
1.[单选题] 数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为
答案资料下载请参考帮助中心说明
A.2
B.4
C.6
D.8
答:——D——
2.[单选题] 在pandas中脏数据的典型表示有（）
A.np.nan
B.*
C.?
D.no
答:——A——
3.[单选题] 利用pandas处理数据缺失值时，用于丢弃缺失值的函数为
A.isnull
B.head
C.tail
D.dropna 四川大学答案无忧答案网整理
4.[单选题] 数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22}的中四分位数为
A.2
B.4
C.6
D.8
答:————
5.[单选题] 数据集{1,2,3,5,7,8,9}的中位数是
A.3
B.5
C.7
D.4
6.[单选题] 用训练好的LOF实例对数据进行LOF分数计算并排序的语句是
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_
答:————
7.[单选题] 利用pandas处理数据缺失值时，用于发现重复值的函数为
A.isnull
B.duplicated
C.fillna
D.dropna
答:————
8.[单选题] 分类的目标是
A.将一组对象分组以发现它们之间是否存在某种关系
B.从一组预定义的类中查找新对象所属的类
C.提高数据标签利用效率
D.以上都不对
答:————
9.[单选题] 项集 S ={ },则项集S称为
A.1项集
B.2项集
C.3项集
D.空集
答:————
10.[单选题] 训练随机森林模型实例的语句是
A.from sklearn.tree import DecisionTreetClassifier
B.clf=DecisionTreetClassifier()
C.clf.fit(Xtrain,Ytrain)
D.predictions=clf.predict(Xtest)
11.[单选题] :from sklearn.tree import DecisionTreeClassifiernclf = DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain) npredictions = clf.predict(Xtest)n上面代码第4行中Xtest表示
A.训练数据集
B.测试数据集
C.训练数据的类别标签数组
D.测试数据的类别标签数组
答:————
12.[单选题] 数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的上四分位数为
A.20
B.22
C.20.5
D.28
答:————
13.[单选题] 关联规则 X→Y 表示中Y称为
A.前件
B.后件
C.中间件
D.以上都不对
答:————
14.[单选题] 数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的四分位差为
A.20
B.22
C.20.5
D.18.5
答:————
15.[单选题] 用训练好的LOF实例判断数据是否异常，正常样本用1表示，异常样本用-1表示的语句
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_
答:————
16.[多选题] 常用的描述统计分析方法包括
A.对比分析法
B.平均分析法
C.交叉分析法
D.以上都不对
答:————
17.[多选题] 关联规则反映的是
A.可分类性
B.可分割性
C.事物之间相互依存性
D.事物之间相互关联性
18.[多选题] 数据集中趋势分析的常用指标包括
A.平均值
B.中位数
C.众数
D.四分位数
答:————
19.[多选题] 数据挖掘是适应信息社会从海量数据中提取信息的需要而产生的新学科，也是交叉学科，包括
A.统计学
B.机器学习
C.数据库
D.模式识别
答:————
20.[多选题] 常用的分类方法包括
A.朴素贝叶斯分类器
B.决策树
C.KNN
D.以上都不对
答:————
21.[判断题] 分箱法是针对连续的数值型数据中噪声进行处理
A.对
B.错
22.[判断题] 因为 Bayes 理论能够帮助理解基于概率估计的复杂现况，所以它成为了数据挖掘和概率论的基础
A.对
B.错
23.[判断题] 数据类型等级最高的是定类数据
A.对
B.错
24.[判断题] 分类算法的目的是找到数据的最优拟合
A.对
B.错
答:————
25.[判断题] 数据类型等级最低的是定比数据
A.对
B.错
答:————

核对题目下载转载注明无忧答案网

页: [1]

无忧答案网's Archiver

北语22年5月《大数据技术与应用》作业1参考