北语网院23年1月《大数据技术与应用》作业_3
1.[单选题]人工录入的数据可能都需要进行一些必要的变换,以下不是变换的是()A.错别字
B.英文单词时大小写的不统一
C.输入了额外的空格
D.中英文混写
答:——D——
2.[单选题]from sklearn.ensemble import IsolationForest nclf = IsolationForest(max_samples=100, random_state=0)n从上面语句可以看出孤立森林中孤立树模型的数目为
A.100
B.200
C.300
D.400
答:——A——
3.[单选题]数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22}的上四分位数为
A.12
B.14
C.16
D.18
答:——B——
4.[单选题]逻辑回归中的“逻辑”是指
A.规则
B.Sigmoid函数
C.学者名字
D.以上都不对
答:————
5.[单选题]不包含任何项的项集是指
A.项
B.空集
C.超项集
D.子项集
答:————
6.[单选题]利用pandas处理数据缺失值时,用于发现重复值的函数为
A.isnull
B.duplicated
C.fillna
D.dropna
答:————
7.[单选题]从软件库中导入模糊C均值聚类算法类的语句是
A.from fcmeans import FCM
B.fcm=FCM(n_clusters=3)
C.fcm.fit(X)
D.fcm_labels=fcm.u.argmax(axis=1)
答:————
8.[单选题]from sklearn.neighbors import KNeighborsClassifiernknn = KNeighborsClassifier(n_neighbors=3) n上面代码中可以看出,KNN分类器的k值设置为
A.1
B.2
C.3
D.4
答:————
9.[单选题]用训练好的随机森林对样本进行类别预测的语句是
A.from sklearn.tree import DecisionTreetClassifier
B.clf=DecisionTreetClassifier()
C.clf.fit(Xtrain,Ytrain)
D.predictions=clf.predict(Xtest)
答:————
10.[单选题]决策树生成过程的停止条件
A.当前结点包含的样本全属于同一类别,无需划分
B.当前属性集为空,或是所有样本在所有属性上取值相同,无法划分
C.当前结点包含的样本集合为空,不能划分
D.以上都不对
答:————
11.[多选题]大数据收集的途径包括()
A.互联网
B.移动互联网
C.物联网传感器
D.手动
答:————
12.[多选题]定性数据包括
A.有序数据
B.无序数据
C.定类等级数据
D.定性等级数据
答:————
13.[多选题]描述性统计分析方法包括
A.数据的频数分析
B.数据的集中趋势分析
C.数据离散程度分析
D.数据的分布分析
答:————
14.[多选题]属于基于统计的异常值检测方法包括
A.MA滑动评价法
B.3-Sigma方法
C.LOF法
D.聚类法
答:————
15.[多选题]异常检测的应用范围包括
A.网络入侵检测
B.系统健康性检测
C.信用卡交易欺诈检测
D.设备故障检测
答:————
16.[判断题]回归算法的输出为离散数据
A.T
B.F
答:————
17.[判断题]分类算法的目的是找到数据的最优拟合
A.T
B.F
答:————
18.[判断题]3-Sigma方法异常检测算法假设数据服从泊松分布
A.T
B.F
答:————
19.[判断题]因为 Bayes 理论能够帮助理解基于概率估计的复杂现况,所以它成为了数据挖掘和概率论的基础
A.T
B.F
答:————
20.[判断题]等宽分箱方法是指每个分箱中样本数量一致
A.T
B.F
答:————
21.[判断题]描述性统计分析对调查对象局部变量的有关数据做统计性描述即可
A.T
B.F
答:————
22.[判断题]众数是数据离散程度分析常用指标之一
A.T
B.F
答:————
23.[判断题]数据挖掘(Data Mining)则是知识发现(KDD)的核心部分,它指的是从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程
A.T
B.F
答:————
24.[判断题]描述性数据分析属于比较高级复杂的数据分析手段
A.T
B.F
答:————
25.[判断题]回归可看成从一个数据集到一组预先定义的非交叠类别的映射过程,属于监督学习
A.T
B.F
答:————
页:
[1]