北语网院23年1月《大数据技术与应用》作业_4
1.[单选题]数据等级排序T的是A.定距等级>定比等级>定类等级>定序等级
B.定比等级>定序等级>定距等级>定类等级
C.定比等级>定距等级>定序等级>定类等级
D.定比等级>定类等级>定序等级>定距等级
答:——C——
2.[单选题]利用pandas处理数据缺失值时,用于填充缺失值的函数为
A.isnull
B.head
C.fillna
D.dropna
答:——C——
3.[单选题]数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的上四分位数为
A.20
B.22
C.20.5
D.28
答:——C——
4.[单选题]从软件库中导入孤立森林isolation forest算法类的语句是
A.from sklean.ensemble import IsolationForest
B.LocalOutlierFactor
C.clf= IsolationForest(max_samples=100,random_state=0)
D.clf.fit(X_train)
E.y_pred=clf.fit_predict(X)
F.y_pred_test = clf.predict(X_test)
答:————
5.[单选题]以下不是大数据的特征()
A.大量
B.多样
C.高速
D.实时
答:————
6.[单选题]pandas中用于合并表的方法为
A.Pandas中的merge方法
B.Pandas中的head方法
C.Pandas的tail
D.以上都不对
答:————
7.[单选题]以下不属于大数据分析方法的是()
A.统计分析
B.数学模型
C.机器学习
D.人工智能
答:————
8.[单选题]from fcmeans import FCMnfcm = FCM(n_clusters=4)n从上面代码可以判断模糊C均值聚类的聚类数为
A.1
B.2
C.3
D.4
答:————
9.[单选题]项集 S ={尿布,啤酒,牛奶,可乐},则项集S称为
A.1项集
B.2项集
C.3项集
D.4项集
答:————
10.[单选题]训练孤立森林isolation forest实例的语句是
A.from sklean.ensemble import IsolationForest
B.LocalOutlierFactor
C.clf= IsolationForest(max_samples=100,random_state=0)
D.clf.fit(X_train)
E.y_pred=clf.fit_predict(X)
F.y_pred_test = clf.predict(X_test)
答:————
11.[多选题]决策树结构包括
A.根结点
B.分支
C.内部节点
D.叶结点
答:————
12.[多选题]定量数据包括
A.连续数据
B.离散数据
C.定距等级数据
D.定比等级数据
答:————
13.[多选题]常用的描述统计分析方法包括
A.对比分析法
B.平均分析法
C.交叉分析法
D.以上都不对
答:————
14.[多选题]常用的分类方法包括
A.朴素贝叶斯分类器
B.决策树
C.KNN
D.以上都不对
答:————
15.[多选题]大数据产生和发展条件()
A.收集
B.处理
C.分析
D.应用
答:————
16.[判断题]z分数标准化是对离散数据进行标准化的方法
A.T
B.F
答:————
17.[判断题]盖帽法是将某连续变量均值上下三倍标准差范围外的数值全部删除
A.T
B.F
答:————
18.[判断题]Apriori算法中频繁2项集的每个项集长度均为2,但并非都是频繁的
A.T
B.F
答:————
19.[判断题]数据挖掘的过程都是有统一一致的步骤的
A.T
B.F
答:————
20.[判断题]数据按照从小到大的顺序排列后,当数据个数为偶数时,中位数为中间两个数任选一个
A.T
B.F
答:————
21.[判断题]上四分位数是指数据从大到小排列排在第75%位置的数字,即最大的四分位数(上四分位数)
A.T
B.F
答:————
22.[判断题]等深分箱方法是指每个分箱中样本取值范围一致
A.T
B.F
答:————
23.[判断题]min-max标准化是对离散数据进行标准化的方法
A.T
B.F
答:————
24.[判断题]定序数据层次比定距数据高
A.T
B.F
答:————
25.[判断题]定性数据包括离散数据和连续数据
A.T
B.F
答:————
页:
[1]