北语网院23年1月《大数据技术与应用》作业_1
1.[单选题]关联规则最基础的元素是A.项
B.项集
C.超项集
D.子项集
答:——A——
2.[单选题]利用Sklearn构建KNN分类器,用于KNN分类器训练的程序为
A.knn.fit(X_train,y_train)
B.y_pred=knn.predict(X_test)
C.knn=KNeighborsClassifier(n_neighbors=k)
D.以上都不对
答:——A——
3.[单选题]以下不是数据可视化工具库的是()
A.pandas
B.matplotlib
C.matlab
D.seaborn
答:——C——
4.[单选题]数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为
A.2
B.4
C.6
D.8
答:————
5.[单选题]在pandas中脏数据的典型表示有()
A.np.nan
B.*
C.?
D.no
答:————
6.[单选题]用训练好的孤立森林isolation forest实例对数据进行异常值检测的语句是
A.from sklean.ensemble import IsolationForest
B.LocalOutlierFactor
C.clf= IsolationForest(max_samples=100,random_state=0)
D.clf.fit(X_train)
E.y_pred=clf.fit_predict(X)
F.y_pred_test = clf.predict(X_test)
答:————
7.[单选题]创建孤立森林isolation forest实例的语句是
A.from sklean.ensemble import IsolationForest
B.LocalOutlierFactor
C.clf= IsolationForest(max_samples=100,random_state=0)
D.clf.fit(X_train)
E.y_pred=clf.fit_predict(X)
F.y_pred_test = clf.predict(X_test)
答:————
8.[单选题]:from sklearn.tree import DecisionTreeClassifiernclf = DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain) npredictions = clf.predict(Xtest)n上面代码第4行中Xtest表示
A.训练数据集
B.测试数据集
C.训练数据的类别标签数组
D.测试数据的类别标签数组
答:————
9.[单选题]利用pandas处理数据缺失值时,用于丢弃缺失值的函数为
A.isnull
B.head
C.tail
D.dropna
答:————
10.[单选题]局部异常因子(LOF)算法属于
A.基于统计的异常值检测方法
B.基于密度的异常检测方法
C.基于聚类的异常值检测
D.基于决策树的异常检测
答:————
11.[多选题]数据离散程度分析的常用指标包括
A.极差
B.标准差
C.四分位差
D.离散系数
答:————
12.[多选题]分箱法包括
A.等深分箱
B.众数分箱
C.等宽分箱
D.以上都不对
答:————
13.[多选题]以下哪些是数据可视化图表
A.柱状图
B.折线图
C.饼图
D.散点图
答:————
14.[多选题]可用于实现数据one-hot编码的方法包括
A.Pandas的head
B.Pandas的get_dummies
C.sklearn.preprocessing.OneHotEncoder方法
D.Pandas的tail
答:————
15.[多选题]决策树的关键点包括
A.采用Bagging框架
B.采用随机特征选择生成每个决策树的训练数据特征子集
C.采用采样数据集的特征子集训练对应决策树
D.以上都不对
答:————
16.[判断题]K均值聚类方法输出结果为各个样本的类簇归属,可能存在一个样本同时属于多个类簇的情况
A.T
B.F
答:————
17.[判断题]逻辑回归logistic regression方法顾名思义属于回归方法
A.T
B.F
答:————
18.[判断题]平均值能够有效抑制数据极值的影响,不容易出现偏差
A.T
B.F
答:————
19.[判断题]低层次数据可以向高层次转化,代价是损失部分数据信息
A.T
B.F
答:————
20.[判断题]离散系数是数据集中趋势分析常用指标之一
A.T
B.F
答:————
21.[判断题]数据挖掘主要探索的是已知的规律
A.T
B.F
答:————
22.[判断题]高层次数据无法向低层次转化,会出现F
A.T
B.F
答:————
23.[判断题]两个或多个事物之间无论存在多强的关联关系,其中一个事物也无法通过其他事务预测到
A.T
B.F
答:————
24.[判断题]KNN分类器随着参数k的变化,样本的分类结果不会发生变化
A.T
B.F
答:————
25.[判断题]数据类型等级最高的是定类数据
A.T
B.F
答:————
页:
[1]