离线作业答案 发表于 2022-5-14 09:20:41

北语22年5月《大数据技术与应用》作业3答案

22春《大数据技术与应用》作业3
1.[单选题] 项集 S ={尿布,啤酒,牛奶,可乐},则项集S称为
答案资料下载请参考帮助中心说明
    A.1项集
    B.2项集
    C.3项集
    D.4项集
2.[单选题] 决策树生成过程中,以信息增益率作为特征选择准则生成决策树的算法是
    A.ID3
    B.C4.5
    C.CART
    D.以上都不对
3.[单选题] 数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为
    A.2
    B.4
    C.6
    D.8
    答:——D——
4.[单选题] 从软件库中导入LOF异常检测算法类的语句是
    A.from sklean.neighbors import LocalOutlierFactor
    B.clf=LocalOutlierFactor(n_neighbors=20)
    C.y_pred=clf.fit_predict(X)    四川大学答案无忧答案网整理
    D.X_scores = clf.negative_outlier_factor_
5.[单选题] 数据等级排序T的是
    A.定距等级>定比等级>定类等级>定序等级
    B.定比等级>定序等级>定距等级>定类等级
    C.定比等级>定距等级>定序等级>定类等级
    D.定比等级>定类等级>定序等级>定距等级
6.[单选题] 用训练好的LOF实例判断数据是否异常,正常样本用1表示,异常样本用-1表示的语句
    A.from sklean.neighbors import LocalOutlierFactor
    B.clf=LocalOutlierFactor(n_neighbors=20)
    C.y_pred=clf.fit_predict(X)
    D.X_scores = clf.negative_outlier_factor_
    答:————
7.[单选题] 不包含任何项的项集是指
    A.项
    B.空集
    C.超项集
    D.子项集
8.[单选题] 从软件库中导入模糊C均值聚类算法类的语句是
    A.from fcmeans import FCM
    B.fcm=FCM(n_clusters=3)
    C.fcm.fit(X)
    D.fcm_labels=fcm.u.argmax(axis=1)
9.[单选题] 如果一个项集包含K个项,则该项集称为
    A.项
    B.空集
    C.超项集
    D.K项集
10.[单选题] 利用pandas处理数据缺失值时,用于丢弃重复值的函数为
    A.drop_duplicates
    B.duplicated
    C.fillna
    D.dropna
11.[单选题] 常用于多变量噪声值(异常值)处理的方法是
    A.等深分箱
    B.聚类法
    C.等宽分箱
    D.盖帽法
12.[单选题] 数据集{1,2,3,5,7,9}的中位数是
    A.3
    B.5
    C.7
    D.4
13.[单选题] 利用pandas处理数据缺失值时,用于发现缺失值的函数为
    A.isnull
    B.head
    C.tail
    D.info
14.[单选题] 关联规则 X→Y 表示中Y称为
    A.前件
    B.后件
    C.中间件
    D.以上都不对
    答:————
15.[单选题] 数据集{1,2,2,2,3,4}的众数是
    A.1
    B.2
    C.3
    D.4
16.[多选题] 聚类分析可以用于
    A.顾客分组
    B.分类
    C.回归
    D.找出显著影响
17.[多选题] 关联规则反映的是
    A.可分类性
    B.可分割性
    C.事物之间相互依存性
    D.事物之间相互关联性
18.[多选题] 大数据收集的途径包括()
    A.互联网
    B.移动互联网
    C.物联网传感器
    D.手动
19.[多选题] 可用于实现数据one-hot编码的方法包括
    A.Pandas的head
    B.Pandas的get_dummies
    C.sklearn.preprocessing.OneHotEncoder方法
    D.Pandas的tail
20.[多选题] 决策树的关键点包括
    A.采用Bagging框架
    B.采用随机特征选择生成每个决策树的训练数据特征子集
    C.采用采样数据集的特征子集训练对应决策树
    D.以上都不对
21.[判断题] 定类数据层次比定序数据高
    A.对
    B.错
22.[判断题] 数据挖掘的过程都是有统一一致的步骤的
    A.对
    B.错
23.[判断题] 定序数据层次比定距数据高
    A.对
    B.错
24.[判断题] 下四分位数是指 数据从大到小排列排在第25%位置的数字,即最小的四分位数(下四分位数)
    A.对
    B.错
25.[判断题] 上世纪 70 年代,随着数据库管理系统趋于成熟,存储和查询百万兆字节甚至千万亿字节成为可能。而且,数据仓库允许用户从面向事物处理的思维方式向更注重数据分析的方式进行转变。因此,提取复杂深度系信息能力非常强啊
    A.对
    B.错

核对题目下载 转载注明无忧答案网
页: [1]
查看完整版本: 北语22年5月《大数据技术与应用》作业3答案