南开19秋(1709、1803、1809、1903、1909)《数据科学导论》在...
19秋学期(1709、1803、1809、1903、1909)《数据科学导论》在线作业1.[单选题]在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。
奥鹏作业答案可以联系QQ 761296021
A.越小 B.越大
C.无关 D.不确定
正确答案:——B——
2.[单选题]数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A.异常值 B.缺失值
C.不一致的值
D.重复值
正确答案:——C——
3.[单选题]手肘法的核心指标是()。
A.SES
B.SSE
C.RMSE
D.MSE
正确答案:——B——
4.[单选题]通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化 QQ 761296021
正确答案:————
5.[单选题]聚类是一种()。
A.有监督学习
B.无监督学习
C.强化学习
D.半监督学习
正确答案:————
6.[单选题]具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A.1,线性
B.2,线性
C.1,非线性
D.2,非线性
正确答案:————
7.[单选题]在一元线性回归模型中,残差项服从()分布。
A.泊松
B.正态
C.线性
D.非线性
正确答案:————
8.[单选题]根据映射关系的不同可以分为线性回归和()。
A.对数回归
B.非线性回归
C.逻辑回归
D.多元回归
正确答案:————
9.[单选题]考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
正确答案:————
10.[单选题]某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()
A.关联规则发现
B.聚类
C.分类
D.自然语言处理
正确答案:————
11.[单选题]层次聚类对给定的数据进行()的分解。
A.聚合
B.层次
C.分拆
D.复制
正确答案:————
12.[单选题]以下哪一项不是特征工程的子问题()
A.特征创建
B.特征提取
C.特征选择
D.特征识别
正确答案:————
13.[单选题]通过变量标准化计算得到的回归方程称为()。
A.标准化回归方程
B.标准化偏回归方程
C.标准化自回归方程
D.标准化多回归方程
正确答案:————
14.[单选题]在回归分析中,自变量为(),因变量为()。
A.离散型变量,离散型变量
B.连续型变量,离散型变量
C.离散型变量,连续型变量
D.连续型变量,连续型变量
正确答案:————
15.[单选题]某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台,单位成本增加100元
B.产量每增加一台,单位成本减少1.2元
C.产量每增加一台,单位成本平均减少1.2元
D.产量每增加一台,单位平均增加100元
正确答案:————
16.[单选题]层次聚类适合规模较()的数据集
A.大
B.中
C.小
D.所有
正确答案:————
17.[单选题]下面不是分类的常用方法的有()
A.K近邻法
B.朴素贝叶斯
C.决策树
D.条件随机场
正确答案:————
18.[单选题]以下哪些不是缺失值的影响()
A.数据建模将丢失大量有用信息
B.数据建模的不确定性更加显著
C.对整体总是不产生什么作用
D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
正确答案:————
19.[单选题]我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。
A.自上而下
B.自下而上
C.自左而右
D.自右而左
正确答案:————
20.[单选题]聚类的最简单最基本方法是()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
正确答案:————
21.[多选题]一元回归参数估计的参数求解方法有()。
A.最大似然法
B.距估计法
C.最小二乘法
D.欧式距离法
正确答案:————
22.[多选题]对于多层感知机,()层拥有激活函数的功能神经元。
A.输入层
B.隐含层
C.输出层
正确答案:————
23.[多选题]聚类的主要方法有()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
正确答案:————
24.[多选题]下面例子属于分类的是()
A.检测图像中是否有人脸出现
B.对客户按照贷款风险大小进行分类
C.识别手写的数字
D.估计商场客流量
正确答案:————
25.[多选题]层次聚类的方法是()
A.聚合方法
B.分拆方法
C.组合方法
D.比较方法
正确答案:————
26.[多选题]下列选项是BFR的对象是()
A.废弃集
B.临时集
C.压缩集
D.留存集
正确答案:————
27.[多选题]k近邻法的基本要素包括()。
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
正确答案:————
28.[多选题]数据科学具有哪些性质()
A.有效性
B.可用性
C.未预料
D.可理解
正确答案:————
29.[多选题]系统日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
正确答案:————
30.[多选题]K-means聚类中K值选取的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
正确答案:————
31.[判断题]给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
A.对
B.错
正确答案:————
32.[判断题]给定关联规则A→B,意味着:若A发生,B也会发生。
A.对
B.错
正确答案:————
33.[判断题]特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
A.对
B.错
正确答案:————
34.[判断题]决策树分类时将该结点的实例强行分到条件概率大的那一类去
A.对
B.错
正确答案:————
35.[判断题]随着特征维数的增加,样本间区分度提高。
A.对
B.错
正确答案:————
36.[判断题]Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。
A.对
B.错
正确答案:————
37.[判断题]聚合方法是自底向上的方法。
A.对
B.错
正确答案:————
38.[判断题]对于分类数据,经常使用表格,来统计各种类别的数据出现的频率。
A.对
B.错
正确答案:————
39.[判断题]每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。
A.对
B.错
正确答案:————
40.[判断题]sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。
A.对
B.错
正确答案:————
41.[判断题]朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能
A.对
B.错
正确答案:————
42.[判断题]信息熵越大,数据信息的不确定性越小。
A.对
B.错
正确答案:————
43.[判断题]K-means算法采用贪心策略,通过迭代优化来近似求解。
A.对
B.错
正确答案:————
44.[判断题]决策树还可以表示给定特征条件下类的条件概率分布,这一概率分布定义在特征空间的一个划分上,将特征空间分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布
A.对
B.错
正确答案:————
45.[判断题]在数据预处理时,无论什么情况,都可以直接将异常值删除
A.对
B.错
正确答案:————
46.[判断题]支持度是衡量关联规则重要性的一个指标。
A.对
B.错
正确答案:————
47.[判断题]子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。
A.对
B.错
正确答案:————
48.[判断题]特征的信息增益越大,则其越不重要。
A.对
B.错
正确答案:————
49.[判断题]当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。
A.对
B.错
正确答案:————
50.[判断题]由不同的距离度量所确定的最近邻点是不同的
A.对
B.错
正确答案:————
附件是答案,核对题目下载
页:
[1]