open 发表于 2018-10-7 09:21:46

南开18秋学期(清考)《数据挖掘》在线作业

18秋学期(清考)《数据挖掘》在线作业
核对题目下载答案, 转载注明 无忧答案网
一、单选题:
1.[单选题]()是说给定属性的每个值都必须不同于该属性的其他值。          (满分:)
    A. 唯一性规则
    B. 连续性规则
    C. 空值规则
    D. 解释性规则
    正确答案:——A——
2.[单选题]考虑值集{12,24,33,2,4,55,68,26},其四分位数极差是()。          (满分:)
    A. 31
    B. 24
    C. 55
    D. 3
    正确答案:——A——
3.[单选题]考察数据时,()是说给定属性的每个值都必须不同于该属性的其他值。          (满分:)
    A. 唯一性规则
    B. 连续性规则
    C. 空值规则
    D. 离散规则
    正确答案:——A——
4.[单选题]在基于图的簇评估度量表里面,如果簇度量为proximity(Ci,C),簇权值为mi,那么它的类型是()。          (满分:)
    A. 基于图的凝聚度
    B. 基于原型的凝聚度
    C. 基于原型的分离度
    D. 基于图的凝聚度和分离度
    正确答案:————
5.[单选题]用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?()          (满分:)
    A. 根据内容检索
    B. 建模描述
    C. 预测建模
    D. 寻找模式和规则
    正确答案:————
6.[单选题]职位可以按顺序枚举,对于教师有:助教、讲师、副教授、教授。职位属性是()。          (满分:)
    A. 标称属性
    B. 序数属性
    C. 数值属性
    D. 二元属性
    正确答案:————
7.[单选题]()是由随时间变化的序列或事件组成的数据库。          (满分:)
    A. 关系数据库
    B. 时序数据库
    C. 序列数据库
    D. 多媒体数据库
    正确答案:————
8.[单选题]以下哪些算法是分类算法?()          (满分:)
    A. DBSCAN
    B. C4.5
    C. K-Mean
    D. EM
    正确答案:————
9.[单选题]概念分层图是()图。          (满分:)
    A. 无向无环
    B. 有向无环    南开大学
    C. 有向有环
    D. 无向有环
    正确答案:————
10.[单选题]有关数据仓库的开发特点,不正确的描述是()。          (满分:)
    A. 数据仓库开发要从数据出发
    B. 数据仓库使用的需求在开发出去就要明确
    C. 数据仓库的开发是一个不断循环的过程,是启发式的开发
    D. 在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式
    正确答案:————
11.[单选题]数据挖掘经常需要(),即合并来自多个数据存储的数据,存放在一个一致的数据存储中,如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。          (满分:)
    A. 数据集成
    B. 数据归约
    C. 数据分类
    D. 数据聚集
    正确答案:————
12.[单选题]在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为()。          (满分:)
    A. 基于类的排序方案
    B. 基于规则的排序方案
    C. 基于度量的排序方案
    D. 基于规格的排序方案
    正确答案:————
13.[单选题]倘若属性smoker描述患者对象,1表示患者抽烟,0表示患者不抽烟,smoker的属性类型是()。          (满分:)
    A. 标称属性
    B. 二元属性
    C. 序数属性
    D. 数值属性
    正确答案:————
14.[单选题]检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。          (满分:)
    A. 统计方法
    B. 邻近度
    C. 密度
    D. 聚类技术
    正确答案:————
15.[单选题]以下是()聚类算法的算法流程:①构造k-最近邻图。②使用多层图划分算法划分图。③repeat:合并关于相对互连性和相对接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。          (满分:)
    A. MST
    B. OPOSSUM
    C. Chameleon
    D. Jarvis-Patrick(JP)
    正确答案:————
16.[单选题]用一个函数拟合数据来光滑数据,这种技术称为()。          (满分:)
    A. 回归
    B. 聚类
    C. 分类
    D. 离散化
    正确答案:————
17.[单选题]对于倾斜(非对称)数据,数据中心的最好度量是()。          (满分:)
    A. 均值
    B. 中位数
    C. 众数
    D. 中列数
    正确答案:————
18.[单选题]在基本K均值算法里,当邻近度函数采用()的时候,合适的质心是簇中各点的中位数。          (满分:)
    A. 曼哈顿距离
    B. 平方欧几里德距离
    C. 余弦距离
    D. Bregman散度
    正确答案:————
19.[单选题]()可以用来把数据变换到多个粒度层。例如,关于销售的数据挖掘模式除了在单个分店挖掘之外,还可以针对指定的地区或国家挖掘。          (满分:)
    A. 概念分层
    B. 聚类
    C. 数据变换
    D. 数据归约
    正确答案:————
20.[单选题]下面哪个不属于数据的属性类型?()          (满分:)
    A. 标称
    B. 序数
    C. 区间
    D. 相异
    正确答案:————
二、多选题:
21.[多选题]下列属于不同的有序数据的有:()。          (满分:)
    A. 时序数据
    B. 序列数据
    C. 时间序列数据
    D. 事务数据
    正确答案:————
22.[多选题]对于挖掘的应用,数据的最基本形式是()。          (满分:)
    A. 数据库数据
    B. 数据仓库数据
    C. 事务数据
    D. 抽样数据
    正确答案:————
23.[多选题]神经网络的优点有:()          (满分:)
    A. 预测的准确率通常很高
    B. 强壮性好,当训练样本包含错误时很有效
    C. 输出可以是离散的、实数值的或几个离散或实数值属性的向量
    D. 学习目标函数的快速评估
    正确答案:————
24.[多选题]机器学习考察计算机如何基于数据学习或提高它们的性能,与数据挖掘高度相关的、经典的机器学习问题有()。          (满分:)
    A. 监督学习
    B. 无监督学习
    C. 半监督学习
    D. 主动学习
    正确答案:————
25.[多选题]数据挖掘应用了许多应用领域的大量的技术,包括()、信息检索、可视化、算法、高性能计算等。          (满分:)
    A. 统计学
    B. 机器学习
    C. 模式识别
    D. 数据库和数据仓库
    正确答案:————
26.[多选题]联机操作数据库系统的主要任务是执行(),这种系统称为联机事务处理(OLTP)系统。          (满分:)
    A. 联机事务
    B. 查询处理
    C. 分析
    D. 聚类
    正确答案:————
27.[多选题]现实世界的数据一般是()。数据预处理技术可以改进数据的质量,提高挖掘过程的准确率和效率。          (满分:)
    A. 脏的
    B. 正确的
    C. 不完整的
    D. 不一致的
    正确答案:————
28.[多选题]数据预处理的原因:数据多半来自多个异种数据源,极易受()数据的侵扰,低质量的数据将导致低质量的挖掘结果。因此需要对数据进行预处理。          (满分:)
    A. 受噪声
    B. 不一致
    C. 缺失值
    D. 正确
    正确答案:————
29.[多选题]从数据分析的角度看,数据挖掘可以分为两种,即()。          (满分:)
    A. 描述性挖掘
    B. 预测性挖掘
    C. 聚类挖掘
    D. 分类挖掘
    正确答案:————
30.[多选题]文本挖掘是指从海量非结构化自然语言文本数据中,抽取()信息的计算机信息处理技术,是由机器学习、数理统计、自然语言处理等多种技术交叉形成的。          (满分:)
    A. 相关的
    B. 潜在的
    C. 新颖的
    D. 有价值的
    正确答案:————
三、判断题:
31.[判断题]为了使推理有效,模型集必须反映模型用来描述、分类或者评分的总体。若对没有正确地反映总体的样本进行评分,则会导致总体有偏置(biased)。          (满分:)
    T. 对
    F. 错
    正确答案:————
32.[判断题]数据挖掘是指对数据进行处理和研究,并从数据中提取有用的信息和发现知识的过程。          (满分:)
    T. 对
    F. 错
    正确答案:————
33.[判断题]数据挖掘不仅仅产生技术结果。结果必须用来帮助人们做出更明智的决定。          (满分:)
    T. 对
    F. 错
    正确答案:————
34.[判断题]多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。          (满分:)
    T. 对
    F. 错
    正确答案:————
35.[判断题]构成训练数据集的元组称为训练元组,从所分析的数据库中随机选取。          (满分:)
    T. 对
    F. 错
    正确答案:————
36.[判断题]模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。          (满分:)
    T. 对
    F. 错
    正确答案:————
37.[判断题]在一个系统中,discount可能用于订单,而在另一个系统中,它用于订单内的商品。如果在集成之前未发现,则目标系统中的商品可能被不正确地打折。          (满分:)
    T. 对
    F. 错
    正确答案:————
38.[判断题]聚类分析是一种流行的离散化方法。通过将属性A的值划分成簇或组,聚类算法可以用来离散化数值属性A。          (满分:)
    T. 对
    F. 错
    正确答案:————
39.[判断题]规范化是数据变换的一种策略,把属性数据按比例缩放,使之落入一个特定的小区间,如-1.0~1.0或0.0~1.0。          (满分:)
    T. 对
    F. 错
    正确答案:————
40.[判断题]孤立点指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。          (满分:)
    T. 对
    F. 错
    正确答案:————
41.[判断题]可视化为探索数据提供了有效的工具,可视化也可以用于表现挖掘过程、从挖掘方法得到的模式,以及用户与数据交互。          (满分:)
    T. 对
    F. 错
    正确答案:————
42.[判断题]定量属性可以是整数值或者是连续值。          (满分:)
    T. 对
    F. 错
    正确答案:————
43.[判断题]数据如果能满足其应用要求,那么它是高质量的。          (满分:)
    T. 对
    F. 错
    正确答案:————
44.[判断题]标称、二元和序数属性都是定性的,描述对象的特征,而不给出实际大小或数量。这种定性属性的值通常代表类别的词,如:0表示小杯饮料,1表示中号杯,2表示大号杯。数值属性是定量的,是可度量的,用整数或实数值表示。可以计算平均数等。          (满分:)
    T. 对
    F. 错
    正确答案:————
45.[判断题]Web数据挖掘是通过数据库中的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。          (满分:)
    T. 对
    F. 错
    正确答案:————
46.[判断题]数据集成将数据由多个数据源合并成一个一致的数据存储,如数据仓库。          (满分:)
    T. 对
    F. 错
    正确答案:————
47.[判断题]数据分类包括学习阶段(构造分类模型)和分类阶段(使用模型预测给定数据的类标号)。在学习阶段,建立描述预先定义的数据类或概念集的分类器,训练集由数据库元组和与他们相关联的类标号组成。          (满分:)
    T. 对
    F. 错
    正确答案:————
48.[判断题]相关性并不蕴涵因果关系。例如,也就是说,如果A和B是相关的,这并不意味着A导致B或B导致A。在分析人口统计数据库时,可能发现一个地区的医院数与汽车盗窃数是相关的。这并不意味一个导致另一个。实际上,二者必然地关联到第三个属性:人口。          (满分:)
    T. 对
    F. 错
    正确答案:————
49.[判断题]在数据挖掘之前对数据进行预处理,可以显著地提高挖掘模式的总体质量,减少实际挖掘所需要的时间。          (满分:)
    T. 对
    F. 错
    正确答案:————
50.[判断题]给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。          (满分:)
    T. 对
    F. 错
    正确答案:————
附件是答案,核对题下载,转载注明 无忧答案网
页: [1]
查看完整版本: 南开18秋学期(清考)《数据挖掘》在线作业