南开19秋(1709、1803、1809、1903、1909)《数据挖掘》在线作业
19秋学期(1709、1803、1809、1903、1909)《数据挖掘》在线作业1.[单选题]在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是( )。
奥鹏作业答案可以联系QQ 761296021
A.有放回的简单随机抽样 B.无放回的简单随机抽样
C.分层抽样 D.渐进抽样
正确答案:——D——
2.[单选题]顾客数据包含年龄和年薪属性。年薪属性的取值范围可能比年龄大得多。这样,如果属性未( ),则距离度量在年薪上所取的权重一般要超过距离度量在年龄上所取的权重。
A.挖掘
B.归约
C.存储
D.规范化
正确答案:——D——
3.[单选题]假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用等宽(宽度为50)划分成四个箱时,15在第( )个箱子内。
A.第一个
B.第二个
C.第三个
D.第四个
正确答案:——B——
4.[单选题]联机操作数据库系统的主要任务是执行联机事务和查询处理,这种系统称为( )。
A.OLAP系统
B.数据库系统
C.查询系统
D.联机事务处理(OLTP)系统
正确答案:————
5.[单选题]( )是一种数据变换策略,把数值属性(例如,年龄)的原始值用区间标签(例如,0~10,11~20等)或概念标签(例如,youth、adult、senior)替换。这些标签可以递归地组织成更高层概念,导致数值属性的概念分层。
A.离散化
B.属性构造
C.聚集
D.规范化
正确答案:————
6.[单选题]( )把所有维划分成子集(即子空间),这些子空间按层次可视化。
A.层次可视化技术
B.几何投影技术
C.基于图符的可视化技术
D.像素可视化技术
正确答案:————
7.[单选题]设X={1,2,3}是频繁项集,则可由X产生( )个关联规则。
A.4
B.5 QQ 761296021
C.6
D.7
正确答案:————
8.[单选题]关于K均值和DBSCAN的比较,以下说法不正确的是( )。
A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
B.K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。
C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。
D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。
正确答案:————
9.[单选题]以下是( )聚类算法的算法流程:①构造k-最近邻图。②使用多层图划分算法划分图。③repeat:合并关于相对互连性和相对接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。
A.MST
B.OPOSSUM
C.Chameleon
D.Jarvis-Patrick(JP)
正确答案:————
10.[单选题]数据挖掘是一个基于( )的学习过程,一位好的数据挖掘人员必须对新思想持开放态度。
A.过程
B.分析
C.数据
D.素质
正确答案:————
11.[单选题]只有非零值才重要的二元属性被称作( )。
A.计数属性
B.离散属性
C.非对称的二元属性
D.对称属性
正确答案:————
12.[单选题]考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是( )。
A.2
B.3
C.3.5
D.5
正确答案:————
13.[单选题]考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择( )的相似度计算方法。
A.平方欧几里德距离
B.余弦距离
C.直接相似度
D.共享最近邻
正确答案:————
14.[单选题]DBSCAN在最坏情况下的时间复杂度是( )。
A.O(m)
B.O(m2)
C.O(log m)
D.O(m*log m)
正确答案:————
15.[单选题]考虑值集{12,24,33,2,4,55,68,26},其四分位数极差是( )。
A.31
B.24
C.55
D.3
正确答案:————
16.[单选题]分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。如:4-分位数是( )个数据点,它们把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。
A.1
B.2
C.3
D.4
正确答案:————
17.[单选题]( )是一种数据变换策略,对数据进行汇总或聚集。例如,可以聚集日销售数据来计算月和年销售量。通常,这一步用来为多个抽象层的数据分析构造数据立方体。
A.离散化
B.属性构造
C.聚集
D.规范化
正确答案:————
18.[单选题]通常,在为数据仓库准备数据时,数据清理和集成将作为( )步骤进行。还可以再次进行数据清理,检测和删去可能由集成导致的冗余。
A.预处理
B.分析
C.存储
D.挖掘
正确答案:————
19.[单选题]( )说明空白、问号、特殊符号或指示空值条件的其他串的使用(例如,一个给定属性的值何处不能用),以及如何处理这样的值。
A.唯一性规则
B.连续性规则
C.空值规则
D.解释性规则
正确答案:————
20.[单选题]使用( )填充缺失值:例如,利用数据集中其他顾客的属性,可以构造一棵决策树,来预测income的缺失值。通过考虑其他属性的值,有更大的机会保持income和其他属性之间的联系。
A.平均值
B.中位数
C.最可能的值
D.全局常量
正确答案:————
21.[多选题]在Weblog记录上可以进行数据挖掘,用于找出( )等。
A.Web访问趋势
B.关联模式
C.聚类
D.序列模式
正确答案:————
22.[多选题]( )的数据是现实世界的大型数据库和数据仓库的共同特点。
A.不正确
B.不完整
C.不一致
D.高质量
正确答案:————
23.[多选题]数据时代的“4V”是指 ( )。
A.数据量大volume
B.多样化variety
C.速度快velocity
D.价值大:value
正确答案:————
24.[多选题]当前的应用领域所使用的数据技术与算法主要有:( )等等。
A.关联规则
B.分类和预测
C.聚类分析
D.孤立点检测
正确答案:————
25.[多选题]代表同一概念的属性在不同的数据库中可能具有不同的名字,导致( )。例如, 关于顾客标识的属性在一个数据库中可能是customer_id,而在另一个中为cust_id。命名的不一致还可能出现在属性值中。
A.不一致性
B.冗余
C.备份
D.安全
正确答案:————
26.[多选题]从数据分析的角度看,数据挖掘可以分为两种,即( )。
A.描述性挖掘
B.预测性挖掘
C.聚类挖掘
D.分类挖掘
正确答案:————
27.[多选题]设一个标称属性的状态数目是M。这些状态可以用( )表示。注意这些整数只是用于数据处理,并不代表任何特定的顺序。
A.字母
B.符号
C.一组整数
D.文字
正确答案:————
28.[多选题]衡量一个聚类分析算法质量,包括( )。
A.相似度测量机制是否合适
B.是否能发现数据背后潜在的知识
C.是否能发现手工难以发现的知识
D.算法是否简单
正确答案:————
29.[多选题]OLAP技术多维分析过程中,多维分析操作包括( )等。
A.切片
B.切块
C.钻取
D.旋转
正确答案:————
30.[多选题]簇有效性的面向相似性的度量包括( )。
A.精度
B.Rand统计量
C.Jaccard系数
D.召回率
正确答案:————
31.[判断题]用于分类的离散化方法之间的根本区别在于是否使用类信息。
A.对
B.错
正确答案:————
32.[判断题]寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。
A.对
B.错
正确答案:————
33.[判断题]数据挖掘技术的一个突出的特点是处理巨大的、复杂的数据集,这对聚类分析技术提出了特殊的挑战,要求算法具有可伸缩性、处理不同类型属性的能力、发现任意形状的类、处理高维数据的能力等。根据潜在的各项应用,数据挖掘对聚类分析方法提出了不同要求。
A.对
B.错
正确答案:————
34.[判断题]聚类分析的基本思想认为所研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位。
A.对
B.错
正确答案:————
35.[判断题]频繁项集导致发现大型事务或关系数据集中项之间有趣的关联或相关性。
A.对
B.错
正确答案:————
36.[判断题]数据挖掘和其他任何一种技术一样,它的应用有好的一面也有坏的一面。因为数据挖掘揭示不容易发现的模式或各种知识,如果不正确使用的话,它可能对隐私和信息安全构成威胁。
A.对
B.错
正确答案:————
37.[判断题]决策树是一种类似于流程图的树结构,其中每个结点代表在一个属性值上的测试,每个分支代表测试的一个结果,树叶代表类或类分布。
A.对
B.错
正确答案:————
38.[判断题]Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。
A.对
B.错
正确答案:————
39.[判断题]产生技术结果只是数据挖掘过程第一步的结束。能够与其他人一起工作、交流结果,并认识到真正的需求是作为一名好的数据挖掘人员至关重要的技能。
A.对
B.错
正确答案:————
40.[判断题]Web数据挖掘是通过数据库中的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。
A.对
B.错
正确答案:————
41.[判断题]对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。
A.对
B.错
正确答案:————
42.[判断题]标称属性具有有穷多个不同值(但可能很多),值之间无序。例如地理位置、工作类别和商品类型。
A.对
B.错
正确答案:————
43.[判断题]对于记录不能客观度量的主观质量评估,序数属性是有用的。因此,序数属性通常用于等级评定调查。如:顾客满意度调查。
A.对
B.错
正确答案:————
44.[判断题]标签云有两种用法:对于单个术语,可使用标签的大小表示该标签被不同的用户用于该术语的次数。在多个术语上可视化标签统计量时,可使用标签的大小表示该标签的人气。
A.对
B.错
正确答案:————
45.[判断题]离群点可以是合法的数据对象或者值。
A.对
B.错
正确答案:————
46.[判断题]基于聚类的离群点检测的方法假定正常的数据集对象属于大的、稠密的簇,而离群点数据小的或系数的簇、或不属于任何簇。
A.对
B.错
正确答案:————
47.[判断题]特征提取技术并不依赖于特定的领域。
A.对
B.错
正确答案:————
48.[判断题]技术元数据是描述关于数据仓库技术细节的数据,应用于开发、管理和维护DW。
A.对
B.错
正确答案:————
49.[判断题]分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。
A.对
B.错
正确答案:————
50.[判断题]雪花型模式对星型模式维表的进一步层次化和规范化来增强冗余的数据。
A.对
B.错
正确答案:————
附件是答案,核对题目下载
页:
[1]