《商务智能方法与技术(2)》复习资料
课程名称商务智能
教
材
信
息
教材名称(一)
商务智能
(此版标注教材页码请见红色字体页码)
出版社
清华大学出版社
作者
赵卫东
版次
2009年3月第1版
教材名称(二)
商务智能:管理视角
(此版标注教材页码请见蓝色字体页码)
出版社
机械工业出版社
作者
Efraim Turban等著,秦秋莉等译
版次
2012年2月第1版
注:如学员使用其他版本教材,请参考相关知识点一、客观部分:(判断、不定项选择)
(一)、判断部分
数据仓库与知识管理系统的结合就是商务智能系统。 ()考核知识点:商务智能系统,参见P7-P9 参见译者序、P5
附 1.1.1(考核知识点解释):
商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力。
商务智能不是通常的业务处理。它的目标是如何更快、更容易地做更好的决策。
IBM商务智能解决方案远远不只是数据和技术的组合,BI帮助用户获得正确的数据,发现它的价值,并共享价值。显性知识是指存在于人头脑中的隐性的、非结构化、不可编码的知识,是关于个人的思想、经验等。()考核知识点:知识概念,参见P4
附 1.1.2(考核知识点解释):
知识就是对信息进行的提炼、比较、挖掘、分析、概括、判断和推论。知识分为事实性知识和经验知识。事实性知识是人类对于客观事物和现象的认识结果。经验知识多事一种隐性知识,是存储在人们大脑中的经历、经验、技巧、体会和感悟等尚未公开的知识。
隐性知识和显性知识之间是可以相互转化的。元数据是数据仓库中非常重要的数据。 ()★考核知识点:元数据,参见P39 参见P24-P26
附 1.1.3(考核知识点解释):
元数据管理包括对开发、管理数据仓库时所用的技术元数据和支持业务人员的业务元数据进行管理,它对数据仓库的设计和维护具有重要的作用。
数据仓库的所有数据都要通过元数据来管理和控制。元数据描述关于源数据的说明,包括源数据的来源、源数据的名称、源数据的定义、源数据的创建时间等对源数据进行管理所需要的信息。
源数据的来源说明源数据是从哪个系统、哪个历史数据、哪个办公数据、哪个Web页、哪个外部系统抽取而来。源数据说明源数据在数据仓库的作用、用途、数据类型和长度等。
元数据:是用来描述数据的数据。它描述和定位数据组件、它们的起源及它们在数据仓库进程中的活动;关于数据和操作的相关描述(输入、计算和输出)。元数据可用文件存在元数据库中。元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换、集成过程。
要有效的管理数据仓库,必须设计一个描述能力强、内容完善的元数据。钻取、切片和切块操作是为了完成对真实数据的汇总分析。()考核知识点:数据分析,参见P62-P66 参见P43-P45
附 1.1.4(考核知识点解释):
在线分析处理比较常用的操作包括对多维数据的切片与切块、等。
切片和切块(Slice and Dice):
在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市、各产品的销售情况。
钻取(Drill):
钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作,钻取的深度与维所划分的层次相对应。 数据集市与数据仓库在本质上是一样的。()考核知识点:数据集市,参见P38 参见P24
附 1.1.5(考核知识点解释):
数据仓库是企业级的,能为整个企业各部门的运行提供决策支持手段。而数据集市( Data Mart )是部门级别的,一般只能为某个局部范围内的管理人员服务,也称为部门级的数据仓库。
数据集市有两种:独立的数据集市和从属的数据集市。在知识管理中,只是强调采用计算机管理信息系统,忽略采用组织文化、知识环境去影响员工就不能成功。()
考核知识点:知识管理,参见P175、P176
附 1.1.8(考核知识点解释):
知识管理综合运用战略、组织、流程、技术、变化等多种措施和管理工具,以富有效率的方式组织资源实现其管理目标。 事务型处理,即操作型处理是指对数据库的操作型处理,即OLTP。()考核知识点:OLAP与OLTP,参见P59-P62 参见P43-P45
附 1.1.9(考核知识点解释):
OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。
快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。客户/服务器体系结构-两层或三层C/S结构。?
可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。
信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。商务智能的作用包括理解业务,衡量绩效,预测和改善关系。()考核知识点:商务智能,参见P3 参见P5-P8
附 1.1.10(考核知识点解释):
商务智能的主要功能包括:数据集成,(找到特定商业问题所有的相关信息经常是一件困难而费力的事情)、信息呈现 、经营分析、战略决策支持。(二)、不定项选择部分
以下哪些内容是知识管理系统的组成部分( )
A 数据库 B 人 C 数据仓库D 互联网考核知识点: 知识管理系统
附 1.2.1(考核知识点解释):
知识管理系统是收集、处理、分享一个组织的全部知识的信息系统,通常有计算机系统支持。它包括数据库、人、数据仓库、互联网。( )是人们观察数据的特定角度,是考虑问题时的一类属性。
A. 维 B.维的层次 C.维的成员 D.数据单元考核知识点:维的概念
附 1.2.3(考核知识点解释):
维:是人们观察数据的特定角度,是考虑问题时的一类属性 (时间维、地理维等)。
维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。
维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)
( )是从用户访问日志中获取有价值的信息。
A. 文本日志挖掘 B. Web日志挖掘
C. 视频日志挖掘 D. 数据日志挖掘 考核知识点:日志挖掘,参见P192
附 1.2.4(考核知识点解释):
Web日志挖掘是从用户访问日志(包括搜索引擎日志等)中获取有价值的信息,即通过分析Web日志数据,发现访问者存取Web页面的模式。
理解用户的行为,改进站点结构,发现潜在用户,为用户提供个性化的服务,增强网站的竞争力。 商务智能的基本功能包括( ),预测和辅助决策。
A.个性化的信息分析 B.理解业务
C.衡量绩效 D.创造获利机会
考核知识点:商务智能,参见P3 参见P5
附 1.2.6(考核知识点解释):
商务智能的主要功能包括:数据集成,(找到特定商业问题所有的相关信息经常是一件困难而费力的事情)、信息呈现 、经营分析、战略决策支持。 决策的过程大体可以描述为如下阶段,其中用于找出解决方案的阶段为( )
A. 情报阶段 B. 设计阶段 C. 选择阶段 D. 实施阶段
考核知识点:决策的过程,参见简答题5。
二、主观部分(填空题、名词解释、简答题)
(一)、填空题 维 是人们观察数据的特定角度,是考虑问题时的一类属性。
数据预处理包括 数据清理、数据集成、 数据变换和数据规约。
企业资源规划系统又称为 ERP 。
移动商务智能的特点有: 智能性 、 移动性 、 个性化 和 主动性 。
数据集市分为 独立数据集市 和 从属数据集市 。
知识管理的关键要素有 管理 、 文化 和 技术 。
经常存在一些数据对象,与数据的一般行为或模型不一致。这样的数据对象称为离群点。
传统的建模方法注意力主要集中于 模型设计 和 模型实现 两个阶段。
OLAP钻取包含 向上钻取和 向下钻取 等操作。
数据仓库和OLAP工具基于多维数据模型。(二)、名词解释
1、数据挖掘
答:数据挖掘是指从大量数据中提取或挖掘知识。2、数据仓库
答:数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合,支持管理部门的决策过程。3、粒度
答:粒度是指数据仓库的数据单元中保存数据的细化或综合程度的级别。4、商务智能
答:商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力。5、 KDD过程
答:从大量数据中提取出可信的、新颖的、有用的并能被人理解的模式的高级处理过程。6、元数据
答:是用来描述数据的数据,他描述和定位数据组件、它们的起源及它们在数据仓库中进程中的活动,关于数据和操作的相关描述。7、OLAP
答:联机分析处理,是使分析人员、管理人员和执行人员能够从多个角度对从原始数据转化而来的,能够真正为用户理解的,并真实反映企业维特性的信息进行快速、一致、交互的存取,从而获得对数据更深入了解的一类软件技术。8、智能型企业
答:智能型企业,也称为随需应变(On Demand)的企业,是指智能资产成为关键因素的企业,表现为反应迅速、适应顾客变化的需要和采取正确的顾客解决方案。9、聚类
答:聚类是把对象或样本的集合分组成为多个簇(类)的过程,使同一个组中的对象具有较高的相似度,而不同类的对象差别较大。(三)、简答题
1、简述数据规约的几种策略。数据立方体聚集:聚集操作用于数据立方体结构中的数据。
属性子集选择:可以检测并删除不想管、弱相关或冗余的属性或维。
维度规约:使用编码机制减小数据集的规模
数值规约:用替代的、较小的数据表示替换或估计数据。
离散化和概念分层产生:属性的原始数据值用区间值或较高层的概念替换。
2、试画图说明从属数据集市的含义。3、画图说明数据挖掘的过程。4、请简述商务智能的作用。
制定合适的市场营销策略
改善顾客智能
经营成本与收入分析
提高风险管理能力
改善业务洞察力
提高市场响应能力5、试画图说明决策的过程。6. 画表格简述数据库和数据仓库的关系。7、Apriori算法是数据挖掘中挖掘频繁项集的关键算法,请回答下列问题:
(1)请解释什么是频繁项集(假设目标集合中只有正例和反例)。(2分)
(2)请写出Apriori算法的伪代码。(10分)
答:(1)频繁项集:项的集合称为项集,项集I的相对支持度满足预定义的最小支持度阈值,则I是频繁项集。
(2)伪代码如下:8、K-means是最基本的聚类算法,请回答下列问题:
(1)K-means算法适用于哪类数据,局限性在哪里,改进算法有哪些。对凸型分布数据的聚类效率比较高;
不能有效处理非数值型数据;
k-modes和k-prototypes(2)简述算法过程
从D中任意选择k个对象作为初始簇中心;
repeat;
根据簇中对象的均值,将每个对象指派到最相似的簇;
更新簇均值,即计算每个簇中对象的均值;
计算准则函数;
until准则函数不在发生变化。
9、试画图说明独立数据集市的含义。
10、决策树是分类算法中一种非常有效的算法,请回答下列问题:
(1)决策树中的信息增益,即熵,如何计算,请写出计算公式(假设目标集合中只有正例和反例)。Entropy(S)=-P+log2P+ - P-log2P-
其中,S表示只有正例和反例的样例集,P+表示S中正例的比例,P-表示S中反例的比例。(2)写出ID3算法的伪代码。奥鹏作业答案可以联系QQ 761296021
页:
[1]