聚类实验指导.pdf
《聚类实验指导.pdf》由会员分享,可在线阅读,更多相关《聚类实验指导.pdf(6页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、 1 聚类聚类 实验目的实验目的 通过使用 SQL Sever 自带的聚类算法进行数据挖掘。 算法原理算法原理 Microsoft 聚类分析算法首先标识数据集中的关系并根据这些关系生成一系列分类。 Microsoft 散点图是一种非常有用的方法,可以直观地表示算法如何对数据进行分组,如下 面的关系图所示。 散点图可以表示数据集中的所有事例, 在该图中每个事例就是一个点。 分 类对该图中的点进行分组并阐释该算法所标识的关系。 在最初定义分类后,算法将通过计算确定分类表示点分 组情况的适合程度,然后尝试重新定义这些分组以创建 可以更好地表示数据的分类。 该算法将循环执行此过程, 直到它不能再通过重
2、新定义分类来改进结果为止。 考虑这样一组人员,他们共享类似的人口统计信息并从 Adventure Works 公司购买类似的产品。Adventure Works 这组人员就表示一个数据分类。 数据库中可能存在多个这样的分类。 通过观察构成分类的各列,可以更清楚地了解数据集 中的记录如何相互关联。 数据准备数据准备 1 创建项目创建项目 新建一个 Analysis Service 项目,取名为 Cluster, 图 1 2 2 新建数据源新建数据源 在解决方案资源管理器中,鼠标右键单击“数据源” ,在出现的菜单中选择“新建数据 源” 。在弹出的向导窗口中单击“下一步” ,出现“选择如何定义连接”
3、窗口,在此选择“基 于现有连接或新连接创建数据源” ,在位于下方的列表框中选择 AdventureWorksDW。然后 单击“完成” 。如图 2(如果需要创建新数据源,请参照决策树实验) 图 2 3 新建数据源视图新建数据源视图 在解决方案资源管理器中,鼠标右键单击“数据源视图” ,在出现的菜单中选择“新建 数据源视图” 。 在弹出的向导窗口中单击 “下一步” , 将 “VtargetMail” 表选中, 单击下一步, 单击完成。 至此,数据源与数据源视图全部建好,可以建立数据挖掘模型了。 挖掘挖掘步骤步骤 1 新建挖掘结构 在解决方案资源管理器中,鼠标右键单击“挖掘结构” ,在出现的菜单中选
4、择“新建挖 掘结构” ,在弹出的向导窗口中单击“下一步” ,然后在弹出的“选择定义方法”窗口中选择 “从现有关系数据库或数据仓库” 。单击“下一步” ,出现”选择数据挖掘技术窗口,在下 拉列表中选取 “Microsoft 聚类分析” 。点击“下一步” 。 2 选择数据源 在“指定表类型”窗口中,勾选 VtargetMail 作为事例表。 3 定义输入属性 3 在“指定定型数据”窗口中,选择所需输入属性与键属性。此例以 CustomerKey 为键, 选中 Age, Commute Distance, Gender, House OwnerFlag, Marital Status, Number
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据结构与算法
限制150内