《案例探讨》PPT课件.ppt
《《案例探讨》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《案例探讨》PPT课件.ppt(25页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、1 森马官方旗舰店森马官方旗舰店 李宁官方商城李宁官方商城2内容内容l简介简介l原始数据源原始数据源l资料前置处理资料前置处理l资料仓储设计资料仓储设计l资料探勘结果资料探勘结果l总结总结3简介简介l以图书借阅数据为例,说明数据探勘的处理过程以图书借阅数据为例,说明数据探勘的处理过程:n数据取得、需求分析、资料整理、n资料仓储建立、资料探勘、结果分析。l探讨问题:探讨问题:n探讨不同科系是否借阅不同类别的书?n不同年级学生是否借阅不同类别的书?n大学部与研究生是否有不同的借阅习惯?n图书分类是否有改进的地方?n借阅纪录是否隐藏不易发掘而且重要的信息?l实例解说资料探勘过程,了解数据探勘的过程,
2、建实例解说资料探勘过程,了解数据探勘的过程,建立具体的印象与观念,注重过程,而非结果。立具体的印象与观念,注重过程,而非结果。4内容内容l简介简介l原始数据源原始数据源l资料前置处理资料前置处理l资料仓储设计资料仓储设计l资料探勘结果资料探勘结果l总结总结5原始数据源原始数据源l根据需求分析,只考虑书籍、系所部根据需求分析,只考虑书籍、系所部门、读者、借阅数据门、读者、借阅数据 四个数据表四个数据表数据表名称数据表名称原始资料总笔数原始资料总笔数字段个数字段个数Book36429922Department3239Reader3731831History(借阅历史资料借阅历史资料)1132648
3、36内容内容l简介简介l原始数据源原始数据源l资料前置处理资料前置处理l资料仓储设计资料仓储设计l资料探勘结果资料探勘结果l总结总结7第一阶段数据前置处理第一阶段数据前置处理(1)l原始数据利用数据转换汇入原始数据利用数据转换汇入SQL Serverl将将 Reader与与 Department 数据表合成新的数据表合成新的 Reader 数据表数据表。l在在Reader 数据表内:数据表内:n增加增加college字段,建立:系所字段,建立:系所学院学院 概念阶层。概念阶层。n依学号分类,新增依学号分类,新增grade字段,记录用户年级,区分为字段,记录用户年级,区分为freshman、so
4、phomore、junior、senior、postgraduate、candidate for PhD、teacher等七个类别。等七个类别。n只保留只保留 rno(读者读者id)、dept_code、dept_name、college_name、grade 字段,其余字段全部删除。字段,其余字段全部删除。8第一阶段数据前置处理第一阶段数据前置处理(2)l在在Book 数据表内的:数据表内的:n根据中西文图书分类,在索书号上新增根据中西文图书分类,在索书号上新增sub_class及及class属性,建立书籍种类的概念阶层属性,建立书籍种类的概念阶层。n将将language字段重新分类,保留最
5、多的中文、英文、日字段重新分类,保留最多的中文、英文、日文三类,将其余语言归类为文三类,将其余语言归类为other。n建立建立publsih_interval字段,出版年以五年为一区间,作字段,出版年以五年为一区间,作为出版年代的概念阶层之用。为出版年代的概念阶层之用。n仅留下仅留下marc_id(书籍书籍id)、title、author、publisher、publish_year、language、subject、marc_class、class、sub_class、publish_interval等字段。等字段。9第一阶段数据前置处理第一阶段数据前置处理(3)l利用中西文图书分类检表,将
6、书分为利用中西文图书分类检表,将书分为4大类,大类,大类再细分成子项目。大类再细分成子项目。10第一阶段数据前置处理第一阶段数据前置处理(4)l在在History 数据表内:数据表内:n将借阅日期拆成三个字段:借阅年、借阅月、借将借阅日期拆成三个字段:借阅年、借阅月、借阅日,作为将来时间的概念阶层。阅日,作为将来时间的概念阶层。n加入加入amount 字段,代表借书的本数,一般都为字段,代表借书的本数,一般都为 1,作为事实数据表的量值。,作为事实数据表的量值。n仅留下仅留下marc_id、rno、borrow_year、borrow_month、borrow_date、amount字段,其字
7、段,其中中amount字段为量值。字段为量值。11第二阶段数据前置处理第二阶段数据前置处理(1)l在在 Reader 数据表,分析对象为正常学制学生,删除数据表,分析对象为正常学制学生,删除外校人士、行政人员、在职专班、转系、大五、大六、外校人士、行政人员、在职专班、转系、大五、大六、系所空白者、身分无法辨认者。系所空白者、身分无法辨认者。l在在 Book 数据表内,删除索书号不完全者;删除期刊数据表内,删除索书号不完全者;删除期刊数据及校内论文、不能外借之书籍(如当期杂志)、数据及校内论文、不能外借之书籍(如当期杂志)、视听资料(如视听资料(如CD、LD、tape)等。)等。l在在 Hist
8、ory 数据表内,删除索书号不完整之纪录;删数据表内,删除索书号不完整之纪录;删除除rno(user id)无法在整理过的无法在整理过的Reader 数据表找到之数据表找到之纪录;删除索书号无法在整理过的纪录;删除索书号无法在整理过的Book 数据表找到数据表找到之纪录。之纪录。12第二阶段数据前置处理第二阶段数据前置处理(2)l资料整理前后数据表内容变化比较资料整理前后数据表内容变化比较数据表数据表名称名称原始资料原始资料总笔数总笔数资料整理后资料整理后的总笔数的总笔数原始字原始字段个数段个数整理过后整理过后字段个数字段个数Book364299752142211Reader373188587
9、315History 11326486120753613内容内容l简介简介l原始数据源原始数据源l资料前置处理资料前置处理l资料仓储设计资料仓储设计l资料探勘结果资料探勘结果l总结总结14数据仓储设计数据仓储设计(1)l事实数据表:事实数据表:History 为事实数据表,为事实数据表,amount 量值。量值。l维度:维度:Reader、Book与与Time三个维度。三个维度。15数据仓储设计数据仓储设计(2)l在在Reader 维度数据表内找到两种概念阶层:维度数据表内找到两种概念阶层:n年级:年级:rno graden学院系所:学院系所:rno dept_name college_nam
10、el在在Book 维度数据表内找到三种概念阶层:维度数据表内找到三种概念阶层:n语言:语言:title languagen主题分类:主题分类:title sub_class classn出版年:出版年:publish_year publish_intervall在在 Time 维度找到一种概念阶层:维度找到一种概念阶层:n借阅日期:借阅日期:borrow_dateborrow_monthborrow_year16数据仓储设计数据仓储设计(3)l星状式架构的资料仓储星状式架构的资料仓储17内容内容l简介简介l原始数据源原始数据源l资料前置处理资料前置处理l资料仓储设计资料仓储设计l资料探勘结果资
11、料探勘结果l总结总结18判定树资料探勘分析判定树资料探勘分析预预 测测 项项 目目书籍、学生、语言类别书籍、学生、语言类别百百 分分 比比(预测借书类别预测借书类别)人文社会学院博人文社会学院博士班学生士班学生Art 13.56%General1.69%Geography/History1.69%Language/Literature1.69%Natural Sciences59.32%Philosophy/Psychology6.78%Religion1.69%Social Sciences11.86%Missing1.69%(预测借阅读者预测借阅读者的身分的身分)心理哲学方面心理哲学方面的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 案例探讨 案例 探讨 PPT 课件
限制150内