《电信行业大数据实时营销和实时分析29.pptx》由会员分享,可在线阅读,更多相关《电信行业大数据实时营销和实时分析29.pptx(29页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、电信行业大数据实时营销与电信行业大数据实时营销与实时分析实时分析夏明武夏明武个人简介个人简介l2004年清华大学软件学院毕业年清华大学软件学院毕业l智慧图联合创始人,大数据首席架构师智慧图联合创始人,大数据首席架构师l中国信息协会大数据分会理事中国信息协会大数据分会理事l工作工作10年年+,做商业智能,做商业智能BI9年年+l在思特奇、亚信在思特奇、亚信BI研发部、去哪儿网等工作多年研发部、去哪儿网等工作多年l大数据实时营销、实时分析电信行业中国第一名大数据实时营销、实时分析电信行业中国第一名l在去哪儿网酒店事业部组建商业智能在去哪儿网酒店事业部组建商业智能BI团队团队什么是商业智能什么是商业
2、智能BIBI、大数据?、大数据?l商业智能商业智能BI,就是智能化、自动化做商业,提升,就是智能化、自动化做商业,提升公司品牌形象,帮助公司赚钱公司品牌形象,帮助公司赚钱l大数据,核心是小量结果数据,通过分析、研究大数据,核心是小量结果数据,通过分析、研究数据,以结果为导向,挖掘结果数据价值,帮公数据,以结果为导向,挖掘结果数据价值,帮公司赚大钱才是真。互联网企业,竞争激烈,今天司赚大钱才是真。互联网企业,竞争激烈,今天还活着,明天随时会死去,以结果为导向,非常还活着,明天随时会死去,以结果为导向,非常现实,当然也非常残酷。现实,当然也非常残酷。l对企业而言无价值的海量数据是什么?对企业而言无
3、价值的海量数据是什么?商业智能商业智能BIBI三阶段三阶段l第一阶段:报表、第一阶段:报表、olap阶段。做报表根本不能体现阶段。做报表根本不能体现出智能,体力活,实习生工作。出智能,体力活,实习生工作。l第二阶段:数据分析、传统数据挖掘阶段。阿里第二阶段:数据分析、传统数据挖掘阶段。阿里巴巴做的数据魔方、量子恒道是典型代表。非常巴巴做的数据魔方、量子恒道是典型代表。非常成功,非常简洁有效,快速帮公司和客户赚钱,成功,非常简洁有效,快速帮公司和客户赚钱,实现多方共赢。实现多方共赢。l第三阶段:做实时营销、实时分析、实时告警等第三阶段:做实时营销、实时分析、实时告警等等实时或准实时系统,更接近于
4、等实时或准实时系统,更接近于OLTP系统,处理系统,处理难度高,颠覆着传统的难度高,颠覆着传统的BI系统。系统。商业智能商业智能BIBI系统存在的问题系统存在的问题l某电信运营商十几年商业智能某电信运营商十几年商业智能BI系统建设,是否有系统建设,是否有用?用?l数据分析、数据挖掘真的重要吗?数据分析、数据挖掘真的重要吗? 某公司数据挖掘团队被解散,某公司数据分析团队被解散某公司数据挖掘团队被解散,某公司数据分析团队被解散l客户细分问题?客户细分问题?l分析报告一定是正确的吗?分析报告一定是正确的吗?大数据、数据挖掘、数据分析真的重要吗大数据、数据挖掘、数据分析真的重要吗l在互联网企业,以结果
5、为导向,价值为主。互联网在互联网企业,以结果为导向,价值为主。互联网企业竞争激烈,今天活着,明天随时会死去,以结企业竞争激烈,今天活着,明天随时会死去,以结果为导向非常有必要。有的公司数据挖掘团队被解果为导向非常有必要。有的公司数据挖掘团队被解散,有的公司数据分析团队被解散。这些团队中其散,有的公司数据分析团队被解散。这些团队中其实有很强的实有很强的Team Leader和很靠谱的团队成员。为什和很靠谱的团队成员。为什么还是要解散呢?这是因为数据挖掘、数据分析能么还是要解散呢?这是因为数据挖掘、数据分析能做到百分之三十或百分之五十已经非常好,当企业做到百分之三十或百分之五十已经非常好,当企业自
6、然增长达到百分之百或百分之几百时,从投入产自然增长达到百分之百或百分之几百时,从投入产出比角度出发,数据挖掘、数据分析团队是无价值出比角度出发,数据挖掘、数据分析团队是无价值的,是应被解散掉的。的,是应被解散掉的。信令数据介绍信令数据介绍 CSCS域域l语音主叫语音主叫l语音被叫语音被叫l短信发送短信发送l短信接收短信接收l位置更新位置更新l开机开机l关机关机l位置切换位置切换信令数据介绍信令数据介绍 PSPS域域l彩信发送彩信发送l彩信接收彩信接收lWAP连接连接lWAP使用使用lWAP断开断开l3G上网上网l4G上网上网信令名词解释信令名词解释lLAC: location area cod
7、e位置区码位置区码 (移动通信系统中)(移动通信系统中),是为是为寻呼而设置的一个区域寻呼而设置的一个区域,覆盖一片地理区域。覆盖一片地理区域。lCELL: 采用基站识别码或全球小区识别进行标识的无线覆盖采用基站识别码或全球小区识别进行标识的无线覆盖区域叫做小区。区域叫做小区。lIMSI: International Mobile SubscriberIdentification Number国际移动用户识别码,是区别移动用户的标志,储存在国际移动用户识别码,是区别移动用户的标志,储存在SIM卡中,可用于区别移动用户的有效信息。卡中,可用于区别移动用户的有效信息。信令名词解释信令名词解释lIM
8、EI: International Mobile Equipment Identity,是国际移,是国际移动设备身份码的缩写,国际移动装备辨识码,是由动设备身份码的缩写,国际移动装备辨识码,是由15位位数字组成的数字组成的“电子串号电子串号”,它与每台手机一一对应,而且,它与每台手机一一对应,而且该码是全世界唯一的。该码是全世界唯一的。lMSISDN: Mobile Subscriber International ISDN/PSTN number (ISDN即是即是综合业务数字网综合业务数字网,是,是Integrated Service Digital Network 的简称的简称),即手机
9、号码。,即手机号码。信令数据能做什么?信令数据能做什么?l实时营销(精准营销、精确营销)实时营销(精准营销、精确营销)l事件营销(信令监控、信令分析、数据挖掘)事件营销(信令监控、信令分析、数据挖掘)基于信令数据和客户统一视图的模型基于信令数据和客户统一视图的模型l高中生高中生l高中生家长高中生家长l大学生大学生l飞机来港客户飞机来港客户l飞机离港客户飞机离港客户l景区游客景区游客l火车站到达客户火车站到达客户l火车站离开客户火车站离开客户数据模型的创新数据模型的创新l规则以界面化的方式展示给业务人员规则以界面化的方式展示给业务人员l参数可调整,业务人员可以根据业务经验调整参数可调整,业务人员
10、可以根据业务经验调整l业务人员可以直接界面执行数据挖掘,重跑数据业务人员可以直接界面执行数据挖掘,重跑数据l通过外呼查全和查准通过外呼查全和查准l前端界面规则配置到数据库中前端界面规则配置到数据库中l环境发生大变化时,业务人员熟悉模型规则,就环境发生大变化时,业务人员熟悉模型规则,就能很方便给研发提新需求,研发远程开发后远程能很方便给研发提新需求,研发远程开发后远程发包部署发包部署实时营销(精准营销、精确营销)实时营销(精准营销、精确营销)l速度实时速度实时l合适的时间合适的时间l合适的地点合适的地点l给客户推荐合适的内容给客户推荐合适的内容实时营销(精准营销、精确营销)实时营销(精准营销、精
11、确营销)案例案例l两城一家两城一家l机场旅客推荐各种套餐机场旅客推荐各种套餐l高考考生推荐各种业务高考考生推荐各种业务l体育场观众推荐歌星歌曲体育场观众推荐歌星歌曲 关于关于10张标签表,每张表张标签表,每张表8000万记录,万记录,每张表几百几千个标签字段,关联取数据,每张表几百几千个标签字段,关联取数据,秒级出结果的高效方法秒级出结果的高效方法?大数据关联查询创新案例大数据关联查询创新案例方案方案1 1:数据库内方案:数据库内方案l把所有客户统一视图大标签宽表先按地市分表,再按把所有客户统一视图大标签宽表先按地市分表,再按号码分别拆分为号码分别拆分为10000张表。张表。l每张小表中包括所
12、有需要的几百、几千个字段。小表每张小表中包括所有需要的几百、几千个字段。小表总表数为总表数为1万到几万之间,详细为地市数量万到几万之间,详细为地市数量*1000。l有的省份,小表数据量为有的省份,小表数据量为2000条到条到8000条。前端访问条。前端访问时,不再需要做多表时,不再需要做多表sql关联,数据量级别为千行级的关联,数据量级别为千行级的单表单表sql查询语句速度也很快。查询语句速度也很快。l起起10000个线程并发执行,可以做到实时。个线程并发执行,可以做到实时。方案方案2 2:数据库外方案:数据库外方案l把所有客户统一视图大标签宽表按地市分文件,再按号码把所有客户统一视图大标签宽
13、表按地市分文件,再按号码继续拆分为继续拆分为10001000个文件。个文件。l每个小文件中包括所有需要的几百、几千个字段。小文件每个小文件中包括所有需要的几百、几千个字段。小文件总数量为总数量为1 1万到几万之间,详细为地市数量万到几万之间,详细为地市数量* *10001000。l如果是直辖市,直接拆分为如果是直辖市,直接拆分为1000010000个小文件。个小文件。l使用标准使用标准C C,开发出处理程序,并发启动,开发出处理程序,并发启动1 1万到几万个线程万到几万个线程,每个线程把小文件数据加载到各自内存中。,每个线程把小文件数据加载到各自内存中。l当需要处理数据时,实用当需要处理数据时
14、,实用LUALUA来访问数据,每个线程需要处来访问数据,每个线程需要处理的数据量为千行级。总体速度应该在毫表级,可以实时理的数据量为千行级。总体速度应该在毫表级,可以实时把数据回传给前端。把数据回传给前端。l像有的省,如果地市用户提取客户群,则同样只需访问此像有的省,如果地市用户提取客户群,则同样只需访问此地市的地市的10001000个小内存文件,速度能更快。个小内存文件,速度能更快。方案方案1 1细节:细节:l表文件、和线程的数量可以根据实际需要调整,可以调整表文件、和线程的数量可以根据实际需要调整,可以调整到到100100张表、张表、10001000张表、或者是张表、或者是100100个文
15、件、个文件、10001000文件、再文件、再或者是或者是100100个线程、个线程、10001000个线程。个线程。l具体还需要查询资料,依据现场机器配置,做性能调优而具体还需要查询资料,依据现场机器配置,做性能调优而定。定。l如果并发线程压力太大的话,可以考虑改为减少并发线程如果并发线程压力太大的话,可以考虑改为减少并发线程数,或者改为串行。当数据无法做大表关联时,每次只需数,或者改为串行。当数据无法做大表关联时,每次只需从单行记录就可去到。从单行记录就可去到。方案方案1 1细节:细节:l分表或分文件时,按手机号码尾号分表或分文件时,按手机号码尾号2 2位或位或3 3位来分,手机号位来分,手
16、机号码尾号本身是均匀的。在同一地市的小表中,每张小表的码尾号本身是均匀的。在同一地市的小表中,每张小表的数据量是基本接近相同的。数据量是基本接近相同的。l地市之间,考虑到不同地市的用户数不同,则可以对不同地市之间,考虑到不同地市的用户数不同,则可以对不同地市的分表或分文件数量做优化,用户数多的地市分表和地市的分表或分文件数量做优化,用户数多的地市分表和文件多,用户数少的地市分表或文件少,尽量和所有的文件多,用户数少的地市分表或文件少,尽量和所有的100100、10001000或或1000010000以上的表或文件中数据量保持一致,这以上的表或文件中数据量保持一致,这样并发处理线程同时处理,完成
17、时间也能基本相同。样并发处理线程同时处理,完成时间也能基本相同。 方案方案2 2细节:细节:l数据为每月或每日凌晨初始化读入,载入到内存后。在数据为每月或每日凌晨初始化读入,载入到内存后。在上班时间访问,直接查询内存静态数据,速度快,但也上班时间访问,直接查询内存静态数据,速度快,但也涉及到内存分配太大的问题。涉及到内存分配太大的问题。l此时,需要考虑做并发或者分布式处理。涉及到硬件投此时,需要考虑做并发或者分布式处理。涉及到硬件投资增加问题,不建议采购小型机,改为采购刀片服务器资增加问题,不建议采购小型机,改为采购刀片服务器或其它服务器。或其它服务器。l数据也可采用前端调用时再动态加载,根据
18、机器配置,数据也可采用前端调用时再动态加载,根据机器配置,让线程分批次加载数据并处理。这样对硬件要求低,但让线程分批次加载数据并处理。这样对硬件要求低,但速度相对会慢。速度相对会慢。方案方案2 2细节:细节:l前端向后台通信采取前端向后台通信采取socketsocket方式,后台处理完数据后,方式,后台处理完数据后,可以把最终数据合并,再加载到数据库中的表,也可以可以把最终数据合并,再加载到数据库中的表,也可以由各线程把各自数据分批插入到数据库中的表。由各线程把各自数据分批插入到数据库中的表。l数据加载完成后,再通过数据加载完成后,再通过socketsocket通知前端处理完毕。通知前端处理完
19、毕。lLUALUA具体如何处理和优化,细节尚待研究,需要花时间。具体如何处理和优化,细节尚待研究,需要花时间。l细致工作还有很多,需要继续研究和深入下去。细致工作还有很多,需要继续研究和深入下去。方案方案2 2细节:细节:l如果要考虑到硬件成本、分布式部署、开发时间和难度问如果要考虑到硬件成本、分布式部署、开发时间和难度问题,可以接下来优化为采用题,可以接下来优化为采用hadoophadoop方案。方案。l采用采用hadoophadoop方案后,整体数据量在千万级,有些省例外,方案后,整体数据量在千万级,有些省例外,到了亿级。硬件投资改为采购几台到了亿级。硬件投资改为采购几台PCPC Serv
20、erServer,硬件投入为,硬件投入为几万元。几万元。l数据都在库外处理,数据都在库外处理,NOSQLNOSQL方式,数据库可以改为使用开方式,数据库可以改为使用开源数据库源数据库MySQLMySQL,存放配置信息。这样,存放配置信息。这样DB2DB2、OracleOracle或其它或其它数据库都可以替换掉。数据库都可以替换掉。方案方案2 2细节:细节:l整体来说,实用整体来说,实用hadoop方式或库外标准方式或库外标准C开发方式后,可以开发方式后,可以更有效减少中国移动在硬件上的投入,在数据库的投入。更有效减少中国移动在硬件上的投入,在数据库的投入。l可以把节省的成本投一部分到应用软件厂
21、商上。这样,中国可以把节省的成本投一部分到应用软件厂商上。这样,中国移动就可以和应用软件厂商实现共赢。这也是移动就可以和应用软件厂商实现共赢。这也是IT业界的发业界的发展趋势。展趋势。l至于至于hadoop方案,客户统一视图标签月表每月生成一次,方案,客户统一视图标签月表每月生成一次,日表每日按生产一次。生成后为静态数据,每日上班时间数日表每日按生产一次。生成后为静态数据,每日上班时间数据不会更新,为静态数据。据不会更新,为静态数据。方案方案2 2细节:细节:l基于此特点,可以在每日凌晨把客户统一视图数据加载到基于此特点,可以在每日凌晨把客户统一视图数据加载到hadoop中,白天访问时直接查询
22、数据,速度快,效率高。中,白天访问时直接查询数据,速度快,效率高。l数据加载到内存数据库中做查询,我目前用到的是数据加载到内存数据库中做查询,我目前用到的是solo+lucene,有的同事用的是,有的同事用的是MongoDB。l云计算方案,应该是可以考虑借鉴谷歌做搜索查询这块的云计算方案,应该是可以考虑借鉴谷歌做搜索查询这块的成功经验。成功经验。l云计算方案,貌似用流计算也不错。云计算方案,貌似用流计算也不错。Yahoo 的的S4听说挺不听说挺不错。错。论中国论中国 西方战略家思考如何在关键点上集结优势兵西方战略家思考如何在关键点上集结优势兵力,而孙子研究如何在政治和心理上取得优势地力,而孙子
23、研究如何在政治和心理上取得优势地位,从而确保胜利。西方战略家通过打胜仗检验位,从而确保胜利。西方战略家通过打胜仗检验自己的理论,孙子则通过不战而胜检验自己的理自己的理论,孙子则通过不战而胜检验自己的理论。论。 亨利亨利基辛格基辛格 个人建议:个人建议:l平时多积累,平时多积累, “功夫在诗外功夫在诗外”l多做多做SWOT分析分析l多关注大环境,多从大局出发多关注大环境,多从大局出发l做创业、做做创业、做BI要多眼于未来,产品规划、设计要要多眼于未来,产品规划、设计要面向未来,多考虑未来三五年的环境和竞争面向未来,多考虑未来三五年的环境和竞争l扁鹊见蔡桓公扁鹊见蔡桓公 BI人学习的榜样人学习的榜样推荐阅读推荐阅读 职业规划职业规划l定位定位、人生定位人生定位系列书籍系列书籍l浪潮之巅浪潮之巅、数学之美数学之美等等l暗时间暗时间l异类异类l一部手机打天下:人类最后的掘金机会一部手机打天下:人类最后的掘金机会l决战大数据决战大数据l高效能人士的七个习惯高效能人士的七个习惯l穷查理宝典穷查理宝典l失控失控l彼得彼得德鲁克的书籍德鲁克的书籍谢谢!谢谢!
限制150内