信用信息体系平台建设详细设计方案.doc
《信用信息体系平台建设详细设计方案.doc》由会员分享,可在线阅读,更多相关《信用信息体系平台建设详细设计方案.doc(223页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、信用信息体系平台建设详细设计方案1.1. 标准规范建设1.1.1. 数据规范编制1.1.1.1. 数据标准 元数据标准。元数据是指对数据的描述,例如数据交换频率、数据字段、共享范围等信息。元数据标准制定是为各监管部门数据收集、整合与应用时提供统一的指引作用,本项目元数据标准定义市场监管信息资源的核心元数据及扩展方法,分别定义关系数据表、文件格式数据、服务数据三类格式数据的核心元数据定义,为市场监管目录设计与资源目录模块开发奠定标准模板基础; 数据元标准。数据元是指数据库中字段的格式规定。因历史原因,各监管部门在信息化建设过程中,没有统一的数据标准统一开发规范,当前跨部门监管数据资源不对称、格式
2、不统一等问题严重,本项目在整合数据过程中,数据元标准制定统一规范了跨部门监管数据的字段与格式要求,向各监管部门明确提供数据的统一格式要求,也是本平台数据ETL过程的重要标准。 信用信息分类规范:为加强社会信用信息资源的记录、整合、应用,规范和指导各部门信用信息管理系统建设,将制定信用信息分类规范。规范是在梳理市信用信息资源基础上,参照省、国家信用信息相关标准规范编制而成。1.1.1.2. 目录标准l 信息资源目录编码标准。根据资源提供部门、数据类型等提出社会信用信息目录、资源、市场监管号、资源目录版本的统一编码规则;l 社会信用信息共享目录。基于数据标准与信息资源目录编码标准制定规范的社会信用
3、体系信息共享目录,通过定期更新发布方式提供各监管部门使用。1.1.2. 技术规范编制1.1.2.1. 开放接口接入规范为方便第三方系统接入,以加快数据实时共享性,提供丰富的数据应用方式本期为第三方系统提供开放接口,开放接口包括第三方系统向社会信用体系信息平台提供数据的接口,以及第三方系统应用社会信用体系信息平台的数据接口。数据交换接入规范提出数据开放接口的提供与应用规范,为第三方接入单位提供标准的指引技术文档。1.1.2.2. 信息资源公开技术规范社会信用体系信息平台信息资源部署在政务外网环境,而信用信息等系统将部署在互联网环境。在统一的社会信用体系信息专题库下,信息资源公开技术规范将指引实现
4、信息资源从政务外网定时推送到互联网功能。1.1.2.3. 数据接口标准规范制定数据对外服务的应用接口标准,用于规范数据对外服务的接口实现数据的接口查询,包括数据查询和预警数据查询。1.1.3. 管理办法编制管理制度本身是由人来制定和执行的,定应尽量做到科学全面,符合实际情况,使人们在接受制度管理时,能够乐于接受。平台数据归集涉及信息资源提供方、信息资源管理方、信息资源使用方、平台管理运维单位、平台建设单位等其他相关部门及人员,管理对象包括信息资源、技术平台。信息资源共享交换体系自制订管理制度分为信息资源管理维护制度、技术平台管理维护制度两类。1.1.3.1. 信息资源管理维护制度1、信息资源责
5、任公开制度通过本制度,鼓励政府部门公开本部门可共享信息资源,规范约束信息资源提供方及时、准确提供最新共享信息资源,明确信息资源提供方的信息公开职责,公开信息资源的备案制度,奖惩考核办法等。2、信息资源动态管理制度明确共享交换信息资源注册、更新、注销管理办法,保证共享数据库中信息资源的鲜活性,对共享数据库中数据实现动态管理。3、信息资源安全管理办法本办法明确信息资源提供方和使用方共享交换信息资源的安全保密协议制度,保证共享信息资源在采集、存储、备份、访问授权、传输、使用等过程中的安全。4、信息资源共享查询制度本制度明确信息资源使用方共享查询信息资源的管理流程,获取信息资源后的备案制度等。1.1.
6、3.2. 技术平台管理维护制度1、平台管理办法本办法明确信息资源提供方、信息资源使用方、技术平台管理运维单位、技术平台建设单位等其他相关部门及人员在平台运行维护、日常管理中的责权利关系,岗位职责等。主要依据信息资源共享交换平台使用管理办法制定本管理办法。2、平台对外服务指南本指南说明技术平台为各部门应用系统提供的支撑服务,技术平台支持的不同接入方式,每种接入方式的特点及适用范围,各政府部门、单位在将应用系统接入到技术平台过程中,应该填写的表单、所遵循的工作流程等。主要依据信用信息资源共享交换体系规划、信用信息资源共享交换平台对接指南制定本服务指南。3、平台安全运营管理制度本制度从技术平台环境设
7、备安全、运行安全、信息安全、人员安全、运营管理、安全审计等各方面做出规定,全面保护技术平台安全运营。1.2. 社会信用体系信息平台基础支撑设计1.2.1. 大数据基础支撑分布式数据库存储系统设计本期只作设计,不包括在本期项目建设范围内。分布式、高性能、交互式SQL并行查询数据库系统,用于查询存储在ApacheHadoopHDFS或HBase之上的大数据。分布式数据库存储系统除了提供业界广泛使用的Hadoop大数据的存储平台,也提供同Hive一致的元数据、SQL语法、JDBC/ODBC驱动程序。分布式数据库存储系统是基于Hadoop及Hive的实时交互式SQL大数据查询工具,通过使用与商用并行关
8、系数据库中类似的分布式查询引擎,可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了查询的延迟时间,具有较高的查询性能。分布式数据库存储系统主要有以下特性:l 面向实时查询,结果秒级返回l 兼容Hive的类SQL语法,包括自定义函数及自定义聚合函数l 可以和Hive共享元数据存储l 支持从HDFS和HBase读取数据l 运行时环境用C+实现,并利用了LLVM的技术,动态优化执行代码l 支持JDBC接口要求支持的功能还包括:l 高可用、高容错可配置为高可用的部署模式,即将单台主节点架设在两台主机上,一台处于活动状态,别一台处理待命状态。活动主节点响应正常操作
9、,实时同步数据到备份主节点。活动主节点失效时,实时切换到备份主节点。数据块多副本分布式存储,保证某个数据节点失效的情况下,其它数据节点上仍然有可用的数据块,保证数据不会丢失。l 列式存储数据是存储在HDFS之中,支持多种常见的ApacheHadoop文件格式和压缩编码。分布式数据库存储系统可以加载和查询由其他Hadoop组件,如Hive、HBase、Pig等生成的数据文件。l 负载均衡分布式数据库存储系统集群提供查询负载均衡功能,将查询请求分摊到不同的集群节点上执行,达到负载均衡的目的。分布式数据库存储系统集群各节点对应用是透明的,应用只需要连到一台主节点,而不用关心集群中的其它节点。在某个集
10、群节点失效情况下,应用仍然可以正常连接,负载均衡器会将请求转发到其它可用的节点上。支持多种负载均衡策略,如轮询、权重、最少连接等。l 范式模型支持三范式模型。灵活的视图处理。支持星形模型。三范式模型与量型模型互相转化。l 海量数据查询亿级数据规模下,性能全面超越商业的RDBMS数据库。TB级数据下,性能比Hive有数倍甚至上百倍的提升。更适合海量数据,特别是TB级及以上的数据处理。l SQL标准兼容兼容SQL-99标准,支持大部分SQL-2003标准。对于DDL语句,除常规的建库、建表、建视图外,还支持表分区、表缓存等特性。DML方面,提供LOADDATA批量加载数据,能支持非常复杂的多表JO
11、IN和UNION。支持丰富的数学、字符串、日期时间、聚集、分析函数等,还支持用户自定义函数。SQL语法基本同HiveSQL兼容,语法上同其它数据库SQL语法大体一致。l ETL支持分布式数据库存储系统提供了JDBC/ODBC接口,能支持几乎所有的ETL工具产品。分布式数据库存储系统能友好支持Sqoop,将外部数据源的数据抽取到分布式数据库存储系统直接使用。也可以将分布式数据库存储系统数据导出到外部数据源。采用分布式数据库存储系统作为数据仓库,还可以简化ETL环节,在分布式数据库存储系统内进行数据转换,节省大量时间。l 可视化管理Web控制台提供监控仪表盘界面,对分布式数据库存储系统数据库信息、
12、集群CPU、内存、磁盘空间、数据库会话以及节点状态进行实时监控。通过图形界面对集群进行整体控制、资源监控,也可以对单个节点进行管理,了解各节点资源使用情况,进行会话管理等。类PL/SQLDeveloperIDE的数据库管理界面,可完成建库、建表、SQL查询编辑器、执行计划、数据导入、导出、数据复制等常用操作。l 线性可扩展分布式数据库存储系统可通过添加廉价的服务器实现性能更好的分布式计算。随着集群节点数的扩充,其查询并发能力将随节点数增加而增大。查询的响应时间,会随着节点数的增多而缩短。可轻松扩展到上千台集群规模,满足TB甚至PB级数据查询。l 分布式并行查询引擎提交到分布式数据库存储系统的S
13、QL查询由查询计划器进行解析,生成并行执行计划。各节点由下至上,并行方式完成数据局部计算,中间结果不写磁盘。分布式数据库存储系统使用Pull方式获取各节点的局部数据结果,以流式传递汇集到执行计划根节点完成计算。l 多级I/O压缩缓存采用列存储压缩技术,压缩存储具有较高的压缩比,压缩率最高可以达到30%以下,极大的减少I/O的吞吐量。采用零拷贝技术相比传统技术节省了一半的拷贝操作,在数据传输性能上要节省65%的时间。表缓存技术,可以提升分布式数据库存储系统数据库集群整体的内存使用率,可以提升50倍以上的I/O性能。l 支持第三方应用接口分布式数据库存储系统提供多种应用程序接口,包括JDBC、OD
14、BC、CLI、Thrift等。JDBC/ODBC为第三方应用连接到分布式数据库存储系统提供了便利性。CLI(命令行界面)可以让数据库管理人员、数据仓库工程师方便、灵活的进行数据库管理、数据查询、SQL脚本调优及诊断等Thrift接口是跨语言的访问接口,可以让Java、C+、Python、PHP开发者采用一致的接口进行编程,灵活定制访问分布式数据库存储系统的数据库应用。1.2.2. 社会信用体系舆情分析设计本期只作设计,不包括在本期项目建设范围内。l 采集能力要求实现对新闻、论坛、博客、微博、图片、SNS、视频网站、QQ群、云数据中心、电子报、WAP、微信、搜索、文档、境外媒体等,监测人员能够自
15、行添加、修改、移除目标监测网站;支持多语种、少数民族语言采集;支持至少5000以上采集站点目标;支持注册论坛需要验证码的数据抓取、虚拟帐号登录等采集方式支持自动识别语言和网站编码:可对任何形式的网站进行采集(RSS、PHP、JAVA、HTML、AJAX等);基于C、C+或者C#开发的C/S架构的采集软件,可以实现客户端的自由安装,配置、可视化的用户操作管理,自由添加关键词,添加网址即加即用;数据采集引擎可视化,能够独立运行,采集引擎数据接口开放,可以推送到指定数据库,可以自动清理自定义时间段内的数据,保留有效时间段内的数据;可以自定义采集频率周期,最快频率周期必须在5分钟以内。l 分析单机分析
16、效率达到每天30万条数据以上可根据自定义类似进行数据自动分类可实现专题事件的分析(网站分布、载体分布、地域分布、传播情况、趋势情况等)可实现对指定作者、虚拟身份的发帖情况分析(发帖平率、感情倾向性、敏感性等)可实现对不同站点内容进行分析,对于敏感数据进行提示等l 舆情预警可以通过邮件、弹窗、手机短信(短信预警不少于10人)或者自动刷新等方式第一时间获取舆情信息。支持用户定制个性化预警信息,各用户定制的个性化舆情信息只有自己可以看到;无需事先设置关键字,系统自动推送预警业务相关的数据。业务类别可按需定制;手工预警紧急事宜可手工发送短信、邮件、页面弹窗、APP消息提示(系统截图);自动预警支持对关
17、键字匹配到的帖子自动发送邮件、页面弹窗、APP消息提示、声音或短信预警;报警类型必须包括:短信、邮件、页面弹窗(系统截图)、APP消息提示;报警可以针对每个事件或者领导人配置报警规则;支持将不同人员关注的不同信息发送到各自的邮箱、短信、页面弹窗、APP消息提示;预先设置预警规则的内容可在首页弹窗显示,且可对预警贴进行详情查看,并对相似文章进行统计;组合预警功能。可选择微博、论坛、博客、国内新闻、电子报刊、视频及境外新闻等各类网站与关键字组合的预警,便于实现对重点站点的针对性关注。1.2.3. 商业智能分析平台具体技术指标要求如下:l 技术架构采用J2EE架构和B/S模式,采用JAVA语言开发,
18、支持Tomcat、WebLogic、WebSphere等多种应用服务器运行平台。用户可以通过IE,Safari等浏览器进行访问。l 软件开发接口要求软件应提供二次开发接口,可以根据需求方便地对系统进行灵活的定制修改和功能扩展。l 软件集成开发要求软件应具备良好的可扩展性和集成性,应提供丰富的报表访问接口技术,支持如API接口、URL接口、WebService接口等第三方接口调用,软件还应支持与其他应用系统的单点登录集成。l 遵循MD模型和ROLAP理论软件在构建数据仓库时应遵循规范的“事实表维表”的数据库模型,后台提供OLAP引擎,前台提供基于WEB的OLAP操作,并完整支持下钻、切片、旋转、
19、钻透等操作。l 报表设计软件应提供在线报表设计工具,便于用户快速的编辑报表,采用图形化设计界面,类似EXCEL的操作风格,支持合并拆分单元格、任意表头、多级斜线、富文本等功能,能实现各种复杂报表的快速设计,也能实现各种图形展示的设计,如杜邦分析、组织架构图等。软件应提供自动保存报表的编辑进度的功能。l 分析展现方式软件应支持对报表数据和业务数据的多种展现形式,提供固定报表、多维分析报表、丰富的统计图模型、领导驾驶舱等常用展现方式。支持所有常用展现方式的钻取功能,允许用户对所有常用展现方式定义热点,通过点击热点钻取到其他报表、图形或明细。支持单元格鼠标指向的高亮显示。支持报表的行列锁定等等。l
20、统计图类型软件应提供丰富的统计图类型和样式,类型包括但不限于柱状图、饼图、折线图、面积图、条形图、雷达图、散点图、走势图、仪表盘、汽泡图、箱线图、K线图、复合条饼图等等;样式包括但不限于2D、3D、EXCEL风格、WEB风格、秋天风格、Flash风格等。同时,软件还应提供丰富的绘图功能,如杜邦分析、组织架构树等图形。l 公式体系软件应内置公式引擎,语法应与EXCEL非常类似,支持指标拾取,可自动分析出运算表达式中的依赖顺序,自动的按顺序计算表达式。支持除四则运算外的其它复杂的分析模式,如:取前期数据、增幅、排名、标准差、相关系数、跨主题跨报表取数等等。同时,软件还应提供自定义函数途径以满足各种
21、不同的数据统计需求。l 图形化建模软件应支持图形化建模功能,可以在可视化建模界面中新建、编辑、删除主题表,将主题维度度量,主题和维度的关系用直观易懂的星形图方式展现出来,并支持用鼠标点选和拖拽的方式进行主题和维度属性及关联的增删改。l 报表母版软件应提供类office.ppt的母版功能,可以轻松的在报表母版中定义的格式,包括背景图片、标题字体、报表风格等等都可以作用到其他报表模板上。l 历史版本管理软件应提供对报表历史版本的控制服务,可以对修改于不同时期的同一张报表进行统一管理,从一张表入口管理N张不同的表。l 报表分支管理软件应提供报表分支管理功能,通过分支选择表达式和参数计算,轻松地设置在
22、不同的场合计算和展示不同的报表版本。l 拖拽式多维分析系统应提供猜想式、求证式分析,提升报表分析的交互能力,通过鼠标拖拽操作就实现数据的分析展现,并且还可直接即兴定义指标间的列运算,同时为分析结果即时生成统计图。拖拽式多维分析的结果可以轻松的拖拽到主题门户,并在门户上可直接对结果表进行再度拖拽分析。同时,拖拽式多维分析的结果可以保存为固定方案持续使用。l 领导驾驶舱软件应提供领导驾驶舱功能,可以将一些关键的KPI指标简单明了的用图形或仪表盘等形式呈现给领导,可以使用报表模板拥有的所有的数据展现形式,如:地图、表格、富文本、绘图、统计图等等。l Word分析报告软件可以提供WORD式分析报告的功
23、能,分析报告中的动态内容如数字、文字、统计图、表格等可从其他报表中获取,可以像编辑WORD文件那样编辑自己的分析报告。l 支持基于地图的分析软件应支持地图的应用,软件自带一些地图,也可以自己上传地图。同时,还可以根据不同的数据为地图的不同区块着色,也可以实现在地图上的钻取,预警,信息提示等。l 数据挖掘模型软件应提供结构分析、相关分析、离散分析、弹性分析、TOPn、TOP%、聚类分析等统计分析方法,支持回归分析、ARIMA模型分析、时间序列平滑预测、季节变动预测等多种预测模型,除以上系统内置的数理统计挖掘方法,软件还应支持用户自定义相关算法并固化使用。l 聚集主题模型软件应支持聚集主题模型,通
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信用 信息 体系 平台 建设 详细 设计方案
限制150内