开源智能软件平台XPress项目汇报.ppt
《开源智能软件平台XPress项目汇报.ppt》由会员分享,可在线阅读,更多相关《开源智能软件平台XPress项目汇报.ppt(20页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、开源智能软件平台XPress项目汇报 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望目录n项目概述n系统n匹配算法n展望2开源智能-XPress项目概述n名称:“开源智能软件平台”,Xpressn功能:对FTP资源分类整合,并附加从web上自动提取的的相关信息,为用户提供具有高可用性的WEB形式资源浏览、检索与下载服务。n特点:自动3开源智能-XPressn商业经理:刘菲菲,软工n开发经理:谌贻容,语言所n档案经理:石武光,语言所n项目组长:谢 欣,网络项目概述:
2、团队成员4开源智能-XPress项目概述:商业计划回顾n本项目以宽带网络服务提供商为服务对象n协助其以低廉的价格对现有下载服务进行大规模扩充,快速提高其商业竞争力为目标。n2003年10月23日录音回放:5开源智能-XPress系统介绍n实际使用nhttp:/xpress.3322.org:7001/XPress6开源智能-XPress系统结构图Web页面抓取及信息提取FTP信息抓取软件信息匹配用户接口7开源智能-XPress系统重点一:web信息提取n信息提取简介q基于模板(我们的选择)q基于Ontologyq基于规则q基于语法8开源智能-XPress系统重点二:FTP搜索n利用天网文件搜索
3、的技术n爬虫n多线程并行抓取n每个站点一个线程9开源智能-XPress系统重点三:匹配算法n对每个FTP文件匹配所有的软件资源,找出匹配值最大的一项,当匹配值大于某个预定的权值时,我们就认为匹配成功n不是百分之百正确n为什么不用MD5q在现实实施中不可能q文件大小往往不同q增加匹配成功度:语言版本,版本号n算法的假设前提,对于同种资源,从web上得到的软件和FTP上的文件q在名称上具有一定的相似度q文件大小相差不大Web页面抓取及信息提取FTP信息抓取软件信息匹配用户接口10开源智能-XPress匹配算法一:石氏(石午光)算法n名称文件大小,各占一定百分比n文件大小q二者大小之差的百分比反比于
4、比较结果n名称q假设前提:FTP文件名中前面的字符比后面的字符更能体现文件的内容q实际做法:前几个字符所占比重较大,越在后面的字符所占比重越小11开源智能-XPress匹配算法二:刘氏(刘菲菲)算法n前提假设:很多软件同时有中英文名n特点:中英文分别匹配,最大子串n步骤1.过滤掉文件大小之差大于阀值的匹配2.然后进行名称文件大小的匹配3.对于名称匹配,分别拆分出各自名称的最大中文子串和最大英文子串4.若一方无中(英)文子串,则只比较英(中)文子串;否则中英文子串都进行比较,各占一半的权重5.比较子串时挑选出最长共同的子串,其占整个字符串的长度之比为匹配值12开源智能-XPress匹配结果从从w
5、eb页面得到的文件名面得到的文件名从从FTP得到的文件名得到的文件名从从web得得到的文件到的文件大小大小从从FTP得得到的文件到的文件大小大小 cuteftp 5.0.1.0 汉化修正版cuteftp5.0.1.rar17305601729565 二十五史全文检索阅读系统(完整版)3.0二十五史全文检索阅读系统 v3.0-25sBook30.exe1031065610311417 winrar 3.20 简体中文版 WINRAR320CN.exe974848988031 picturetotv 1.4.4 汉化补丁HB_PictureToTV_szl.exe12318721232567 腾讯
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 智能 软件 平台 XPress 项目 汇报
限制150内