欢迎来到得力文库 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
得力文库 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    开源智能软件平台XPress项目汇报.ppt

    • 资源ID:59607996       资源大小:323KB        全文页数:20页
    • 资源格式: PPT        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    开源智能软件平台XPress项目汇报.ppt

    开源智能软件平台XPress项目汇报 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望目录n项目概述n系统n匹配算法n展望2开源智能-XPress项目概述n名称:“开源智能软件平台”,Xpressn功能:对FTP资源分类整合,并附加从web上自动提取的的相关信息,为用户提供具有高可用性的WEB形式资源浏览、检索与下载服务。n特点:自动3开源智能-XPressn商业经理:刘菲菲,软工n开发经理:谌贻容,语言所n档案经理:石武光,语言所n项目组长:谢 欣,网络项目概述:团队成员4开源智能-XPress项目概述:商业计划回顾n本项目以宽带网络服务提供商为服务对象n协助其以低廉的价格对现有下载服务进行大规模扩充,快速提高其商业竞争力为目标。n2003年10月23日录音回放:5开源智能-XPress系统介绍n实际使用nhttp:/xpress.3322.org:7001/XPress6开源智能-XPress系统结构图Web页面抓取及信息提取FTP信息抓取软件信息匹配用户接口7开源智能-XPress系统重点一:web信息提取n信息提取简介q基于模板(我们的选择)q基于Ontologyq基于规则q基于语法8开源智能-XPress系统重点二:FTP搜索n利用天网文件搜索的技术n爬虫n多线程并行抓取n每个站点一个线程9开源智能-XPress系统重点三:匹配算法n对每个FTP文件匹配所有的软件资源,找出匹配值最大的一项,当匹配值大于某个预定的权值时,我们就认为匹配成功n不是百分之百正确n为什么不用MD5q在现实实施中不可能q文件大小往往不同q增加匹配成功度:语言版本,版本号n算法的假设前提,对于同种资源,从web上得到的软件和FTP上的文件q在名称上具有一定的相似度q文件大小相差不大Web页面抓取及信息提取FTP信息抓取软件信息匹配用户接口10开源智能-XPress匹配算法一:石氏(石午光)算法n名称文件大小,各占一定百分比n文件大小q二者大小之差的百分比反比于比较结果n名称q假设前提:FTP文件名中前面的字符比后面的字符更能体现文件的内容q实际做法:前几个字符所占比重较大,越在后面的字符所占比重越小11开源智能-XPress匹配算法二:刘氏(刘菲菲)算法n前提假设:很多软件同时有中英文名n特点:中英文分别匹配,最大子串n步骤1.过滤掉文件大小之差大于阀值的匹配2.然后进行名称文件大小的匹配3.对于名称匹配,分别拆分出各自名称的最大中文子串和最大英文子串4.若一方无中(英)文子串,则只比较英(中)文子串;否则中英文子串都进行比较,各占一半的权重5.比较子串时挑选出最长共同的子串,其占整个字符串的长度之比为匹配值12开源智能-XPress匹配结果从从web页面得到的文件名面得到的文件名从从FTP得到的文件名得到的文件名从从web得得到的文件到的文件大小大小从从FTP得得到的文件到的文件大小大小 cuteftp 5.0.1.0 汉化修正版cuteftp5.0.1.rar17305601729565 二十五史全文检索阅读系统(完整版)3.0二十五史全文检索阅读系统 v3.0-25sBook30.exe1031065610311417 winrar 3.20 简体中文版 WINRAR320CN.exe974848988031 picturetotv 1.4.4 汉化补丁HB_PictureToTV_szl.exe12318721232567 腾讯qq 2003 木子版 1.1QQ2003 Preview4 木子版 1.0.exe65075206507728 腾讯qq自动发消息专杀工具qqav 3.3qqav311021.zip486400488208 腾讯qq自动发消息专杀工具qqav 3.3qqav.exe486400516608 金山巨无霸(sobig)专杀工具 2003.8.20.11Duba_Sobig.exe4505644032 internet设置工具-ieprosetup 1.2.2 简体版IEProSetup1.1.zip272384257926 qq狙击手ipsniper 3.2IpSniper.zip12206081215545 天网 maze 网络文件系统 1.02 betaMaze-1.02-win.exe2869248286960513开源智能-XPress实际测试n实际查询nhttp:/xpress.3322.org:7001/XPressqLeapftpq网络蚂蚁qMazeq友情强档14开源智能-XPress展望:质n提高匹配的准确程度n不同的单词应该有不同的权重,比如:q“photoshop”之类的词权重应比较高(区分性较强)q“windows”,“system”之类的权重应比较低q“中文版”,“build”之类的权重应非常低n不手工建立词典,采用分布均匀性公式15开源智能-XPress展望:质(续)n对每一个可能的词进行计算n北大计算语言所张化瑞的计算公式n计算词频的分布均匀性(Distributed Consistency,DC)n分布均匀度越高,该词的权重越低16开源智能-XPress展望:量n增加从web上进行信息提取的来源数量n自动发现软件站点q利用我们的软件信息库和现有的搜索引擎n自动提取此类网站的模板q提取出网站中大量相似页面中的不同内容n自动更新软件信息q基本于软件网站同步更新17开源智能-XPress各位员工好,这是我们开源智能跨国公司这个月的财政收入ft!我怎么只有180万!哇,钱不少嘛,不过其实我不爱钱可是钱爱我商业展望:2008年7月开源智能跨国公司的一次月度财政会议18开源智能-XPress谢谢观赏OntologynA computational entity,a resource containing knowledge about what“concepts”exist in the world and how they relate to one anothernComponentsqConceptsnDomain dependentqContext freeqContext sensitivenDomain independentqContext freeqContext sensitiveqRelationship(relational schema between the concepts)qConstraintsCar-object;Car 0:1 has Make 1:*;Make matches 10 constant extract baudib;end;Car 0:1 has Model 1:*;Model matches 25 constant extract 80;context baudiS*s*80b;end;Car 0:1 has Mileage 1:*;Mileage matches 8 constant extract b1-9d0,2k;substitute kK-000;end;Car 0:1 has Price 1:*;Price matches 8 constant extract 1-9d3,6;context$1-9d3,6;end;20开源智能-XPress

    注意事项

    本文(开源智能软件平台XPress项目汇报.ppt)为本站会员(豆****)主动上传,得力文库 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知得力文库 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于得利文库 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

    © 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

    黑龙江省互联网违法和不良信息举报
    举报电话:0468-3380021 邮箱:hgswwxb@163.com  

    收起
    展开