专题网络检索工具.ppt
《专题网络检索工具.ppt》由会员分享,可在线阅读,更多相关《专题网络检索工具.ppt(87页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、南京工业大学朱晓峰网络检索工具12/6/20221南京工业大学朱晓峰网络检索工具1.因特网基础知识2.网络检索工具基础3.通用搜索引擎实例:Google4.医学搜索引擎12/6/20222南京工业大学朱晓峰1.因特网基础知识12/6/20223南京工业大学朱晓峰nCNNIC最新统计:(2006/6/30)5450万台上网计算机12,300万网民(每周平均上网1小时的网民)1.1 我国因特网的发展12/6/20224南京工业大学朱晓峰CNNIC历次调查我国网民总数12/6/20225南京工业大学朱晓峰nTCP/IP协议通信的保证机制nIP地址地址的标识技术n客户机/服务器系统运作的基本模式1.2
2、 因特网的互联原理12/6/20226南京工业大学朱晓峰TCP/IP协议n是通信的保证机制n全称:Transmission Control Protocol/Internet Protocol 传输控制/交互网络协议n由“因特网之父”文顿瑟夫确立n因特网的基础和核心,是基本协议。n保证各种不同类型的计算机网络实现相互通信一套规则或协议。nTCP:传输控制协议。规定传输信息怎样分层、分组和在线路上传输。nIP:Internet协议。定义Internet上计算机之间的路由选择,把不同网络的物理地址转换为Internet地址。12/6/20227南京工业大学朱晓峰地址的标识技术IP地址n识别主机的身
3、份证,唯一性n形式:四组小于256的十进制表示。如:北京邮电大学图书馆技术部一台主机。n字符型的IP地址,即域名(DN)域名的地址格式为:主机名 机构名 网络类型 最高域名注 需申请注册12/6/20228南京工业大学朱晓峰 常用网络类型代码com 商业机构 org 非营利组织edu 教育机构 gov 政府部门 net 网管组织 int 国际组织mil 军事部门 info 信息机构其他:.museum.coop.aero.pro12/6/20229南京工业大学朱晓峰客户机/服务器系统客户机/服务器系统(Client/Server System)因特网运作的基本模式n服务器:提供资源和服务的计算
4、机n客户机:使用资源和服务的计算机12/6/202210南京工业大学朱晓峰1.3 因特网提供的主要服务n环球网(WWW/Web)n电子邮件(E-Mail)n远程登录(Telnet)n文件传输(FTP)等n网格网格12/6/202211南京工业大学朱晓峰n1990年诞生于瑞士全欧原子物理研究室。n是通过超文本(Hypertext)方式来进行互联网上信息查询的网络工具。超级链接:通过网页上的关键字、图片等元素在网页、多媒体信息间建立起网状链接超文本:一种文件格式,将分散于各机器上的文本、图像、声音等文件通过超级链接链接起来。n基于超文本传输协议:http(Hypertext Transfer Pr
5、otocol)环球网(World Wide Web)12/6/202212南京工业大学朱晓峰n统一资源定位器(URL,网址)是信息在网上的地址,用来定位和检索WWW上的文档。由三部分组成web服务器域名、文件路径、文件名例如:http:/ Wide Web)12/6/202213南京工业大学朱晓峰nHTML超文本标记语言用于编辑Web网页文件,需用Web浏览器显示,可用记事本等编辑。环球网(World Wide Web)12/6/202214南京工业大学朱晓峰Web 2.0n让互联网找回Internet的真正含义:平等、交互、去中心化。n可以读写的互联网。Web1.0我们网上冲浪,Web2.0
6、我们是波浪制造者n个人媒体崛起:Blog(网志、博客)走进大众传媒,是以时间为顺序更新的个人主页。12/6/202215南京工业大学朱晓峰Web 2.0nBlog与BBS的区别Blog集原创文章、评价、链接、网友跟进于一体BBS没有上下文概念,反复围绕一个问题,但人们经常忘了以前说过什么。12/6/202216南京工业大学朱晓峰网志你的网络日记12/6/202217南京工业大学朱晓峰网格:Girdn是把整个互联网整合成一台巨大的超级计算机,实现计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全面共享。n地区性的网格:如中关村科技园区网格、企事业内部网格、局域网网格、甚至家庭网格和个
7、人网格。网格的根本特征并不一定是它的规模,而是资源共享,消除了资源孤岛12/6/202218南京工业大学朱晓峰2.网络检索工具基础12/6/202219南京工业大学朱晓峰且慢,让我先Google一下我们若能更妥善地搜寻资料,实在已经改变世界我们若能更妥善地搜寻资料,实在已经改变世界 12/6/202220南京工业大学朱晓峰一一.网络检索工具的原理及类型网络检索工具的原理及类型网络检索工具泛指因特网上提供网页网络检索工具泛指因特网上提供网页信息资源检索和网站导航服务的站点,主信息资源检索和网站导航服务的站点,主要面向互联网信息检索,并通过要面向互联网信息检索,并通过Internet来来提供服务,
8、通常又称搜索引擎。提供服务,通常又称搜索引擎。12/6/202221南京工业大学朱晓峰网络检索工具的原理主要由五部分构成:数据采集(robot/spider):负责按照一定的方式和要求对网络资源进行搜集,并将搜集到的网页信息经网络传输,存储到搜索引擎的临时数据库中数据分析与标引(indexer):负责对收集到的网页信息进行分析,从中提取有检索或查询价值的内容网页关键词、网页的分类类别等,并对关键词进行权值计算;12/6/202222南京工业大学朱晓峰网络检索工具的原理n数据组织:负责形成规范的索引数据库或便于浏览的层次型分类目录结构n数据检索:负责帮助用户用一定的方式检索索引数据库,获取符合用
9、户需要WWW信息n信息挖掘:负责提取用户相关信息,利用这些信息来提高检索服务的质量。根据用户以前检索行为的学习统计及其登记的信息,信息挖掘模块在个性化服务中起到关键作用12/6/202223南京工业大学朱晓峰按工作原理划分n独立检索工具主题指南/目录/网站查询(Directory)由人工采集网站并进行分类,建成树状等级目录.保证了查准率,但查全率降低。如:ODP(Open Directory Project)、Yahoo!搜索引擎/网页搜索通过Robot自动跟踪标引软件搜寻网页,自动进行关键词标引,它不需要人工干涉,查全率较高。如:Google,All the Web12/6/202224南京
10、工业大学朱晓峰独立检索工具搜索引擎工作原理12/6/202225南京工业大学朱晓峰按工作原理划分n元搜索引擎(集成搜索引擎)自身不采集信息,没有信息库,同时检索多个独立搜索引擎,以统一格式输出结果。信息量大,用时短。Vivisimo、Ixquick、MetaCrawler、搜星、万纬搜索等。12/6/202226南京工业大学朱晓峰元搜索引擎工作原理12/6/202227南京工业大学朱晓峰按检索内容划分n通用检索工具 是综合性的信息检索系统,它往往基于检索词去匹配相关的内容。时常也会因检出内容太泛而无法一一过目。如:Google、Altavista、ODP、Yahoo!、百度n专业检索工具 是专
11、业信息机构根据专业需求,将Internet上资源进行筛选整理、重新组织而形成专业信息检索系统,专业针对性较强。如:Medical Matrix、HealthWeb、BIOMED12/6/202228南京工业大学朱晓峰CNNIC中国搜索引擎市场调查报告(2006)n北京、上海和广州三地搜索引擎总体市场份额:百度 64.5%(+13%);Google 20.6%(-12.3%)雅虎 5.4%(+1.7%);新浪 3.5%(-0.5%)搜狐 3.4%(-1.2%)nGoogle用户具备比百度更早的上网经历、更多的搜索引擎使用经验、对搜索引擎的依赖度更强、对首选搜索引擎的满意度更高、更多地搜索与工作或
12、职业相关的内容。n百度在学生用户中的市场份额远远高于其在非学生用户中的市场份额。百度用户搜索音乐(Mp3)等娱乐内容的使用率相对较高;Google用户搜索网站(网页)、企业产品、商情、交通旅游等内容的使用率相对较高。12/6/202229南京工业大学朱晓峰3.通用搜索引擎实例12/6/202230南京工业大学朱晓峰3.通用搜索引擎实例:Googlen3.1 Google的概况n3.2 Google的特色n3.3 Google的搜索模块n3.4 Google的关键词检索规则n3.5 Google的网页目录查询n3.6 Google学者Scholarn3.7 Google使用偏好设置n3.8 其他
13、检索引擎12/6/202231南京工业大学朱晓峰Google主页(http:/)12/6/202232南京工业大学朱晓峰Google与数字图书馆nGoogle源自DLI1(Digital Library Initiative 1)美国数字图书馆先导研究计划的一个项目。n1994年在读研究生Larry Page和Sergey Brin参与了斯坦福大学主持的Infobus项目,这个项目以解决异构系统互操作为主要目标,他们开发了一项名为“BackRub”的搜索技术,其核心就是Pagerank技术,这就是Google的前身。n1997年他们发表了论文并建立了试验性搜索网站,次年Google公司宣告正式
14、成立。n当年Altavista,Infoseek,Exite甚至包括Yahoo!(当时Yahoo!搜索引擎还用的是Inktomi)风靡互联网的时候,曾有人宣告搜索引擎技术不可能有什么发展了,已经到头了。n没有DLI1计划,就不会有Google。112/6/202233南京工业大学朱晓峰3.1 Google的概况n搜索的网页:80 亿+;图片:10 亿+;Usenet 信息:10 亿+n拥有100多种界面语言和国际域名n员工数超过3400人,大部分是技术人员和工程师n在搜索引擎市场占有56%的份额n广告客户数量达数千家n在世界各地拥有20个办事机构n股票面值近300美元,总市值超800亿美元!n
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 专题 网络 检索 工具
限制150内