第五章网络信息检索.ppt
《第五章网络信息检索.ppt》由会员分享,可在线阅读,更多相关《第五章网络信息检索.ppt(30页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第五章网络信息检索第五章网络信息检索一、网络信息资源一、网络信息资源网络信息资源的特点网络信息资源的特点网络信息资源的类型网络信息资源的类型1。网络信息资源的特点。网络信息资源的特点无序性无序性开放性开放性动态性动态性多样性多样性用户广用户广2。网络信息资源的类型。网络信息资源的类型(1)按信息的内容划分为:)按信息的内容划分为:政府信息,科研信息,教育信息,文化信息,娱乐消闲信息政府信息,科研信息,教育信息,文化信息,娱乐消闲信息等等(2)按采用的网络传输协议不同划分为:)按采用的网络传输协议不同划分为:万维网信息资源,万维网信息资源,Telnet信息资源,信息资源,FTP 信息资源,用户服
2、信息资源,用户服务组信息资源,务组信息资源,Gopher 信息资源信息资源(3)按网络信息资源传播范围划分)按网络信息资源传播范围划分:光盘局域网信息资源光盘局域网信息资源 传统联机检索信息资源传统联机检索信息资源 Internet网络信息网络信息二、网络信息检索工具二、网络信息检索工具1。网络信息检索工具及一般构成。网络信息检索工具及一般构成网络信息检索工具是指在因特网上提供信息检索服务的计算网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索对象是存在于因特网信息空间中各种类型的机系统,其检索对象是存在于因特网信息空间中各种类型的网络信息资源。网络信息资源。早期的搜寻早期的搜
3、寻FTP资源的资源的Archie,检索,检索Gopher网站资源的网站资源的Veronica和和Jughead,查询查询 Usenet新闻组资源的新闻组资源的WAIS等,等,以及以及Yahoo,Alta Vista,Lycos等等 Web检索工具。检索工具。所谓所谓Web检索工具是指利用超文本(超媒体)技术在因特网检索工具是指利用超文本(超媒体)技术在因特网上提供网上信息资源导航、检索服务的专门上提供网上信息资源导航、检索服务的专门Web 服务器或服务器或网站。由于网站。由于Web检索工具既以检索工具既以Web 形式提供服务,又以形式提供服务,又以Web资源为检索对象,检索范围还涉及其他网络资
4、源形式,资源为检索对象,检索范围还涉及其他网络资源形式,如如Usenet,Gopher,FTP等,所以等,所以Web检索工具成为人们检索工具成为人们获取因特网信息资源的主要检索工具和手段。获取因特网信息资源的主要检索工具和手段。网络信息检索工具的一般构成网络信息检索工具的一般构成自动索引程序:自动索引程序:大多数网络检索工具一般采用一种称为大多数网络检索工具一般采用一种称为Robot(又称又称Spider,Crawler,Worms,Wanders等)的网络自动跟踪索等)的网络自动跟踪索引程序引程序数据库:数据库:自动索引程序将采集和标引的信息汇集成数据库,作为自动索引程序将采集和标引的信息汇
5、集成数据库,作为该网络检索工具提供检索服务的基础。不同的网络检索该网络检索工具提供检索服务的基础。不同的网络检索工具的数据库的收录范围不同,标引方式也不同,规模工具的数据库的收录范围不同,标引方式也不同,规模大小不同。大小不同。检索代理软件:检索代理软件:当用户提出检索查询时,由检索软件负责代理用户在数当用户提出检索查询时,由检索软件负责代理用户在数据库中进行检索。不同的网络检索工具所采用的检索机据库中进行检索。不同的网络检索工具所采用的检索机制、算法有所不同,布尔逻辑检索是较普遍采用的一种制、算法有所不同,布尔逻辑检索是较普遍采用的一种机制。机制。2。网络信息检索工具的类型:。网络信息检索工
6、具的类型:网络检索工具一般可分为:网络检索工具一般可分为:Web 资源检索工具:以资源检索工具:以Web 资源为主要检资源为主要检索对象索对象,又以又以Web形式提供的检索工具。形式提供的检索工具。非非Web 资源检索工具:即以非资源检索工具:即以非Web 资源为资源为检索对象的检索工具,检索对象的检索工具,Archie,Veronica,WAIS 等。等。Web 资源检索工具资源检索工具(1)目录型检索工具)目录型检索工具(subject directory)(2)搜索引擎)搜索引擎(search engine)(3)多元搜索引擎)多元搜索引擎(metasearch engine)(1)目录
7、型检索工具()目录型检索工具(subject directory)目录型检索工具也称作目录型检索工具也称作catalogue目录型检索工具目录型检索工具 是按照某种主题分类体系编制的一种可供检是按照某种主题分类体系编制的一种可供检索的的等级结构式目录。在每个目录类及子类下提供相应的索的的等级结构式目录。在每个目录类及子类下提供相应的网络资源站点地址,并给以简单的描述。网络资源站点地址,并给以简单的描述。优优点点:目目录录型型检检索索工工具具经经过过信信息息管管理理专专业业人人员员、分分类类专专家家的的人人工工设设计计和和编编制制,所所收收录录的的网网络络资资源源经经过过专专业业人人员员的的鉴鉴
8、别别、选择和组织,保证了检索工具的质量,提高了检索的准确性。选择和组织,保证了检索工具的质量,提高了检索的准确性。局限性:局限性:其其更更新新、维维护护的的速速度度或或周周期期要要受受系系统统人人员员工工作作时时间间的的制制约约,导导致致检检索索工具的新颖性不够;工具的新颖性不够;若若用用户户不不熟熟悉悉其其分分类类体体系系或或对对类类分分标标准准理理解解与与系系统统人人员员不不一一致致,就就会会影响其检索;影响其检索;在某些主题下收录范围不够全面,使检索到的信息数量有限。在某些主题下收录范围不够全面,使检索到的信息数量有限。目目录录型型检检索索工工具具比比较较适适合合于于查查找找综综合合性性
9、、概概括括性性的的主主题题概概念念,或或对对检检索索准准确确度度要要求求较较高高的的课课题题。最最著著名名的的目目录录型型检检索索工工具具是是Yahoo!(URL:www yahoocom)。(2)搜索引擎(搜索引擎(search engine)搜索引擎的工作原理:搜索引擎的工作原理:发现、搜集网页信息。首先需要有高性能的发现、搜集网页信息。首先需要有高性能的Robot程序去程序去自动地在互联网中搜索信息自动地在互联网中搜索信息 索引库的建立。建立信息索引就是创建文档信息的特征索引库的建立。建立信息索引就是创建文档信息的特征记录,使检索者能够快速地检索到所需信息记录,使检索者能够快速地检索到所
10、需信息 检检索索及及结结果果输输出出。代代替替用用户户在在数数据据库库中中查查找找出出与与提提问问匹匹配的记录,并返回结果且按相关度排序输出。配的记录,并返回结果且按相关度排序输出。搜索引擎的特点:搜索引擎的特点:由由自自动动索索引引软软件件生生成成数数据据库库,收收录录、加加工工信信息息的的范范围围广广、速度速度 快,能及时地向用户提供新增信息。快,能及时地向用户提供新增信息。检检索索时时直直接接输输入入关关键键词词或或词词组组、短短语语,无无需需判判断断类类目目归归属,比较方便属,比较方便。局限性:局限性:但由于标引过程缺乏人工干预,准确性较差,加之检索但由于标引过程缺乏人工干预,准确性较
11、差,加之检索软件的智能化程度又不很高,导致检索误差较大;软件的智能化程度又不很高,导致检索误差较大;虽一次检索输出的结果可能很多,但会包含许多的重复、虽一次检索输出的结果可能很多,但会包含许多的重复、虚假信息,即检索噪音较大。虚假信息,即检索噪音较大。不同的搜索引擎有不同的检索项选择、不同的搜索引擎有不同的检索项选择、检索界面,不同检索界面,不同的句法要求和对符号、标识符的处理,因此检索策略的的句法要求和对符号、标识符的处理,因此检索策略的构造和输入方式也会直接影响检索结果。构造和输入方式也会直接影响检索结果。搜索引擎适合于检索特定的信息及较为专、深、具搜索引擎适合于检索特定的信息及较为专、深
12、、具体或类属不明确的课题。体或类属不明确的课题。较有代表性的英文搜索引擎有较有代表性的英文搜索引擎有AltaVista,Excite,Lycos,Hotbot等。等。目录型检索工具和搜索引擎之间的界限越来越模糊:目录型检索工具和搜索引擎之间的界限越来越模糊:大多数流行的网络检索工具同时提供两种方式的检索,从大多数流行的网络检索工具同时提供两种方式的检索,从而将目录型工具的组织、导引功能与搜索引擎的检索功能而将目录型工具的组织、导引功能与搜索引擎的检索功能更好地结合起来。这种担负了网络资源主题指南和索引双更好地结合起来。这种担负了网络资源主题指南和索引双重责任的混合型检索工具似乎代表了网络检索工
13、具的发展重责任的混合型检索工具似乎代表了网络检索工具的发展趋势。趋势。如:著名的目录型检索工具如:著名的目录型检索工具 Yahoo!曾与搜索引擎的典型代曾与搜索引擎的典型代表表AltaVista相挂接,当检索提问在相挂接,当检索提问在Yahoo!的分类目录指南的分类目录指南数据库中未找到相关的记录时,可自动转向数据库中未找到相关的记录时,可自动转向AltaVista的索的索引数据库中继续检索,并将有关的结果提供给用户,从而引数据库中继续检索,并将有关的结果提供给用户,从而加强了加强了Yahoo!的检索功能。的检索功能。其他一些著名的搜索引擎,如:其他一些著名的搜索引擎,如:Excite,Lyc
14、os,Magellan,WebCrawler等均在过去主要等均在过去主要 提供索引服务的基础上,提供索引服务的基础上,增设了各种形式的分类目录,以强化其组织、导引、浏览增设了各种形式的分类目录,以强化其组织、导引、浏览等功能。这种发展趋势使得许多用户已将上述两种工具混等功能。这种发展趋势使得许多用户已将上述两种工具混为一谈,均称为搜索引擎。为一谈,均称为搜索引擎。(3)多元搜索引擎)多元搜索引擎(metasearch engine)多元搜索引擎多元搜索引擎(metasearch engine或或megasearch engine)又称为集合式搜索引擎。多元搜索引擎是将多个搜索引擎集又称为集合式
15、搜索引擎。多元搜索引擎是将多个搜索引擎集成在一起,并提供一个统一的检索界面。它可分为两种类型:成在一起,并提供一个统一的检索界面。它可分为两种类型:搜索引擎目录搜索引擎目录和和元搜索引擎元搜索引擎。搜索引擎目录:搜索引擎目录:也即检索工具的检索工具,它将主要的搜索引擎集中起来,也即检索工具的检索工具,它将主要的搜索引擎集中起来,并按类型或按检索问题等编排组织成目录,帮助、导引用户并按类型或按检索问题等编排组织成目录,帮助、导引用户根据检索需求来选择适用的搜索引擎。根据检索需求来选择适用的搜索引擎。它集中罗列检索工具,并将用户导引到相应的工具去检索;它集中罗列检索工具,并将用户导引到相应的工具去
16、检索;检索的还是某一搜索引擎自己的数据库,与普通单一搜索引检索的还是某一搜索引擎自己的数据库,与普通单一搜索引擎的检索是一样的。只不过是设立了又一层门户,通过其组擎的检索是一样的。只不过是设立了又一层门户,通过其组织、检索界面,为用户选择适用的检索工具提供积极的帮助,织、检索界面,为用户选择适用的检索工具提供积极的帮助,以克服用户面对众多的检索工具的无所适从。较典型的搜索以克服用户面对众多的检索工具的无所适从。较典型的搜索引擎目录有:引擎目录有:All-in-One,CUSI,iTools!等。等。元搜索引擎元搜索引擎 是将多个搜索引擎集成在一起,提供一个统一的检索界面;且将一个检索是将多个搜
17、索引擎集成在一起,提供一个统一的检索界面;且将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合,去重提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合,去重之后输出检索结果。它是一种集中检索的方式,与之后输出检索结果。它是一种集中检索的方式,与Dialog联机检索中的跨联机检索中的跨文档检索文档检索 OneSearch非常类似。非常类似。优点:省时,不用就同一提问一次次地访问所选定的搜索引擎,每次均要优点:省时,不用就同一提问一次次地访问所选定的搜索引擎,每次均要输入同样的检索词等。且检索的是多个数据库,检索的综合性、输入同样的检索词等。且检索的是多个数据库,检索的综
18、合性、完整性也完整性也有所提高。有所提高。缺点:由于不同的搜索引擎的检索机制、算法及对提问式的解读均不同,缺点:由于不同的搜索引擎的检索机制、算法及对提问式的解读均不同,没有一个共同规范,使检索的准确性要相对差一些,并且速度也较慢。有没有一个共同规范,使检索的准确性要相对差一些,并且速度也较慢。有时多元搜索引擎检索出的结果可能还不如单个搜索引擎检索出的结果多,时多元搜索引擎检索出的结果可能还不如单个搜索引擎检索出的结果多,或给出的检索结果描述可能也不够详细,使用户虽得到了更多的检索结果,或给出的检索结果描述可能也不够详细,使用户虽得到了更多的检索结果,却缺少做进一步判断、阅读的相关指导信息。为
19、此,有些检索人员提出避却缺少做进一步判断、阅读的相关指导信息。为此,有些检索人员提出避免使用多元搜索引擎。但仍有些检索专家建议,在查询一些较模糊的提问,免使用多元搜索引擎。但仍有些检索专家建议,在查询一些较模糊的提问,或就某一课题的网络资源进行快速调查或就某一课题的网络资源进行快速调查、摸底、综览时使用多元搜索引擎。摸底、综览时使用多元搜索引擎。较常用的多元搜索引擎有:较常用的多元搜索引擎有:Dogpile,Metacrawler,Inference Find,SavvySearch,Highway61等等。三、重要的网络检索工具三、重要的网络检索工具 目录型网络检索工具目录型网络检索工具Ya
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 网络 信息 检索
限制150内