2022年搜索引擎技术核心揭密搜索研究教程.docx
《2022年搜索引擎技术核心揭密搜索研究教程.docx》由会员分享,可在线阅读,更多相关《2022年搜索引擎技术核心揭密搜索研究教程.docx(7页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、2022年搜索引擎技术核心揭密搜索研究教程编者按:这是一篇精彩的编程教学文章,不但具体地剖析了搜寻引擎的原理,也供应了笔者自己对运用编制搜寻引擎的一些思路。整篇文章深化浅出,信任无论是高手还是菜鸟,都能从中得到不少的启发。谈到网页搜寻引擎时,大多数人都会想到雅虎。的确,雅虎开创了一个互联网络的搜寻时代。然而,雅虎目前用于搜寻网页的技术却并非该公司原先自己开发的。2000年8月,雅虎采纳了Google()这家由斯坦福高校学生创建的风险公司的技术。理由特别简洁,Google的搜寻引擎比雅虎从前运用的技术能更快、更精确搜寻到所须要的信息。让我们自己来设计、开发一个强劲、高效的搜寻引擎和数据库唯恐短时
2、间内在技术、资金等方面是不行能的,不过,既然雅虎都在运用别人的技术,那么我们是不是也可以运用别人现成的搜寻引擎网站呢?剖析编程思路我们可以这样设想:模拟一个查询,向某个搜寻引擎网站发出相应格式的搜寻吩咐,然后传回搜寻结果,对结果的HTML代码进行分析,剥离多余的字符和代码,最终按所须要的格式显示在我们自己的网站页面里。这样,问题的关键就在于,我们要选定一个搜寻信息精确(这样我们的搜寻才会更有意义啊)、速度快(因为我们分析搜寻结果并显示须要额外的时间),搜寻结果简洁(便于进行HTML源代码分析和剥离)的搜寻网站,由于新一代搜寻引擎Google的各种优良特性,这里我们选择它为例,来看看用PHP怎样
3、实现后台对Google()搜寻、前台特性化显示这一过程。我们先来看看Google的查询吩咐的构成。进入网站,在查询栏中输入“abcd”,点击查询按钮,我们可以发觉阅读器的地址栏变成:了解File()函数语法: array file(string filename);返回值为数组,将文件全部读入数组变量中。这里的文件可以是本地的,也可以是远程的,远程文件必需指明所运用的协议。例如: result=file(“ result中。因为这里读取的文件是远程的,所以协议名“http:/”不能缺少。假如要让用户输入搜寻字符进行随意搜寻,我们可以做一个输入文本框和提交按钮,并将上文中的被搜寻字符“abcd”
4、用变量替换:<?phpecho <form> /没有参数的form,默认提交方式为get,提交到本身echo <input type=text name=keywords> /构造一个文本输入框echo <input type=submit value=查询> /构造一个提交查询按钮echo </form>if (isset( keywords) /提交后PHP会生成变量 kwywords,即要求下面的程序在提交后运行{urlencode( keywords); /对用户输入内容进行URL编码result=file( keywor
5、ds.btnG=Google%CB%D1%CB%F7hl=zh-CNlr=);/对查询语句进行变量替换,将查询结果保存在数组变量 result中result_string=join( , result); /将数组$result合并成字符串,各数组元素之间用空格粘和. /进一步处理}?>上面的这段程序已经能按用户输入内容进行查询,并将返回的结果合成一个字符串变量$result_string。请留意要运用urlencode()函数将用户输入内容进行URL编码,才可以正常地对输入的汉字、空格以及其他特别字符进行查询,这样做也是尽可能逼真地模拟Google的查询吩咐,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 搜索引擎 技术 核心 揭密 搜索 研究 教程
限制150内