基于神经网络分类的搜索引擎在Internet信息监控中的应用.pdf

上传人：qwe****56

文档编号：74645414

上传时间：2023-02-27

格式：PDF

页数：4

大小：209.10KB

( 4.5 )

《基于神经网络分类的搜索引擎在Internet信息监控中的应用.pdf》由会员分享，可在线阅读，更多相关《基于神经网络分类的搜索引擎在Internet信息监控中的应用.pdf（4页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、基于神经网络分类的搜索引擎在I n t e r n e t 信息监控中的应用吴今培张哲(五邑大学智能技术与系统研究所江九5 2 9 0 2 0)确6摘要本文提出了一种h l e n 砣t 信息监控系统的构想它采用了基于神经网络分类的搜索引擎技术，能大大提高信息监察部门的工作效率其他用户也可将其用作智能化信息检索工具。关键词r o b o t 语法分析器神经网络搜索引擎A P】P I C T 1 0 No FS E A R C H 硎G 矾EB A S E Do NN E U R A I，N E n V O R KC L A S S 邛I C A T I o NF o RA ND i 皿R n

2、i l TD 砸o 瑚埙A T I o NM D N D R 矾G 团巧1 E MW uJ i n p e i 盈“g 珏e(如m 旷抽矾和蛔咖y d 跏l，既州一r 玑b t P 一9)A b 如a c tI|l“8p a p e r，w ep r 雠m 蚰I I l t 试I 触d o n M O I l i t 撕T】gs y s t 锄，w l l i c h“p I s 恤t e d 哪l o g y0 f 神眦he 嚼mb a 删o n 弛I 脚T l e【一w o r kd a 够i 6 c“o n I lc 0 1 1 l di m p。d v eg 眦I ym eI a b

3、 o u r 棚c i e。-c y0 fi 面呻俩o e n s o d n gb u r e 蛐(h h 盯u 就巧c 叽a I 蛐I l 赞n 船蚰血e l l i 萨I I【i l I l p k r r 七r I tI i ri n f b 叫嘶I P e v 日1 K e 矾如R o b 毗P a 瑚rN e u 柚n 咖r khe r 西n e1引言监察部门的工作效率。I r I I e m e t 在最近几年的发展非常迅速I n t e m e t 上的信息资源也在日益膨胀，可以预计，它今后还将以更快的速度发展下去。当互联网上的站点和文档数量非常大时，人工浏览大部分甚至全部的以

4、超文本结构形式存在的信息资源已不再可能，更称不上是一个有效的信息发掘手段了。同时，I n t e m e t 本身无法控制所发布的信息的种类，因此，在网络上传播的信息、言论中难免有一部分不在各国、各地区的法律法规允许范围之内的非法信息。目前网络上传播的这类信息主要有以下几种类型：危害国家安全、违反党和政府的政策法规、宣传邪教道义、传播淫秽色情内容、宣传封建迷信等等。有些公安局已经投入了人力和物力来控制I n t e r-n e t 上(主要指中国大陆地区)这些内容的传播扩散。做法是，由专人每天浏览相对固定的站点，找出是否有新的非法信息的出现，若有则采取措施加以处理。显然这种人工的方法人力资源消

5、耗大，而且效率低。针对上述情况，本文提出了一种基于神经网络分类的搜索引擎技术的I n l e m e t 信息监控系统的构想，用计算机代替了大部分的人工工作，能够太大提高信息2 系统结构图1 显示了整个系统的结构和流程。系统有三个关键模块，它们的名称及其功能如下：(1)R O B O T(或称s p i d e r、w e bw 蛐d e r e r 等)按照一定顺序遍历I r I n e t，获得网页的内容；(2)语法分析嚣提取网页内容的关键字，生成特征向量作为M L P 的输入；(3)M L P(M I l l t i b r 盯P e r c e p t r o n 多层感知器神经网络)

6、根据特征向量将网页内容进行分类，代替人工找出非法的站点所在。图1I 眦烈信息监控系统结构图系统的工作流程如下：r D b o t 按一定顺序遍历h e r _m t 上的网页并取得其内容，接下来有一个语法分析器对网页傲语法分析，提取其特征并进行编码使之成吴今培教授，博导，主研镛域：智能计算智能监测与控制。3 l 万方数据为一个特征向量，将此特征向量输入到用于分类的M L P 中去，已经过训练的M L P 将会对此输入作分类，给出分类结果。在对有问题的站点作出处理以前，需对分类结果稍加检验，如果分类正确，则作出处理，而对少数分类有问题的站点，则将其编辑成样本供M L P再进行学习，以便以后具有此

7、种特征的站点能正确分类。需要指出的是，随着时间的推移，非法站点的内容的特征会有所变化，会出现一些新的关键词，而一些老的关键词可能不会再出现或出现频率极低，这种情况下M I P 需要重新进行训练，以适应这种变化。3 关键技术3 1R o B o T搜索引擎的核心是一个被称为“机器人(m b o t)”的程序，它能横跨整个网络，方法是：遵循标准的网络坍议，从某一u R L 开始，取回该页的内容，并在队列中记录下该页上所出现的新的超链接，然后顺着这些链接搜索新的u R L，用递归的方法自动取回链接所指向的网页的内容，存人数据库。一般来说，同类型的文档(站点)之间相互关联的程度会比较高，而不同类型的站

8、点之间的关联程度比较低。信息监察部门手中一般都会掌握着一批非法站点的口和域名，可以将它们作为初始的u R L，采用“宽度优先”与“深度优先”相结合的搜索算法，顺藤摸瓜地找出与之关联的其他站点，并取回那些站点的内容进行分析。图片文档、C G I 代码、以及一些更新太快的文档如B B S 站点上的文章等是不应该被m b o t 检索的，而r|0 b o t本身无法自动决定某一u R L 指向的内容是否应该加入其索引，这就导致了网络带宽资源的浪费，业内人士制订r 一个s R E 标准(s t a r l d a l d f o r R o b o t sE x c l u s i o n)，通过一个

9、保存在站点根目录下的文本文件(m b o I s 龇)来告诉m b o t 哪些文档是不必被检索的，它可以防止m b o t掉人黑洞。这个标准是自发形成的，但执行起来很简单，而且有很大的舆论压力使d 遵循这一标准。s R E 标准对本系统使用的r o b o t 影响是不是很大呢?我们可从以下的角度进行分析。不管什么类型的文档，之所以要放在h l t e m e t 上就是为了能让更多的人看到，被一些商业搜索引擎的b o t 发现并加人到其数据库中无疑是个很好的办法。出于这种考虑，w e b 作者一般不会把希望让别人看到的文档的目录写入m b o t s“l 文件的D i 日a u o w 行

10、中去，即将这些文档屏蔽掉，因此大部分的文档实际上都能被r o b o t 搜索到。由于系统的运行过程是边检索，边判断分类，因此可能出现以下两种情况：一是出现指向检索过的站点的几率大大增加，这是因为这类站点之间构成了一个连通图，此时如果继续检索的话，将会无谓地浪费服务3 2 器和网络资源；二是在连续出现的检索出的文档中，关心的类型所占比例越来越小，这时检索也应告一段落，否则会有更大的资源浪费。3 2 语法分析器语法分析器用来进行网页的特征提取。对普通中文搜索引擎来说，分词技术显得尤为重要，因为中文没有明显的词间分隔，分词方法的好坏将直接影响到文章的内容识别效果。汉语分词的方法有许多，如最大词组匹

11、配、联想一回溯法、基于专家系统的分词和基于统计和频度分析的分词方法等。这里由于关心的文档种类相对非常之少，而且关键词可以预先确定，而无须从文档内容中提取，所以分词的实现也较标准搜索引擎要简单。特征提取时，统计关键词在文档中出现位置以及出现的频度，分别赋予不同的权值，最终生成的特征向量的各分量由各关键词的权值来决定。关键词出现的位置包括两方面内容，一是在文档中的实际位置，如开头的一段文字往往更能反映文章的实际内容，二是出现在不同的m 眦I 标签中的关键词应赋予不同的权值，如出现在超链接和M 肼A 标签中的词应有较高的权值，1 1 1 I E 标签中的词也应该比B O D Y 标签中的词的权值高。

12、由于最后提取出的特征向量还耍经过神经网络来分类识别，权值的偏差(噪声)可以在特征向量通过M L P 时被滤除，所以该模块对分词的要求也可以适当降低，这里采用了按词典(并非通用词典，而是系统运行前预先确定的关键词词典)进行词组匹配分词法。3 3 P多层感知器(M 廿)是一种前馈型神经网络，它具有用含有噪声的数据进行学习并推广的能力，因此比较适用于解决分类和预测问题，例如：时间序列预测、股市预测、天气预测和模式识别等。简单的M L P 由三层网络组成：输入层、隐层和输出层。相邻的两层神经元之问采用全互连的方式，即上一层的每一个神经元都分别与下一层的每一个神经元相连，同一层的神经元之间没有连接。输入

13、层神经元将输入信息传递到隐层神经元，隐层神经元则处理这些输入并将结果传递到第三层，输出层作出整个网络的响应。这里网络的输出是分类信息如“反动”、“迷信”、“淫秽”、“邪教”等。图2 显示了一个M L P 的模型，其中每一个圆圈代表一个神经元。囹2 简单M l P 模型万方数据通常，有两层以上隐层的M 在实际应用中解决模式分类问题比较有效，几乎可以解决所有输人输出映射问题。K h a n n 8 在1 9 9 0 年给出了严格的数学证明：只要每层神经元的数目和训练时间不受限制，M L P 可以解决任何分类问题。通过向环境学习获取知识并改进自身性能是神经网络的一个重要特点。一般情况下，性能的改善

14、是按某种预定的度量通过调节自身参数如权值随时间逐步达到的。神经网络的学习方式有三种：监督学习(有教师学习)、非监督学习(无教师学习)和再励学习(强化学习)；学习算法或者说学习规则有：误差纠正学习、H e b b学习和竞争学习。这里采用的学习方式是监督学习，学习算法是误差纠正学习，即存在输入输出数据对，也称为训练样本集，M L P 根据已知输出与实际输出之间的差值来调节系统参数。这里使用的是有三个隐层的M L P，训练样本集是指已经进行r 人工预分类的一批包括各种类型，且以非法文章为主的H T M L 文档。系统的初始化的过程如下：用离线浏览器下载一定数量各种类型的网页，存放在本地的硬盘上；人工

15、对这些网页进行分类，并将分类结果存人数据库；用语法分析器对这些网页的不同部分如标题、超链接、正文的关键字进行特征提取并编码形成特征向量；把特征向量输入神经网络，并将输出结果与实际分类结果相比较，调整神经元之间的连接强度；用多个样本反复进行训练，直至神经网络的输出与实际输出之间的均方差小于一个给定的接近零的数；再用一些样本对训练成果进行检验，如果结果符台要求，则表明网络已经学习好并可以用于解决分类问题了，否则还需要继续进行训练。学习完毕以后，M L P 即可用来进行网页特征向量的分类。使用神经网络进行站点分类与其训练过程很相似，但区别在于：训练时用的网页是下载后保存在硬盘上的，而实际应用时网页是

16、实时从网上下载下来的。训练时神经网络的连接权根据输出的情况不断进行调整，而在应用时连接权一般不再进行调整，除非遇到分类结果与实际情况相差较大，才把当前的网页作为样本再加以学习。4 结论综上所述可以看出，除了能用于信息监察部门完成I n I e m e t 上的非法信息监控工作外，这种智能化的搜索引擎系统也适用于其他各行各业，使关心某一方面专项内容的用户不必做过多的主动查找就能获得网上最新的信息资源，达到事半功倍的效果。系统是用J a v a 语言编写的，J a v a 语言的丰富的类库使系统的开发效率大为提高，合理地使用J a v a 的多线程能力，能使m b o t 的效率和安全性得到较好的

17、统一，且J a v a 的平台无关性令系统在不同的操作系统中都有很强的适应性。参考文献1 I m 蜘，r：F b u I d 娟m s0 f N 眦dN d 融s：w m l 9 9 02J 蜥s 】o p，CM：N e u I d t w o I k sf b rP a t l e mR e c o 印i t l：0 x f m d1 9 9 53 jj P 1 gI“g C j d e l1：j a v 黼C q m“m l 螂4 R 0 b 叭EF】h 郴龃d g 咖P 蚰E：s e 柚1 兀gt h ck k m dI E E EI n t m 时C m 6 n g1 9 9 8(上接

18、第2 3 页)9 个人信任设备利用P 获得用户的私钥，用私钥进行数字签名，并将签名后的支付信息发送给服务商。l O 服务商对签名进行验证。如果验证成功，服务商在用户的预付费卡中扣款，发送货物，同时发送成功信息；如果失败，则将失败信息发送给个人信任设备。1 1 个人信任设备显示成功信息，交易完成。手机购物的交易流程如下图所示。以上就是移动电子商务中的一般交易流程。当然，由于具体应用的运行环境和采用的技术不同，可能会造成交易流程中一些细节的变化，本文就不一赘述了。参考文献 IJM e Tc 旧s p e c i 6 c 日t i m，M 打，2 1 0 2 2 0 0 1u R L：h t【p：，

19、w w wr r l o b i l pm w d m E 2Jw i e 啦T 埘r。甲矾脚盯s 旧m 呵s p c c 出叫i，w A P o 刑m t 一l i 一1 9 9 9u m：h【t I】：，w 丑喵 3 。w i 毗l 黜咄i cK e yI n 6 世呐c t I|r eD 击血b【m”，w A PF 叽肺，2 4 一1 0 2 0 0 0u R L：h t t p：，w w w 啪曲m 蛐g1 4 “w 一嘲I d 肌t l 时M 0 d u l cs p e c i f i 叫l m”w A PR 耶m 一l l 一1 9 9 9U R I，：h 叩：，如0 r B 万

20、方数据基于神经网络分类的搜索引擎在Internet信息监控中的应用基于神经网络分类的搜索引擎在Internet信息监控中的应用作者：吴今培，张哲作者单位：五邑大学智能技术与系统研究所,江门,529020刊名：计算机应用与软件英文刊名：COMPUTER APPLICATIONS AND SOFTWARE年，卷(期)：2002,19(7)参考文献(4条)参考文献(4条)1.Robert E Filman and Sangam Pant:Searching the Internet 19982.Java Programming Guide 1.1:JavaSoft Corporation 19963.Bishop C M Neural Networks for Pattern Recognition 19954.Khanna T Foundations of Neural Networks 1990 本文链接：http:/

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于神经网络分类搜索引擎 Internet 信息监控中的应用

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：基于神经网络分类的搜索引擎在Internet信息监控中的应用.pdf
链接地址：https://www.deliwenku.com/p-74645414.html