基于神经网络分类的搜索引擎在Internet信息监控中的应用.pdf
《基于神经网络分类的搜索引擎在Internet信息监控中的应用.pdf》由会员分享,可在线阅读,更多相关《基于神经网络分类的搜索引擎在Internet信息监控中的应用.pdf(4页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、基于神经网络分类的搜索引擎在I n t e r n e t 信息监控中的应用吴今培张哲(五邑大学智能技术与系统研究所江九5 2 9 0 2 0)确6摘要本文提出了一种h l e n 砣t 信息监控系统的构想它采用了基于神经网络分类的搜索引擎技术,能大大提高信息监察部门的工作效率其他用户也可将其用作智能化信息检索工具。关键词r o b o t 语法分析器神经网络搜索引擎A P】P I C T 1 0 No FS E A R C H 硎G 矾EB A S E Do NN E U R A I,N E n V O R KC L A S S 邛I C A T I o NF o RA ND i 皿R n
2、i l TD 砸o 瑚埙A T I o NM D N D R 矾G 团巧1 E MW uJ i n p e i 盈“g 珏e(如m 旷抽矾和 蛔咖y d 跏l,既州一r 玑b t P 一9)A b 如a c tI|l“8p a p e r,w ep r 雠m 蚰I I l t 试I 触d o n M O I l i t 撕T】gs y s t 锄,w l l i c h“p I s 恤t e d 哪l o g y0 f 神眦he 嚼mb a 删o n 弛I 脚T l e【一w o r kd a 够i 6 c“o n I lc 0 1 1 l di m p。d v eg 眦I ym eI a b
3、 o u r 棚c i e。-c y0 fi 面呻俩o e n s o d n gb u r e 蛐(h h 盯u 就巧c 叽a I 蛐I l 赞n 船蚰血e l l i 萨I I【i l I l p k r r 七r I tI i ri n f b 叫嘶I P e v 日1 K e 矾如R o b 毗P a 瑚rN e u 柚n 咖r khe r 西n e1引言监察部门的工作效率。I r I I e m e t 在最近几年的发展非常迅速I n t e m e t 上的信息资源也在日益膨胀,可以预计,它今后还将以更快的速度发展下去。当互联网上的站点和文档数量非常大时,人工浏览大部分甚至全部的以
4、超文本结构形式存在的信息资源已不再可能,更称不上是一个有效的信息发掘手段了。同时,I n t e m e t 本身无法控制所发布的信息的种类,因此,在网络上传播的信息、言论中难免有一部分不在各国、各地区的法律法规允许范围之内的非法信息。目前网络上传播的这类信息主要有以下几种类型:危害国家安全、违反党和政府的政策法规、宣传邪教道义、传播淫秽色情内容、宣传封建迷信等等。有些公安局已经投入了人力和物力来控制I n t e r-n e t 上(主要指中国大陆地区)这些内容的传播扩散。做法是,由专人每天浏览相对固定的站点,找出是否有新的非法信息的出现,若有则采取措施加以处理。显然这种人工的方法人力资源消
5、耗大,而且效率低。针对上述情况,本文提出了一种基于神经网络分类的搜索引擎技术的I n l e m e t 信息监控系统的构想,用计算机代替了大部分的人工工作,能够太大提高信息2 系统结构图1 显示了整个系统的结构和流程。系统有三个关键模块,它们的名称及其功能如下:(1)R O B O T(或称s p i d e r、w e bw 蛐d e r e r 等)按照一定顺序遍历I r I n e t,获得网页的内容;(2)语法分析嚣提取网页内容的关键字,生成特征向量作为M L P 的输入;(3)M L P(M I l l t i b r 盯P e r c e p t r o n 多层感知器神经网络)
6、根据特征向量将网页内容进行分类,代替人工找出非法的站点所在。图1I 眦烈信息监控系统结构图系统的工作流程如下:r D b o t 按一定顺序遍历h e r _m t 上的网页并取得其内容,接下来有一个语法分析器对网页傲语法分析,提取其特征并进行编码使之成吴今培教授,博导,主研镛域:智能计算智能监测与控制。3 l 万方数据为一个特征向量,将此特征向量输入到用于分类的M L P 中去,已经过训练的M L P 将会对此输入作分类,给出分类结果。在对有问题的站点作出处理以前,需对分类结果稍加检验,如果分类正确,则作出处理,而对少数分类有问题的站点,则将其编辑成样本供M L P再进行学习,以便以后具有此
7、种特征的站点能正确分类。需要指出的是,随着时间的推移,非法站点的内容的特征会有所变化,会出现一些新的关键词,而一些老的关键词可能不会再出现或出现频率极低,这种情况下M I P 需要重新进行训练,以适应这种变化。3 关键技术3 1R o B o T搜索引擎的核心是一个被称为“机器人(m b o t)”的程序,它能横跨整个网络,方法是:遵循标准的网络坍议,从某一u R L 开始,取回该页的内容,并在队列中记录下该页上所出现的新的超链接,然后顺着这些链接搜索新的u R L,用递归的方法自动取回链接所指向的网页的内容,存人数据库。一般来说,同类型的文档(站点)之间相互关联的程度会比较高,而不同类型的站
8、点之间的关联程度比较低。信息监察部门手中一般都会掌握着一批非法站点的口和域名,可以将它们作为初始的u R L,采用“宽度优先”与“深度优先”相结合的搜索算法,顺藤摸瓜地找出与之关联的其他站点,并取回那些站点的内容进行分析。图片文档、C G I 代码、以及一些更新太快的文档如B B S 站点上的文章等是不应该被m b o t 检索的,而r|0 b o t本身无法自动决定某一u R L 指向的内容是否应该加入其索引,这就导致了网络带宽资源的浪费,业内人士制订r 一个s R E 标准(s t a r l d a l d f o r R o b o t sE x c l u s i o n),通过一个
9、保存在站点根目录下的文本文件(m b o I s 龇)来告诉m b o t 哪些文档是不必被检索的,它可以防止m b o t掉人黑洞。这个标准是自发形成的,但执行起来很简单,而且有很大的舆论压力使d 遵循这一标准。s R E 标准对本系统使用的r o b o t 影响是不是很大呢?我们可从以下的角度进行分析。不管什么类型的文档,之所以要放在h l t e m e t 上就是为了能让更多的人看到,被一些商业搜索引擎的b o t 发现并加人到其数据库中无疑是个很好的办法。出于这种考虑,w e b 作者一般不会把希望让别人看到的文档的目录写入m b o t s“l 文件的D i 日a u o w 行
10、中去,即将这些文档屏蔽掉,因此大部分的文档实际上都能被r o b o t 搜索到。由于系统的运行过程是边检索,边判断分类,因此可能出现以下两种情况:一是出现指向检索过的站点的几率大大增加,这是因为这类站点之间构成了一个连通图,此时如果继续检索的话,将会无谓地浪费服务3 2 器和网络资源;二是在连续出现的检索出的文档中,关心的类型所占比例越来越小,这时检索也应告一段落,否则会有更大的资源浪费。3 2 语法分析器语法分析器用来进行网页的特征提取。对普通中文搜索引擎来说,分词技术显得尤为重要,因为中文没有明显的词间分隔,分词方法的好坏将直接影响到文章的内容识别效果。汉语分词的方法有许多,如最大词组匹
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 神经网络 分类 搜索引擎 Internet 信息 监控 中的 应用
限制150内