作为人工智能分支的自然语言处理停滞的技术.ppt
《作为人工智能分支的自然语言处理停滞的技术.ppt》由会员分享,可在线阅读,更多相关《作为人工智能分支的自然语言处理停滞的技术.ppt(38页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、作为人工智能分支的自然语言处理:停滞的技术,赵 海上海交通大学 计算机科学与工程系 沈阳 2010.09.18,2,起源,以人工智能的知识工程的角度来看待分析当前的自然语言处理技术。当前的自然语言处理被机器学习为代表的自动化数据挖掘技术所严重渗透。可将其归结为一种知识获得和学习分离的智能系统处理方法。忽略了基本的机器学习原则而导致低效的知识处理两个关联但是有区别的困境单一的数据挖掘方式的自然语言处理未能从根本上改变知识表示和知识获取的人工智能困难。以监督学习为代表的统计机器学习方法并不能带来真正的实用化的推广性能增长。我们的建议。,3,内容,自然语言处理中的机器学习技术的兴起被忽略的准则没有免
2、费的午餐丑小鸭 Zipf律困境的实例学习性能增长根本来源是语料增长指数增长的语料带来线形的性能提升结语,4,机器学习的兴起现代方法,最大熵用于词性标注Adwait Ratnaparkhi, Jeffrey C. Reynar, Salim Roukos. A Maximum Entropy Model for Prepositional Phrase Attachment. HLT 1994 机器翻译Franz Josef Och, Hermann Ney. Discriminative Training and Maximum Entropy Models for Statistical M
3、achine Translation. In ACL 2002: Proc. of the 40th Annual Meeting of the Association for Computational Linguistics (best paper award), pp. 295-302, Philadelphia, PA, July 2002. CoNLLThe Conference on Computational Language Learning (CoNLL-97) was held on July 11, 1997 in Madrid, Spain. Named entity
4、recognition, chunking, semantic role labeling, dependency parsing, joint learning of syntactic and semantic dependencies, etc,5,机器学习方法的兴起中文处理,Bakeoff-1: 2003分词Bakeoff-2: 2005分词,统一的机器学习方法Bakeoff-3: 2006分词,命名实体识别Bakeoff-4: 2007,2008分词,命名实体识别,词性标注,6,为什么要机器学习,样本比规则好定义规则会忽略低频情形语言的解释涉及的因素过多Fernando Pereir
5、aMachine Learning in Natural Language ProcessingUniversity of PennsylvaniaNASSLLI, June 2002,7,为什么要机器学习,机器学习降低了知识表示的难度!,8,机器学习方法的特征,标注数据:语料知识表示学习方法知识获取,9,机器学习方法的特征,机器学习针对于传统的人工智能。知识表示和获取的分离语料构建:专注于知识表示机器学习:专注于知识获取对比:专家系统规则的获取和表示是同步的。规则的管理是低效率的,困难的。,10,机器学习和知识源,从知识工程看待机器学习规则1学习模型本身/特征体系规则2-n标注语料,11,学
6、习模型,学习模型的三要素目标函数:知识源特征体系:部分的知识源参数估计算法:与知识源基本无关,12,机器学习:数据,假定已有数据合理近似现实世界?拥有数据训练数据集(training set data):训练测试数据(testing data):评估验证集validation set:避免过拟合overfitting。真实数据(real data):最终的检验,13,学习模型并不重要定理:没有免费的午餐,结论描述 by David Wolpert and William G. Macready 由于对所有可能函数的相互补偿,最优化算法的性能是等价的。没有其它任何算法能够比搜索空间的线性列举或者
7、纯随机搜索算法更优。该定理只是定义在有限的搜索空间,对无限搜索空间结论是否成立尚不清楚。 参考文献Wolpert, D.H., Macready, W.G. (1995), No Free Lunch Theorems for Search, Technical Report SFI-TR-95-02-010 (Santa Fe Institute). Wolpert, David (1996), “The Lack of A Priori Distinctions between Learning Algorithms, Neural Computation, pp. 1341-1390.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 作为 人工智能 分支 自然语言 处理 停滞 技术
限制150内