语料库语言学.ppt
《语料库语言学.ppt》由会员分享,可在线阅读,更多相关《语料库语言学.ppt(67页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、语料库语言学介绍语料库和语料库语言学的定义国外对语料库语言学的定义:1、根据篇章材料对语言的研究称为语料库语言学。(K.A ijm er&B.itenberg,1991)2、基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。(T.M cEnery&A.W ilson,1996)3、以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。(D.Crystal,1991)我们认为较为准确全面定义:语料库(corpus 或corpora 复数):是指按照一定的语言学原那么,运用随机抽样方,收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库。语料库
2、语言学:在文本语料的根底上进行语言研究的一门学科。语料库语言学的研究对象 语料库语言学是以语料库中收集储存的真实语言材料做为唯一的研究对象,以语言现象出现的概率为依据。因此,语料库语言学为语言学研究提供了一种全新的研究思路。一个合格的语料库必须以电子计算机为载体来存放语言材料,这些存放在电子计算机中的语言材料是在语言的实际使用中真实出现过的。因此,它们可以如实地反映语言现象,克服语言学家观察语言现象时的主观性。语料库语言学的应用 1、语料库语言学与语言研究1语料库与语言学理论。语料库的建立使语言的理论研究的手段和方法发生了巨大的变化,它不但修正了语言的一般性规那么,而且对语言的理论探索也产生了
3、深远的影响。2语料库语言学与语言史研究。大多数语料库的语料都有特定的年代跨度,根据不同的研究目的,从一年至百年不等。如为了研究英语史而建立的Helsinki Corpus of English Tests 的历史局部,年代跨长从公元850年至1720年,这一语料库无疑为研究语言的历史和开展提供了丰富、可靠的素材。3语料库语言学与句法、词法及自动语法分析。利用语料库进行语法分析是语料库语言学的早期目的之一。如今,人们对语料库内的语料进行更高层次的研究,对入库的语篇进一步的处理,如进行词性附码和句法分析词性附码:对库内语篇中所有的单词根据其语法作用加注词性编码。句法分析:对经过自动词性附码的语料库
4、根据某种特定的语法描述进行语法分析,使语料的自动语法分析成为可能。从而也大大方便了词的语义及功能研究、近义词的比较研究、搭配及其结构的研究、语体的研究、英语口语音型和语调研究、英语名词短语的成语性研究和英语句法开展的研究。自动语法分析还被应用于语法检查、词义排歧、自然语言接口、对名词短语辩识的改进、机器翻译等。4语料库语言学与口语研究。语料库在口语研究中的作用有两个方面:第一,它能提供空前广泛的口语素材,使对口语的概括和对特定语言内方言变异的研究成为可能。第二,其提供的是自然真实的而非人工条件下产生的话语。这就保证了语料库所提供的语言现象是真实存在的,并能准确反映实际生活中真正使用的语言的特点
5、。5语料库语言学与语义研究。语料库可用来对为语义提供客观标准,并适当考虑到语义的不确定性。如民特(Mindt,1991)指出,词项和语言结构的意义常常是根据语言学家本人的直觉来描写的,而事实上语义区别是同句法、词法和韵律街上下文的语篇相关,通过语料库来调查这些相关成分,可以找到特定语义区别的客观指示。6语料库语言学与社会语言学。社会语言学作为一个经验研究领域,主要依赖于具体的语料数据。如何提高数据的自然性和代表性,减少其诱导因素等一系列问题,都可通过对语料库的运用一步步找到解决途径。如介尔默Kjellmer,1986 曾经调查了man/men,woman/women 及其它相应的代词,结果说明
6、男性代词出现的频率要比女性代词出现的频率高。7语料库语言学与语用学和语篇分析。语料库常常是把话语从上下文或语篇中别离出来,因此其所收语料在很大程度上脱离了上下文或社会背景,而语用学和语篇分析对于场景和上下文又具有一定的依赖性。故以语料库为根底的语用或语篇研究相对较少,但语料库为这些领域所作的奉献是不可否认的。语用学及相关领域的研究通常是以会话为根底的,如伦敦伦特语料库(London-Lund Corpus)和柯林斯出版公司与伯明翰大学联合开发的“英语库(The Bank of Eng2lish,简称BOE),前者收集的是日常会话,后者的口语局部包括日常会话会议、讨论、采访、电台播送等。8语料库
7、语言学与文体学。文体学研究的主要对象是作家的写作风格以及比较一个作家在某一特定历史时期的作品与其同时代其他人的作品。语料库为文体学研究提供了量化的实际语料,防止了主观因素。9语料库语言学与心理语言学。语料库是心理语言学家进行测试研究的有力工具。尤其在语言病理分析方面能帮助研究人员准确确定问题到底发生在语言开展的哪一阶段。此外,语料库语言学还为话语及会话分析、言语变体(口笔语,语言与性别,方言)、语音科学、儿童语言习得研究等方面提供了非常丰富的实例,充分表达了语料库语言学在语言研究方面的作用。2、语料库语言学与语言测试 从语料库语言学和语言测试的内涵以及两者的关系出发,探析基于计算机的语料库应用
8、于语言测试的必要性、可能性、可行性和局限性等问题。第一、语料库容量大,可以储存大量的文本,这样为实现不同目的、要求以及规模的语言测试提供可能。第二、语料库的设立是建立在语料库语言 学理论根底上的,符合语言测试要有理论依据的要求。第三、语料库真实性与可靠性等特点以及某些测试如GRE 所表达的可行性,又正好迎合了语言测试评估中的要求。第四、语料库能或多或少地补充和纠正所储存的语料内容,这样又为语言测试的设计,试题提供和评估等提供了根底。3、语料库语言学与辞典编纂 语料库不仅能够提供更完备和详尽的关于词义和词汇搭配的信息,而且利用语料库中的频率统计可以直观的反映词汇用法的使用情况。如英国考林斯出版社
9、和伯明翰大学编辑出版的?国际通用词典?在很大程度上打破了词典编撰的传统,从词条的选定及解释、用法到释义的先后顺序等都依据了由2亿词次的COBUILD语料库中统计出的频率。由于语料库的素材来自实际使用的语言,利用其素材作为词典的例句更具真实性和准确性。利用语料库编撰词典不仅能反映语言的真实变化,而且编撰周期也会大大缩短。4、语料库语言学与语言教学 语料库及语料库语言学的应用已经在英语教学的各个方面发挥了重要的作用。1教学大纲的制定或修订。可参考和借鉴语料库语言学对英语语言描述的研究成果,使所制定的教学大纲的体系更加科学,描述更加准确,更有利于英语的教和学。2 教材的选择。选择适宜的教材对于教学来
10、说是非常重要的。利用定位检索软件对某些词在一个语篇中的分布情况和出现频率的统计,可以较为客观地判断出该语篇的题材和难度,使取舍有了量化的标准。借助词频统计还可以确定哪些是教材中应重点讲授的核心词和语言点以作为教材编写和教学的重点。3提供例句的来源。在解释词或搭配的意义和用法时,教师不用自己去创造例句这往往会造成不真实或不准确,而是可以借助定位检索软件在语料库中寻找以该语言为母语的人使用该词或搭配的例句。这样得到的例句既生动又真实,因而说服力强。4编写练习或测试题。使用定位检索软件准备练习题或测试题可以极大地减轻教师的工作量,并且使题目更具真实性和可靠性。5 学生作文分析。选择局部学生作文语体的
11、语篇作为参照语料库。用定位检索软件分别对每个学生的作文做词频统计并将分析结果打印出来,这样教师就可以很容易地分析出学生是否能正确的使用所学的词或词组,出现了哪些语法错误等。5、语料库语言学与机器翻译及文本校对 利用计算机将语料库中的材料,按一定的要求编码、处理,如把语言的各个层级分别看待,即词、句法、语义、互指,不同的应用将利用不同层级的信息,在词层级上的分析应用上就可以进行词的切分和词法分析、拼写检查、全文检索、词频统计、名词短语的辩识、义类词典、逐词机器翻译等。在句子句法、语义的分析和应用上可以进行语法检查、词义排歧、自然语言接口、对名词短语辩识的改进、机器翻译等。对机器可读的语料库进行编
12、码处理,并赋予一定的语法规那么,制作出的翻译软件、校对软件、定位检索软件、语义网等是目前语料库语言学应用研究的一大成果。它们的问世为语言工作者和学习者提供了一个十分方便的语言工具。以英汉翻译系统为例,目前我国市场上可见的译星、译林、快译通等电子词典和计算机双向全文翻译系统非常受语言学习者和语言工作者的欢送。计算机多媒体使电子词典不仅提供了词意,而且还能模拟人声读出音来。一些专业全文翻译软件能进行双向翻译且翻译的正确率已到达了80%,翻译人员只需将本族语或目标语输入计算机,计算机就能在几分钟内将译文输出,翻译人员再用较短的时间对其进行人工校译就能完成译文工作,大大缩短了翻译时间。将计算机的校对系
13、统用于文字处理器中,能对所输入的文本进行自动输入校对和语法错误提示,大大地提高了输入的正确率,节省了大量的文稿校对时间。语料库语言学根本开展概况 语料库语言学在国外的开展:语料库语言学作为一种研究语言的方法,可以追溯到19 世纪,甚至更为久远。现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其开展大致分为以下几个阶段:1、语料库语言学的早期开展 早期的语料库语言学指的是20 世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。此类研究主要集中在以下几个方面:1应用语料研究方法较早且较普遍的领域是语言习得。19 世纪70年代在欧洲兴起了儿童语言习得研究的第一个
14、热潮,当时的许多研究就是基于父母详细记载其子女话语开展的大量日记的。据悉,这些日记作为原始材料,不仅是当时W.P reyer 和W.Stern 等人的理论假说的依据,而且至今仍是许多学者的研究语料之一。自本世纪30 年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言开展模式。这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。(2)西方早期的结构主义语言学家利用自然语料开展音系研究。他们注重“野外工作,强调语料获取的自然性和语料分析的客观性。这些都为后来的语料语言学所继承和开展。(3)方言学从其产生以来就与语料关系密切。在西方,方言学脱胎于19 世纪的历史比较语言学,最
15、初兴趣主要是研究运用直接法所获取的有关单音不同分布的事实来绘制方言地图。“方言研究者手持笔记本,后来是手提录音机,记下或录下他所遇到的一切方言材料。此种取样法至今仍为某些业余研究者所用,它对于研究方言词汇的分布有一定价值。(F rancis,1983)2、新的语料库语言学 1959 年,R.Quirk 着手建立“英语用法语库(Su rvey of English Usage)。该工程旨在收集大量的风格题材各异的语料作为对英国英语口语和书面语进行系统描写的根底。几乎与此同时,以N.F rancis 和H.Kucera 为首的一批语言学家和计算机专家聚集在美国的布朗大学合力攻关,于1961年建成了
16、当今最早的机读语料库-布朗语库(B row n Co rpu s)。这两个库可以说是现代语料库语言学的开端。3、语料库语言学与乔姆斯基转换生成语法 50 年代中前期,在实证主义和行为主义思潮的影响下,语言研究总体上是经验主义占主导。但是这种状况随着乔姆斯基1957 年?句法理论?及其以后的一系列论著的发表被根本转变。笛卡尔的理性主义占据主导地位,经验主义几乎无立足之地,被视为经验主义产物的语料研究自然被完全否认。乔姆斯基及其转换生成语法学派否认早期语料研究主要有两点:1语料研究的方向有误。乔姆斯基认为,语言研究的主要目标是建立一种能反映说话人心理现实的语言认知模式,即语言能力模式。因为只有语言
17、能力才能对说话人的语言知识作出解释和描述,而语言运用只是语言能力的外在证据,它往往会因超语言因素的影响而发生变化。因此,它不能确切地反映语言能力。语料从本质上只是外在化的话语的聚集,基于语料的研究所建立的经验模式充其量只能对语言能力作出局部解释,因而语料不是语言学家从事语言研究的得力工具。(2)语料的不充分性。乔姆斯基在?句法理论?一书中首次发现英语短语结构规那么具有递归性。这种递归性说明,自然语言的句子是无限的,而作为语料根本单位的句子的无限性决定了语料是难以穷尽的,换言之,语料永远是不完整的,不充分的。4、在相对寂静了近20 年后,语料库语言学自80 年代以来,迅猛开展,空前繁荣,主要表现
18、是:1第二代语料库的建成 以伯明翰英语语料库为代表的一大批语料库80年代以来相继建成。这些机控语库,尽管规模、设计和研究目的各异,但大多采用了较新的KDEM(Kurzweil Data Entry Machine)光电符号识别技术,使语料的编码和编辑得以从繁重的人工输入中解脱出来,大大加快了语料的标注处理,促进了语料的分析和利用,故称第二代语料库。根据美国加州大学伯克莱分校的语言学家J.Edwards 1993年的不完全统计,80年代以来建成并投入使用的各类语料库达50多个按语种分布如下:英语24,法语4,意大利语2,丹麦语2,德语7,西班牙语2,芬兰语2,瑞典语2。此外,还有葡萄牙语,南斯拉
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语料库 语言学
限制150内