《旅游文化法英翻译资源库构建方法.docx》由会员分享,可在线阅读,更多相关《旅游文化法英翻译资源库构建方法.docx(11页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、旅游文化法英翻译资源库构建方法摘要:对于我国丰富的旅游资源,传统的人工翻译已经无法满足人们的需求,为此,基于机器学习构建陕西旅游文化法英翻译资源库。确定资源库的总体架构和功能架构,利用朴实贝叶斯分类算法对资源训练,依据计算得出的文本属性权重大小对资源文本分类划分,通过机器学习自学习过程补充和完善资源库中的资源属性,保证资源库中资源具有较高的精确性,至此完成资源库的构建。通过性能测试结果可知,应用所提方法后法英翻译资源库在忠实度、流畅度和可理解度方面均有了明显提升,为旅游翻译工作者提供了强有力的基础保障。关键词:机器学习;法英翻译资源库;朴实贝叶斯分类算法;陕西旅游文化;资源训练集语言沟通是人类
2、沟通的主要方式,但是各个国家和地区都有其当地语言风俗,这些差异导致旅游文化对外输出遇到了巨大的阻碍。翻译是打破这个阻碍最有效的途径,但是这不仅要求翻译人员具备专业的翻译学问,还需对当地旅游文化资源具有肯定的了解,否则就会出现景点介绍不到位、文化现象翻译得不够传神等现象。在当今信息快速进展的时代,人工翻译明显不能满足社会进展的需求,相关学者开始讨论利用机器翻译替代人工翻译,于是构建关于旅游文化的翻译资源库,整合经过系统处理的高质量的翻译资源,如李华勇重点讨论了翻译汉语语料库中构筑的语义韵与其在原创汉语语料库中构筑的语义韵存在显著性差异,为提高翻译质量提供了参考;严世芸等构建中医药现代学问体系,确
3、定中医药名词术语内涵,以推动实现中医药的现代化与对外传播。国外学者提出了一种将连续词嵌入与深度学习相结合的并行句子生成方法。引入跨语言语义诱导双语信号,试验说明,对于低资源语言,在缺乏外部资源的状况下,可以取得较好的翻译效果。陕西西安作为六朝古都和世界四大古都之一,钟楼、雁塔、兵马俑、华清池等我国优秀历史文化,高度表达了我国古代劳动人民的智慧;关中盆地地势平坦、土质肥沃、水源丰富,号称“八百里秦川。随着我国对外开放的不断推动,这些优秀的旅游资源也要适应跨地区、跨国家的需求。本讨论在机器学习的基础上,提出了陕西旅游文化法英翻译资源库构建方法。依据对资源库的设计要求和应用目标分析,明确了资源库的总
4、体架构和功能架构。通过构建资源训练集,为后续进行分类计算提供数据输入,利用朴实贝叶斯分类算法对资源训练集进行分类计算,找出概率值最大的资源文本,并依据机器学习过程,完成对资源库中资源的补充和完善,由此完成资源库的构建。通过性能测试结果说明,本讨论所设计方法可保证翻译的精确性和流畅性,对于旅游文化翻译工作具有较高的参考根据。构建陕西旅游文化法英翻译资源库基于机器学习的法英翻译资源库,是在机器学习的基础上,利用自学习特性不断分类处理资源,确保资源库具有极高的分类精确性。完善包含法英双语分词系统、机器自学习过程、资源训练集和词库的分布式并行计算等主要部分的资源库。旅游文化法英翻译资源库构建需求分析旅
5、游是一种特别的跨文化交际类型。这项工作的主题是译者为了到达胜利的交际而被要求进行的干预程度。他们的任务不是展示他们在特定主题上的学问,而是展示他们的调整能力,从而使之适用于与原著所针对的类型必定不同的旅游者。因此,翻译人员应当学会为旅游者提供足够的信息。同时译者在语言和解释层面的确定在肯定程度上会让读者参加其中,从而影响旅游目的地的推广。国际外宣翻译工作在城市对外旅游宣扬中起着特别重要的作用。但是目前对法英翻译资源库中资源分类方案和资源分类训练集的讨论较少,本讨论基于文本分类的思想,将机器学习和朴实贝叶斯分类算法结合起来建立了资源分类系统。与文本分类思想不同的是,由于旅游文化的翻译具有不确定性
6、、冗杂性和多变性,这使得本讨论构建的分类系统应具备更强大的分类性能、自学习性能和过滤性能,以便更好地适应冗杂多变的翻译内容。为了资源库的稳定运行,本讨论设计的资源库隶属于分布式并行环境。该环境采纳分布式并行计算框架,该框架具备较高的计算性能,为资源库的稳定运行提供了强有力的保障。法英资源库架构从对法英资源库的设计目标分析,将资源库的总体架构分为预处理模块、朴实贝叶斯分类模块、机器学习模块、资源训练模块、框架模块和日志服务模块。总体架构构成如图所示。框架在法英资源库中的主要功能是为资源库提供分布式并行计算服务,确保资源库可以高效、稳定地运行。从法英资源库的应用目标分析,资源库的功能架构主要由机器
7、学习系统、资源训练集、法英分词系统和朴实贝叶斯分类器个部分组成。运作流程为法英资源库获取到待分类文本后,首先通过法英分词系统对文本信息进行分词操作,并将无用信息滤除掉,完成分词后将结果传送至朴实贝叶斯分类器中;分类器通过文本训练集计算出文本信息的概率值,并将结果根据从大到小的顺序分类,匹配出最也许率值所属的资源类型;完成匹配后的结果集通过机器学习系统与初始训练集结合,共同对文本的字词结构和特征权重不断进行优化更新,以保证翻译的精确度。资源库的功能架构如图所示。将资源训练集分为个初始化资源,并以文件夹的形式存储,每个文件夹中包含所属该类型的资源文本。不仅如此,资源训练集中还包含着分类计算所匹配的
8、文本信息和计算结果,当到达触发器设定的阈值标准后则启动机器学习系统,进入自学习过程。完成自学习后,评估系统自动对自学习结果进行测试评估,只有通过测试后才能被永久保存在初始集中。构建法英资源训练集法英资源训练集主要包含初始集和扩展集两部分。初始集为初始资源类别,扩展集为扩展的资源类别。初始集通过机器学习不断执行自学习过程,进行资源的优化和完善,初始集主要用于资源匹配中。扩展集是初始集的进一步完善和补充,主要对未定义的资源类别进行资源扩展。法英资源类别由多个资源文本构成,这些资源文本又同时构成了资源训练集,具体如图所示。资源训练集中资源文本均以结构化的方式直接存储在系统硬盘上,使用时直接调用即可。
9、基于朴实贝叶斯算法的分类运算朴实贝叶斯分类器是在朴实贝叶斯公式的基础上实现的分类运算。假设资源库获取的待分类文本属性为,用特征向量将其表示为,;假设类别集合为,已定义的类别集合为,用特征向量将其表示为,。把和的特征向量共同输入朴实贝叶斯分类器中,计算过程如式式中,表示属于的概率值;表示假如不属于,中包含的概率;表示属于的概率值;表示全部给定资源类别的联合概率值。依据式中的定义计算,可知属于该资源类别的值为一个固定值,求解资源类别的过程就是求解,的过程,由此可将式简化为式。又因朴实贝叶斯分类算法独特的“朴实性,其特征向量,均可为独立存在的状态,可以将概率计算转换为对每个文本属性特征概率分布的乘积
10、计算,如式。式给出了分类算法输出结果为属于的概率值,由此可获得朴实贝叶斯算法的函数原型,以此函数原型为基础展开的分类计算可直接用于法英资源库的构建。由于朴实贝叶斯分类算法没有考虑各个文本属性之间的关系,只是为了提升计算速度,简化冗杂的计算过程。但事实上,各个文本属性之间存在着多种关系,而且每个文本属性对分类计算的重要程度也不相同,所以朴实贝叶斯分类算法会与实际状况产生肯定的偏差。为了将这种误差掌握到最小,本讨论采纳了基于特征权重的朴实贝叶斯分类器,对资源训练集中的每一个文本属性都进行一次权重计算,以便于更好地区分不同的文本属性对分类计算的重要程度。该方法可以在肯定程度上提高算法的分类精度,构成
11、如图所示。基于特征权重的朴实贝叶斯分类算法主要由待分类资源文本、朴实贝叶斯分类器、资源翻译列表和具有权重的文本训练集组成。计算流程如下:资源库获取到待分类资源文本后,朴实贝叶斯分类器依据资源训练集中文本属性的权重和数量,得到资源文本属于每个资源类别的概率,并找出概率值最大的资源类别,把待分类的资源文本划分到该资源类别中。本讨论利用增加了权重的朴实贝叶斯分类算法,对文本属性具有更高的分类精确性。基于机器学习的法英翻译算法机器学习自学习过程主要由评估系统、触发器模块、奉献度计算模块和文本集维护模块部分共同完成。自学习过程如图所示。文本集维护模块整合了资源训练集和匹配结果集的全部文本资源,并采纳文件
12、锁的形式存储资源,保证整个资源库资源的完好性。触发器模块作为自学习过程的启动模块,本讨论对该模块设定了个触发条件:匹配结果集容量触发和循环时间触发模式。奉献度计算模块主要为资源训练集和匹配结果集中的支持计算其奉献度大小。在资源库中,某个单词的奉献度可以看作为在分类计算时的重要程度。评估系统依据奉献度计算模块得出的结果对自学习效果进行测试评估。该系统包含了预替换过程、效果评估和确认替换个模块。假如测试通过,执行预替换操作,否则不予替换。式中,为单词的词向量;和分别为在单词作中心词时使用的向量表征和外部词语时使用的向量表征。依据计算结果,将概率值最高的作为翻译结果输出。机器学习的自学习过程,是补充
13、和完善的过程,在资源库中,只有通过不断的自学习,才能保证资源库中的资源具有较高的精确性,以应变冗杂多变的翻译内容。性能测试为了验证本讨论所设计方法的有效性,对本讨论构建的英法翻译资源库进行性能测试,共有名外语系专业学生参与测试。测试内容对采纳本讨论所设计方法和未采纳本讨论所设计方法翻译的两种译文从忠实度、流畅度和可理解度方面进行打分。忠实度为评判译文是否忠实地表达原文意思,分为分个等级,打分结果取小数点后一位小数。流畅度为译文翻译是否流畅、正宗,分为分个等级,打分结果取小数点后一位小数。可理解度为评判学生用户是否可以理解翻译后的文章,分为分个等级,打分结果取小数点后一位小数。测试步骤不采纳本讨
14、论所设计方法,对陕西旅游文化资源进行法英翻译。采纳本讨论所设计方法翻译同一篇文章,并对翻译后的文章进行人工校对,如表、表所示的忠实度、流畅度和可理解度标准对两篇译文进行打分。完成测试,统计打分结果。测试结果测试结果如表所示。由表可以看出,虽然本讨论构建的法英资源库并没有得到总分,存在肯定的分类优化问题,但是采纳本讨论所设计方法后,在忠实度、流畅度和可理解度方面均比未采纳本讨论所设计方法前有了明显提升,均保持在以上。总结旅游文化的翻译工作和讨论受到国内外许多学者的关注,在进行翻译工作之前,构建高效的翻译资源库是必不行少的。本讨论在理论语言学的基础上,结合机器学习,构建了陕西旅游文化法英翻译资源库
15、,填补了该领域语言翻译资源库建设的空白。将需要检索的信息输入资源库中,就可得到包含检索关键词的全部陕西旅游文化法英翻译的语句和相关文章,完成对陕西旅游文化法英翻译资源库。翻译资源库不仅可以为翻译工作者提供参考根据,还可以关心翻译工作者在翻译旅游文化资源时了解特别的语句结构和语法特征。不仅如此,还可以在本讨论构建资源库的基础上,提高机器翻译在旅游翻译领域的效率。但是,本讨论在讨论过程中,发觉资源库还有很多新的问题需要解决,如双语文本语义和句法标注技术的更新等,将以此为重点进行下一步讨论,进行更深层次的讨论工作。 王玉 单位:咸阳师范学院 外国语学院本文来源:网络收集与整理,如有侵权,请联系作者删除,谢谢!第11页 共11页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页
限制150内