Unicode和多语言信息处理 - 浙江大学计算机辅助设计与图形.ppt
《Unicode和多语言信息处理 - 浙江大学计算机辅助设计与图形.ppt》由会员分享,可在线阅读,更多相关《Unicode和多语言信息处理 - 浙江大学计算机辅助设计与图形.ppt(25页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、Unicode和多语言信息处理,adoal,内容,早期的本地化技术软件国际化和多语言信息处理的需求常见字符集、编码介绍Unicode Technology 简介开发支持Unicode的程序Internet 时代的多语言信息处理相关资源不涉及文字消息(界面)本地化,早期的本地化技术,问题的历史起因电子计算机源起于英美,较少考虑国际需求早期不面向普通用户,无交互早期的本地化努力互相独立缺乏沟通合作逆向工程、外挂,支持不彻底应用软件要做个例修改,缺乏复用早期汉化的重要成果:GB2312 标准,基于国际化的本地化,抽象出共同部分做成框架,应用程序接口,国际化核心功能,本地化数据定义接口,英文定义,俄文
2、定义,中文定义,文字处理,数据库,多媒体,基于国际化的本地化续,成果抽象框架,功能复用,简化开发过程可加载的本地化模块,易于扩展宽字符机制,避开多字节编码的字节边界缺陷编码空间不兼容,导致“乱码”即使使用宽字符,不同语言的文字也无法共同处理,乱码一例,GBKByte1 : 0x81, 0xFEByte2 : 0x40, 0xFELatin-1Single byte : 0xA0, 0xFF序列 0xF1,0x61 如何解释?在GBK里是馻在Latin-1里是a,馻,a,多语言需求的解决方法,问题:字符集太小解决:设计大字符集并预留扩充位问题:编码空间冲突解决:设计新的编码方式有状态编码,使用转
3、义序列局部兼容性,编程复杂无状态编码,为每个编码点保留唯一编码值需要码表转换,编程简单,常见字符集和编码,ASCIIAmerican Standard Code for Information Interchange起源于美国国会图书馆等同于 ISO 646包含英文大小写字母、阿拉伯数字、标点符号、控制符7位编码是后来各种字符集、编码的兼容性参考,常见字符集和编码续,ISO-8859扩充了ASCII,加入欧洲语言的字母和符号8位编码,扩充部分在b7=1的区域,避开控制符,与ASCII兼容分为多个扩展集,适应不同文字ISO-8859-1 西欧ISO-8859-5 西里尔语ISO-8859-7 希
4、腊语ISO-8859-15 增加欧元符号,常见字符集和编码续,亚洲语言的字符集中国大陆:GB系列中国台湾:CNS、Big5日本:JIS X韩国:KSC大字符集:CCCII、ANSI Z39.64、ISO 10646亚洲语言的编码系统ISO-2022 多七位编码EUC 多八位编码双字节编码:Shift JIS、GBK、Big5Unicode类编码其它:HZ-GB-2312、GB18030、TRON、ANSI Z39.64等,Unicode Technology,Unicode是什么?Unicode provides a unique number for every character,no m
5、atter what the platform,no matter what the program,no matter what the language.关于字符集、编码的一系列相关标准和处理技术的总和,Unicode Technology续,Unicode的起源与发展发起者:Xerox、Apple、IBM、Microsoft、Sun、DEC、Novell等Unicode与ISO-10646的竞争ISO 10646:4个8位元定长,避开控制区C0和C1,不要求b7都为0或1Unicode:直接使用16位元,不避C0和C1Unicode与ISO-10646的统一ISO 10646放弃避开控制
6、区的方式Unicode并入ISO 10646的字面0,使用多八位元表示Unicode版本在不断更新增加新的字符,修正错误,Unicode Technology续,字符索引值的结构0ggggggg pppppppp rrrrrrrr ccccccccb31固定为07位群(group)索引,8位面(plane)索引,8位行(row)索引,8位格(cell)索引每个面的0xFFFE和0xFFFF值保留总共可收录的字数为128256(256256-2)=2,147,418,112个,Unicode Technology续,Unicode的字符集UCS: Universal Multiple-Octet
7、 Coded Character SetBMP: Basic Multilingual Plane即Plane 0UCS-2BMP的字符集相当于早期的Unicode,Unicode Technology续,Unicode BMP字符子集0000007F: ASCII008000A0: C1控制码00A11FFF: 拼音文字200028FF: 符号2E8033FF: 中日韩符号(部首、注音符号、日文假名、带括号数字等)34004DFF: 中日韩表意文字扩充区4E009FFF: 中日韩表意文字主区(20902个汉字)A000A4FF: 彝族文字,AC00D7FF: 韩文拼音组合字D800DFFF:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- unicode 以及 语言 信息处理 浙江大学 浙大 计算机辅助设计 图形
限制150内