西文字符的编码(24页).doc

上传人：1595****071

文档编号：37486051

上传时间：2022-08-31

格式：DOC

页数：23

大小：177KB

( 4.5 )

《西文字符的编码(24页).doc》由会员分享，可在线阅读，更多相关《西文字符的编码(24页).doc（23页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、-一、二、西文字符的编码-第 23 页三、西文字符的编码1. 西文字符集：由拉丁字母、数字、标点符号及一些特殊符号组成。2. 字符的编码：字符集中每一个字符各有一个代码，即字符的二进制表示，称为该字符的编码。3. 字符代码表:字符集中不同字符的编码互相区别，构成该字符集的代码表。 4. ASCII字符集和ASCII码1) 美国标准信息交换码(American Standard Code for Information Interchange)：使用7个二进位对字符进行编码（叫做标准ASCII码），称为ISO-646标准。2) 基本的ASCII字符集共有128个字符，96个可打印字符（常用字

2、母、数字、标点符号等）32个控制字符，特殊字符的ASCII码空格（32）、A（65）、a（97）、0（48）l 数字，字母的ASCII码是连续的，对应大小写字母ASCII码相差32。l 不同类型的ASCII码的十进制数值由小到大：数字、大写字母、小写字母3) 汉字的编码（一）l GB2312-80汉字编码A. 第一部分：字母、数字和各种符号，包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个（统称为GB2312图形符号）B. 第二部分：一级常用汉字，共3755个，按汉语拼音排列C. 第三部分：二级常用字，共3008个，按偏旁部首排列区位码：GB2312国标字符集构成一个二

3、维平面，它分成94行、94列，行号称为区号，列号称为位号。每一个汉字或符号在码表中都有各自的位置，字符的位置用它所在的区号(行号)及位号(列号)来表示。每个汉字的区号和位号分别用1个字节来表示如：“大”字的区号20，位号83，区位码是20 83用2个字节表示为：00010100 010100114) 国标交换码:l 问题：信息通信中，汉字的区位码与通信使用的控制码（00H1FH）发生冲突。解决方案：为了避免汉字区位码与通信控制码的冲突，ISO2022规定，每个汉字的区号和位号必须分别加上32（20H）得到国标交换码。5) 机内码：l 问题：文本中的汉字与西文字符经常是混合在一起使用的，汉字信息

4、如不予以特别的标识，它与单字节的标准ASCII码就会混淆不清。解决方法：把一个汉字看作两个扩展ASCII码，使表示GB2312汉字的两个字节的最高位(b7)都等于“1”。这种高位为l的双字节(16位)汉字编码就称为GB2312汉字的“机内码”，又称内码。（如：“大”字的内码是：10110100 11110011（B4F3）l 汉字编码例l 国标码=区位码+2020Hl 机内码=国标码+8080Hl 机内码=区位码+A0A0H例如：“啊”区位码： 16 01 = 10 01H 0001 0000 0000 0001 国标码： 30 21H = 10 01H 20 20H 0011 0000 00

5、10 0001机内码： B0 A1H = 30 21H 80 80H 1011 0000 1010 00016) GBK汉字内码扩充规范l 问题：GB2312-80只有6763个汉字，使用时功能不够。解决方法：1995年发布GBK，全称为汉字内码扩展规范GBK字符集中一共有21003个汉字和883个图形l GBK字符集中的每个字符都采用双字节表示，总的编码范围为8140-FEFE，首字节在81-FE之间，尾字节在40-FE之间(剔除xx7F一条线不安排字符)，总计23940个码位，共收入21886个汉字和图形符号，未使用的区域作为用户自定义区。l 应用：操作系统Windows 95以上简体中文

6、版，采用GBK代码，并提供了多种输入法和字体应用软件Office 95以上简体中文版本提供GBK码的检索和排序互联网应用许多网站的网页使用GBK代码，但目前还不是所有搜索引擎都支持 GBK 汉字文本的搜索7) UCS/Unicode与GB18030汉字编码标准 l 通用编码字符集UCS/Unicode约有6800种语言和文字在使用，需要建立一个多文种（Multilingual）处理环境在ISO2022基础上，使用代码页号切换不同字符集的方法过于繁琐，且与其他系统不兼容目标与途径：实现所有字符在同一字符集中统一编码l UCS/Unicode与GB18030汉字编码标准优点：编码空间极大，能容纳

7、足够多的各种字符集（13亿字符）缺点：4字节的字符编码使存储空间浪费严重5. 文字与文本 1) 文本（text）：文字信息在计算机中的表示形式，组成文本的基本元素是字符，字符在计算机中采用二进制编码表示。2) 文本处理过程 l 文本在计算机中的处理过程：文本的准备（例如汉字的输入），文本编辑，文本处理，文本存储与传输、文本展现等，根据应用的不同，各个处理环节的内容和要求可能有很大的差别。l 文本信息的输入方法A. 人工输入：通过键盘、手写笔或语音输入方式输入字符特点：速度慢、成本高，不适合需处理大批量文字的应用B. 自动输入：将纸介质上的文本通过识别技术自动转换为文字的编码特点：速度快，效率

8、高C. 文字的自动识别分为：印刷体识别和手写体识别l 文本信息的输入方法由于汉字字数很多，无法使每个汉字与西文键盘上的键一一对应，因此必须使用一个或几个键来表示汉字，这就称为汉字的“键盘输入编码”。好的汉字键盘输入编码方案的特点：易学习、易记忆、效率高(平均击键次数较少)、重码少、容量大(可输入的汉字字数多)等汉字的输入编码与汉字的内码是不同范畴的概念。使用不同的输入编码方法向计算机输入的同一个汉字，它们的内码是相同的数字编码：使用一串数字来表示汉字的编码方法，例如电报码、区位码等。缺点：难以记忆，不易推广字音编码：一种基于汉语拼音的编码方法，简单易学，适合于非专业人员。缺点：同音字引

9、起的重码多，需增加选择操作字形编码：将汉字的字形分解归类而给出的编码方法，重码少、输入速度较快，如五笔字形法和表形码。缺点：编码规则不易掌握形音编码：吸取了字音编码和字形编码的优点，使编码规则适当简化、重码减少。缺点：不易掌握联机手写汉字识别（笔输入）使用语音输入文本的系统也叫做“听写机”或“语音打字机”印刷体汉字识别（汉字OCR）。印刷体汉字识别：将传统纸介质上的文字信息自动输入计算机并转换为数字文本形式的一种技术，也叫做汉字OCR（Optical Character Recognition）。l 脱机手写汉字识别：手写汉字识别。联机与脱机(手写汉字识别)的比较容易。3) 使用计算机制作的数

10、字文本，根据用途分为：简单文本、丰富格式文本和超文本三类。 l 简单文本（plain text）：是由一连串的字符组成的，除了用于表达正文内容的字符（包括汉字）及“回车”、“换行”、“制表”等有限的几个打印（显示）控制字符之外，几乎不包含任何其他格式信息和结构信息。这种文本通常称为纯文本或ASCII文本，在PC机中的文件后缀名是.txt特性：呈现为一种线性结构，以行、字为单位，顺序写作与阅读是最通用的文本文件格式，文件体积小，阅读不受限制，几乎所有的文字处理软件都能识别和处理不能插入图片、表格等，不能建立超链接l 丰富格式文本丰富格式文本（rich text、fancy text、format

11、ted text），RTF格式，中间格式。l 超文本A. 超文本(hypertext)的阅读方式：传统的顺序式阅读，通过链接、跳转、导航、回溯等操作实现跳跃式阅读B. 超文本的结构节点（node）节点包含的内容超链（hyperlink）链源链宿l 超媒体（Hypermedia）：超文本中的节点不单是文本节点，还包含图形、图像、声音或动画节点，这种基于多媒体信息结点的超文本，有时也称为“超媒体” l 超文本的应用：Windows等一些软件中的“帮助”文件，使用浏览器从Web服务器上下载的网页（html或htm文件），文本编辑与文本处理l “所见即所得”（What You See Is What

12、You Get, 简称WYSIWYG）：一方面所有的编辑操作效果立即可以在屏幕上看到，另一方面在屏幕上看到的效果与打印机的输出结果相同。四、图像与图形1. 图像按生成方法分类1) 从现实世界中通过数字化设备获取的图像，称为：取样图像（sampled image）、点阵图像（dot matrix image）、位图图像（bitmap image）简称图像（image）2) 计算机合成的图像(synthetic image)，称为：矢量图形（vector graphics），简称图形（graphics）2. 图像的数字化1) 图像获取的过程实质上是模拟信号的数字化过程，它的处理步骤：l 扫描 l

13、取样l 分色l 量化2) 图像的表示方法与主要参数，从取样图像的获取过程可以知道，一幅取样图像由M（行）* N（列）个取样点组成，每个取样点是组成取样图像的基本单位，称为像素（picture element, 简写为pel）。彩色图像的像素是矢量，它由多个彩色分量组成，黑白图像的像素只有1个亮度值l 图像的属性信息A. 图像大小，也称图像分辨率(包括垂直分辨率和水平分辨率)B. 位平面的数目，即矩阵的数目，也就是彩色分量的数目C. 颜色空间的类型，指彩色图像所使用的颜色描述方法，也叫颜色模型。常用颜色模型：RGB(红、绿、蓝)、CMYK(青、品红、黄、黑)、HSV(色彩、饱和度、亮度)、YU

14、V(亮度、色度)等D. 像素深度，即像素的所有颜色分量的位数之和，它决定了不同颜色（亮度）的最大数目 3) 图像的压缩编码l 一幅图像的数据量可按下面的公式进行计算（以字节为单位）：图像数据量图像水平分辨率图像垂直分辨率像素深度8 l 数据压缩类型 A. 无损压缩:压缩以后的数据进行图像还原(也称为解压缩)时，重建的图像与原始图像完全相同B. 有损压缩：使用压缩后的数据进行图像重建时，重建后的图像与原始图像虽有一定的误差，但不影响人们对图像含义的正确理解。如变换编码、矢量编码等l 压缩编码方法优劣的评价压缩倍数的大小重建图像的质量（有损压缩时）压缩算法的复杂程度图像的压缩编码图像压缩编码方法

15、的国际标准和工业标准：ISO和IEC两个国际机构联合组成了一个专家组 (Joint Photographic Experts Group, JPEG)，制定了一个静止图像数据压缩编码的国际标准，称为JPEG标准JPEG标准的特点：适用范围广；能处理各种连续色调的彩色或灰度图像；算法复杂度适中；既可用硬件实现，也可用软件实现；图像的压缩比可控制（压缩比越低，图像质量越好；压缩比越高，图像质量越差）JPEG 2000：适用于各种不同类型（黑白、灰度、彩色等）和不同特性（自然、医学、遥感、合成）的图像，可用于不同的应用模式（实时传输、检索、存档等）。采用了小波分析等先进算法，提供了更好的图像质量，更

16、低的码率，更适合在WWW网上传输等，它兼容JPEG常用图像文件格式常用图像文件格式 BMP(BitMaP-file)图像：微软公司在Windows操作系统下使用的一种标准图像文件格式，一个文件存放一幅图像，可以使用行程长度编码（RLC）进行无损压缩，也可不压缩。不压缩的BMP文件是一种通用的图像文件格式，几乎所有Windows应用软件都能支持。 TIFF(Tagged Image File Format)图像文件格式：用于扫描仪和桌面出版，能支持多种压缩方法和多种不同类型的图像，有许多图像图形应用软件支持这种文件格式。由文件头、文件目录、目录条目三个部分组成。 GIF(Graphics Int

17、erchange Format)：互联网上广泛使用的一种图像文件格式，它的颜色数目较少（不超过256色），文件特别小，适合网络传输。由于颜色数目有限，GIF适用于插图、剪贴画等色彩数目不多的应用场合。GIF格式能够支持透明背景，具有在屏幕上渐进显示的功能。尤为突出的是，它可以将许多张图像保存在同一个文件中，显示时按预先规定的时间间隔逐一进行显示，从而形成动画的效果，因而在网页制作中大量使用。由CompuServe公司1987年开发，基于Lempel-Ziv Walch(LZW)压缩算法、使用特殊码、可变长度。 4) 数字图像处理l 数字图像处理：使用计算机对来自照相机、摄像机、传真机、扫描仪、

18、医用CT机、X光机等的图像，进行去噪、增强、复原、分割、提取特征、压缩、存储、检索等操作处理l 对图像进行处理的主要目的提高图像的视感质量图像复原与重建图像分析图像的存储、管理、检索，以及图像内容与知识产权的保护等l 图像处理软件：使用较多的是面向办公、出版与信息发布的图像处理软件，也称为图像修饰（image retouching）或图像编辑软件，支持多种不同的图像文件格式，提供多种图像编辑处理功能，可制作出生动形象的图像。如美国Adobe公司的PhotoShop，集图像扫描、图像编辑、绘图、图像合成及图像输出等多种功能于一体，是一个流行的图像处理工具。PhotoShop的主要功能包括l 数字

19、图像的应用图像通信遥感医疗诊断工业生产中的应用机器人视觉军事、公安、档案管理5) 计算机图形景物的模型（model ）：景物在计算机内的描述景物的建模(modeling)：人们进行景物描述的过程绘制（rendering）：也称图像合成（image synthesis），根据景物的模型生成图像的过程，所产生的数字图像称为计算机合成图像计算机图形学（Computer Graphics）：研究如何使用计算机描述景物并生成其图像的原理、方法与技术l 计算机合成图像的绘制，使用计算机合成图像的主要优点：能生成实际存在的具体景物的图像，还能生成假想或抽象景物的图像，能生成静止图像，还能生成各种运

20、动、变化的动态图像l 计算机合成图像的应用：计算机辅助设计和辅助制造（CADCAM）利用计算机生成各种地形图、交通图、天气图、海洋图、石油开采图等作战指挥和军事训练计算机动画和计算机艺术其他：电子出版、数据处理、工业监控、辅助教学(CAI)、软件工程等l 矢量绘图软件矢量图形：计算机合成图像矢量绘图软件：制作矢量图形的软件:如：AutoCAD、MAPInfo、ARCInfo等2D的矢量绘图软件：Corel公司的CorelDraw。Adobe公司的Illustrator。Macromedia公司的FreeHand。微软公司的Microsoft Visio。微软公司Office办公套件中的Wor

21、d和PowerPoint3. 数字声音及应用1) 声音信号的数字化l 声音：由振动而产生，通过空气进行传播。它由许多不同频率的谐波所组成，谐波的频率范围称为声音的带宽(bandwidth)，带宽是声音的一项重要参数。l 多媒体技术处理的声音信号主要是人耳可听到的2020kHz的音频信号(audio)言语（speech）/语音：人说话的声音，其频率范围约为3003400Hz全频带声音：音乐声、风雨声、汽车声等其他声音，其带宽可达到2020kHz2) 声音信号的数字化l 声音信号的数字化：将模拟声音信号转换成数字编码形式以便于计算机进行处理的过程l 声音信号数字化的过程：取样量化编码l 模拟的声音

22、信号转变成数字形式进行处理的优点：以数字形式存储的声音重放性能好，复制时没有失真数字声音的可编辑性强，易于进行效果处理数字声音能进行数据压缩，传输时抗干扰能力强数字声音容易与其他媒体相互结合（集成）数字声音为自动提取“元数据”和实现基于内容的检索创造了条件3) 波形声音的获取设备l 麦克风：将声波转换为电信号l 声卡（sound card）：进行数字化波形声音的获取：把模拟的声音信号转换为数字形式。(话筒或线路输入、单双道）波形声音的重建与播放MIDI(Musical Instrument Digital Interface)声音的输入MIDI声音的合成与播放4) 波形声音的主要参数DVD，D

23、TV，家庭影院，64kbpsDolby AC-3同MPEG-1，与MPEG-1层1，层2，层3相同MPEG-2层audioInternet，MP3音乐2128112kbps（压缩1012倍）MPEG-1层3DAB，VCD，DVD2256192kbps（压缩68倍）MPEG-1层2数字盒式录音带2384kbps（压缩4倍）MPEG-1层1主要应用声道数目压缩后的码率（每个声道）名称全频带声音的压缩编码v 第2代全频带声音压缩编码标准l 取样频率l 量化位数l 声道数目l 使用的压缩编码方法l 数码率（bit rate）：指的是每秒钟的数据量，也称比特率、码率l 数字声音未压缩前，其计算公式为：波

24、形声音的码率取样频率量化位数声道数l 压缩编码以后的码率压缩前的码率 / 压缩倍数 1) 数字视频的应用l CD(Compact Disc)：小型光盘, 最早应用于数字音响领域, 代表产品是CD唱片。每张CD唱片的存储容量是650MB左右，可存放1小时的立体声高保真音乐l Video CD(简称VCD)：1994年由JVC、Philips等公司联合定义的一种以数字技术在CD光盘上存储视频和音频信息的规范。规定了将MPEG-1音频/视频数据记录在CD光盘上的文件系统的标准，使一张普通的CD光盘可记录约60分钟的音视频数据，图像质量达到家用录放像机的水平，可播放立体声。VCD播放机体积小,

25、价格便宜,音视频质量较好。VCD的一个派生产品是Karaoke CD光盘,它同VCD保持兼容l DVD（Digital Versatile Disk）：数字多用途光盘。有多种规格，用途广泛。其中的DVD-Video（日常简称为DVD）就是一种类似于LD或Video CD的家用影碟。l DVD影碟与VCD相比：存储容量大得多。CD光盘容量650MB，存放74分钟VHS质量(352240)的视频图像；单面单层DVD容量4.7GB，以平均码率4.69Mb/s播放视频图像，能存放133分钟的接近于广播级图像质量（720480）的整部电影2) 数字电视接收机（简称DTV接收机）的三种形式：l 数字电视接收机传统模拟电视接收机的换代产品l 传统模拟电视机外加一个数字机顶盒l 可以接收数字电视的PC机3) VOD（Video On Demand）：视频点播（也称为点播电视）技术的简称, 即用户可以根据自己的需要收看电视节目

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 西文字符编码 24

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：西文字符的编码(24页).doc
链接地址：https://www.deliwenku.com/p-37486051.html