网站首页
手机版

区位码输入法的最大优点是(计算机中文编码)

更新时间:2024-04-25 20:17作者:留学世界

历史悠久的泱泱中华,文化博大精深,文字独一无二,且能没有一套属于自己的计算机编码。1980年,为了使每个汉字有一个全国统一的编码,我国颁布了汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是国内所有汉字系统的统一标准。将一些常用符号及汉字,按区与位的方式编入码表,这套编码便是区位码。

一、区位码

区位码输入法的最大优点是(计算机中文编码)

区位码是一个四位的十进制数,高两位为区码(01-94),低两位为位码(01-94),由此组成一个94×94的矩阵,每个码值都对应着一个唯一的符号或汉字。如下图示:

图1.第01区特殊符号

图2.汉字区位码对照表

说明:‘啊’的区位码为1601,区码为16,位码为01。

图3.多音字‘腌’

说明:这种编码经过加工整理一律以汉语拼音的字母为序,音节相同的字以使用频率为序,其查找方法与一般汉语字典的汉字拼音音节索引查找法相同。由于它是一种无重码的汉字编码,所以多音字只有一个编码。例如:重庆的“重”和重量的“重”,字同音不同,汉字“重”的编码是按Zhong音编码。

由图2,图3所示,按拼音音节索引时,编码并不连续,这是因为汉字被分级处理,一级汉字相对更为常用。如下图示:

图4.区段说明

说明:在某些硬件指标相对偏低的平台上可能依然还在使用着一级码汉字。

二、国标码

汉字区位码定义好后融入计算机,发现少了一些控制符,如回车,换行,退格等,同时ASCII编码中前32个控制码刚好包含了这些,那就借来用用吧!为此,国标码诞生了。为了兼容这些控制码,国标码规定在区码、位码的基础上分别加20H(即32的16进制数)。例如:汉字‘啊’的区位码为1601,则区码为16,位码为01,转换成16进制后,区码为10H,位码为01H,转国标码,则区码10H+20H=30H,位码01H+20H=21H,合成后国标码为3021H;

图5.国标码

说明:图5为Mac系统中的16点阵中文国标码点阵字库,‘啊’的国标码为3021H。

三、机内码

这里特指汉字机内码,简称“内码”,亦称“变形国标码”,指计算机内部存储,处理加工和传输汉字时所用的由0和1符号组成的代码。

国标码虽说很好地解决了控制字符问题,但随着社会的发展,汉字处理系统想要兼容英文(当时主流就是ASCII),当系统中同时存在ASCII和汉字国标码时,将会产生二义性。例如:有两个字节的内容为30H和21H,它既可表示汉字“啊”的国标码,又可表示ASCII中的“0”和“!”,为此,汉字机内码诞生了。由于ASCII编码范围为00H~7FH,字节最高位皆为‘0’,机内码应对国标码加以适当变换处理,将相应国标码每个字节的最高位置为“1”,即:汉字机内码=汉字国标码+8080H。例如:“啊”字的国标码是3021H,则其汉字机内码为B0A1H=3021H+8080H。

图6.机内码

说明:图6为按照WindowsCP936(内码)编码生成的16Pixel中文点阵字库,只包含了一级码汉字(3755个字符),‘啊’的编码为:B0A1H。

上述所述,不论是区位码,国标码,还是机内码,主要都是针对GB2312-80标准(7K+字符),若按区位码94x94矩阵计算,最大也只能表达94x94=8836个字符,这时有人可能会问,若要支持更多的中文怎么办呢?

这自然难不倒勤劳又机智的“中国人”。看懂下面这张图,就都明白了。

说明:这里主要记录汉字编码,并且第一字节最高位皆为‘1’,也能很好的做到向前兼容。

GB2312-80,字符数6763=①GBK,字符数21003=①+②+③GB18030-2000,字符数27533=①+②+③+④GB18030-2005,字符数70244=①+②+③+④+⑤

想要了解更多,推荐看看这篇文章:“国家标准代码-百度百科”。

四、Unicode

Unicode是为了解决传统字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求,中文只是其中的一部分。由于Unicode编码(针对中文)不连续,只能靠查表方式解决编码转换问题。

图7.Unicode

说明:‘啊’的Unicode码值为554AH。

五、总结

图解编码转换

区位码、国标码、机内码之间递进式转换,都在这张表里了。

随着社会发展不断更新迭代,区位码、国标码在应用场景上已慢慢淡出了用户视野,现在最常用的则是内码,Unicode。

说了这么多,想想,若没有这些先辈们的坚持与努力,可能我们今天还在用ASCII计算机呢!

感恩所有为中文编码默默奉献的人!

参考文献:

汉字区位码对照表.pdf百度百科知乎

好了,文章到这里就结束啦,如果本次分享的区位码输入法的最大优点是和计算机中文编码问题对您有所帮助,还望关注下本站哦!

为您推荐

北马其顿是哪个国家(是一个怎样的国家)

北马其顿,正式名称为北马其顿共和国,是位于欧洲东南部巴尔干半岛的一个内陆国家。它的西北面与科索沃接壤,东北面与塞尔维亚接壤,东面与保加利亚接壤,南面与希腊接壤,西面与阿尔巴

2024-04-25 19:57

北美论坛?台积电北美技术论坛六大要点

集微网报道,台积电今(17)日举办2022年北美技术论坛,会中揭示先进逻辑技术、特殊技术、以及三维集成电路(3DIC)技术的最新创新成果。首度推出采用纳米片电晶体的下一世代先进N2制程

2024-04-25 19:33

北美留学,给北美留学新生的建议

对每一个海外留学的中国学生来说,适应大学生活都是逐步的过程。大一新生可能会经历想家、在校园里迷路、与室友发生冲突,或在与小组项目成员相处过程中并不愉快等一系列问题。

2024-04-25 19:09

北美在线,带你一起了解北美一对一在线网课

别让孩子输在起跑线上,这个口号一直影响着家长们。以前是跑向全国,现在是跑向世界,英语成了必不可少的技能。熟练掌握了英语,在知识水平、工作机会、人际交往的圈层都会带来很大

2024-04-25 18:49

北美华人论坛,张恒疑似曾在华人论坛发求助帖

近日,有网友发现一则2020年10月发布的美国签证延期相关的求助帖,文中提到“两个代孕宝宝”“和孩子母亲正在打官司”“抚养权的官司安排在2020年3月”“由于母亲处于消失状态,

2024-04-25 18:28

北理工出国留学,北京理工与英国瑞丁信息科学硕士教育项目全解读

这是Uplus悠嘉国际留学关于“北京理工大学与英国瑞丁大学信息科学硕士学位教育项目”带来的一篇文章项目介绍2006年,北京理工大学与英国瑞丁大学开始合作举办信息科学硕士学

2024-04-25 18:05