随笔 - 1, 文章 - 9, 评论 - 4, 引用 - 0
数据加载中……

字符编码总结

人们制定了一个表,表里面包含要表示的文字:character set 给每个字标号:coded character set 每个编号转化为计算机存储形式:character encoding form unicode制定了一个表,一堆字为他们标号,每个字得到一个code point,范围:0x0~0x10ffff,中间有段是空的,没有映射任何字转化为计算机形式,这个转化方法有多种模式,UTF-8,UTF-16等 对于UTF-16,在BMP基本字符平面上直接用code point(码点)的16进制形式表示为2个字节对于不在BMP范围内的特殊字符,采用两个码点共同表示,这两个码点的取值就是来自编码过的字符集中未映射的空白区域,所以单个这种码点没有任何对应字

posted on 2009-02-19 10:09 EiN 阅读(107) 评论(0)  编辑 收藏 引用 所属分类: C/C++ and ASM


只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理