C++博客-woaidongmao-随笔分类-字符编码

怎样学习使用libiconv库

肥仔 — Thu, 10 Sep 2009 15:52:00 GMT

libiconv库是一个基于GNU协议的开源库，主要是解决多语言编码处理转换等应用问题。
怎样学习使用libiconv库？对于刚接触到人来说，这篇文章不妨去看一看，若已经用到过该库的人，在应用的过程中可能遇到一些问题，我们可以一起来探讨，我的联系方式是 cnangel@gmail.com 。

几个函数原型：

iconv_t iconv_open(const char *tocode, const char *fromcode);
size_t iconv(iconv_t cd, char **inbuf, size_t *inbytesleft, char **outbuf, size_t *outbytesleft);
int iconv_close(iconv_t cd);

其中：
iconv_open是打开一个编码流，类似于打开一个编码管道（通道），出错则返回 -1；
iconv用于具体输入的转换，如果出错，则返回 -1，否则返回 0；
iconv_close是关闭该管道（通道）。
举个例子：

#include
#include
#include
#include

#define OUTLEN 255
int covert(char *, char *, char *, size_t , char *, size_t );

int main(int argc, char *argv[])
{
    char *input = "中国";
    size_t len = strlen(input);
    char *output = (char *)malloc(OUTLEN);
    covert("UTF-8", "GBK", input, len, output, OUTLEN);
    printf("%s\n", output);
    return 0;
}

int covert(char *desc, char *src, char *input, size_t ilen, char *output, size_t olen)
{
    char **pin = &input;
    char **pout = &output;
    iconv_t cd = iconv_open(desc, src);
    if (cd == (iconv_t)-1)
    {
        return -1;
    }
    memset(output, 0, olen);
    if (iconv(cd, pin, &ilen, pout, &olen)) return -1;
    iconv_close(cd);
    return 0;
}

    这里面covert函数就是用于将编码进行转换，其中要注意的地方是iconv函数的传递参数：
1，iconv传递有5个参数；
2，第3个参数和第5个参数一般是input和output实际分配的大小，一般是 sizeof(type)*strlen(string)；
3，第4个参数是不能直接传递指针的地址，因为iconv函数能够改变指针的值，所以需要复制一份指针变量；
    如果对于大量需要转换的编码，上述函数covert不适合该方式，一是内存的限制不能一次调用，二是若分多次调用会频繁打开一个编码管道（通道），导致资源浪费，最好的办法还是拆开该函数根据情况使用。
    这里补充一下代码：
translateSP.h：

#ifndef __TRANSLATESP_H_
#define __TRANSLATESP_H_
#include

class TranslateSP
{
     public:
         TranslateSP():i_cd(0){}
         TranslateSP(const char *from_charset,const char *to_charset)
         {
             i_cd = iconv_open(to_charset, from_charset);
             if ((iconv_t)-1 == i_cd) printf("iconv open error!\n");
         }
         ~TranslateSP()
         {
             if (i_cd)
                 iconv_close(i_cd);
         }

     public:
         size_t translate(char *src, size_t srcLen, char *desc, size_t descLen);
         size_t convert(const char *from_charset, const char *to_charset,
                 char *src, size_t srcLen, char *desc, size_t descLen);

     private:
         iconv_t i_cd;
};

#endif

translateSP.cpp：

#include "translateSP.h"

#define MAX_LEN 200

size_t TranslateSP::translate(char *src, size_t srcLen, char *desc, size_t descLen)
{
     char **inbuf = &src;
     char **outbuf = &desc;
     memset(desc, 0, descLen);
     return iconv(i_cd, inbuf, &srcLen, outbuf, &descLen);
}

size_t TranslateSP::convert(const char *from_charset, const char *to_charset,
         char *src, size_t srcLen, char *desc, size_t descLen)
{
     char **inbuf = &src;
     char **outbuf = &desc;
     iconv_t cd = iconv_open(to_charset, from_charset);
     if ((iconv_t)-1 == cd) return (size_t)-1;
     memset(desc, 0, descLen);
     size_t n = iconv(cd, inbuf, &srcLen, outbuf, &descLen);
     iconv_close(cd);
     return n;
}

int main(int argc, char *argv[])
{
     char *str = "我爱zhong国! ％＃＠＃";
     char *str1 = "i大量需要转换的编码";
     char *str2 = "函数就是用于将hello进行转换";
     char newstr[MAX_LEN];
     TranslateSP tsp;
     tsp.convert("utf-8", "gbk", str, strlen(str), newstr, MAX_LEN);
     printf("%s\n", newstr);
     TranslateSP newtsp("UTF-8", "GBK");
     newtsp.translate(str1, strlen(str1), newstr, MAX_LEN);
     printf("%s\n", newstr);
     newtsp.translate(str2, strlen(str2), newstr, MAX_LEN);
     printf("%s\n", newstr);
     return 0;
}

编译：

g++ translateSP.cpp -o test
./test
我爱zhong国! ％＃＠＃
i大量需要转换的编码
函数就是用于将hello进行转换

(以上输出是GBK编码)

肥仔 2009-09-10 23:52 发表评论

unicode utf-8 gb18030 gb2312 gbk各种编码对比

肥仔 — Thu, 10 Sep 2009 15:42:00 GMT

摘要: 在修改一个cms的过程当中遇到一个php截取字符串的函数（当然得兼容中英字符了），因为对各种编码的字符范围和字符表示不清楚，感觉一头迷雾，虽然可以直接来调用这个函数但是我这个的特点是追究原理，我在乎的事情都想弄明白，于是各个qq群依次发信息，没人理会。唉，郁闷。只好自己google it and teach myself 。下面是详细介绍。还有对各方求助没有人理会，我有些个人想法。现在的人已经很少... 阅读全文

肥仔 2009-09-10 23:42 发表评论

GB18030编码研究以及GBK、GB18030与Unicode的映射

肥仔 — Thu, 10 Sep 2009 15:37:00 GMT

摘要: GB18030有两个版本：GB18030-2000和GB18030-2005。在本文中，没有指明版本的GB18030是指GB18030-2005。本文讨论了以下问题： 1. GB2312有682个图形符号，都放在1区。GBK的1区有717个图形符号，5区有 166个图形符号，一共... 阅读全文

肥仔 2009-09-10 23:37 发表评论

GBK, UCS和UTF8相互转换

肥仔 — Thu, 10 Sep 2009 15:13:00 GMT

摘要: 最近学习了下编码以下地址可以很好的学习到相关的知识 http://dev.csdn.net/develop/article/69/69883.shtm http://dev.csdn.net/develop/article/72/72888.shtm 其中讲了UTF8的编码当要表示的内容是　7位　的时候就用一个字节：0******* 　第一个0为标志位，剩下的空间正好可以表示ASCII　0－1... 阅读全文

肥仔 2009-09-10 23:13 发表评论

C程序实现汉字内码与GB码

肥仔 — Sat, 08 Nov 2008 04:17:00 GMT

　// HZEncode.cpp : Defines the entry point for the console application.

　　参考文献：

　　汉字的编码和表示

　　1)汉字交换码(国标码) 汉字交换码(国标码)主要用于汉字信息交换。

　　国标码：以国家标准局1980年颁布的《信息交换用汉字编码字符集"基本集》(代号为GB2312 80)规定的汉字交换码作为国家标准汉字编码。 GB2312 80中共有7445个字符符号：汉字符号6763个一级汉字3755个(按汉语拼音字母顺序排列) 二级汉字3008个(按部首笔划顺序排列) 非汉字符号682个 GB2312 80规定，所有的国标码汉字及符号组成一个94 94的方阵。在此方阵中，每一行称为一个"区"，每一列称为一个"位"。这个方阵实际上组成一个有94个区(编号由01到94)，每个区有94个位(编号由01到94)的汉字字符集。一个汉字所在的区号和位号的组合就构成了该汉字的"区位码"。其中，高两位为区号，低两位为位号。这样区位码可以唯一地确定某一汉字或字符;反之，任何一个汉字或符号都对应一个唯一的区位码，没有重码。

　　区位码分布情况如下：

　　区号内容 1区键盘上没有的各种符号 2区各种序号 3区键盘上的各种符号(按中文方式给出) 4 -5区日文字母 6区希腊字母 7区俄文字母 8区标识拼音声调的母音及拼音字母名称 9区制表符号 10- 15区未用 16-55区一级汉字(按拼音字母顺序排列) 56- 87区二级汉字(按部首笔划顺序排列) 88- 94区自定义汉字

　　由上可以看出，所有汉字与符号的94个区，可以分为四个组：

　　①1 -15区：为图形符号区。其中1 9区为标准符号区;10 15区为自定义符号区。

　　②16 -55区：为一级汉字区，包含3755个汉字。这些区中的汉字按汉语拼音顺序排序，同音字按笔画顺序列出。

　　③56 -87区：为二级汉字区，包含3008个汉字。这些区中的汉字是按部首笔划顺序排序的。

　　④88 -94区：为自定义汉字区。

　　国标码规定，每个汉字(包括非汉字的一些符号)由2字节代码表示。每个字节的最高位为0，只使用低7位，而低7位的编码中又有34个适用于控制用的，这样每个字节只有27 - 34 = 94个编码用于汉字。2个字节就有94 94=8836个汉字编码。在表示一个汉字的2个字节中，高字节对应编码表中的行号，称为区号;低字节对应编码表中的列号，称为位号。

　　汉字国标码的范围用二进制表示是： 00100001 00100001 01111110 01111110 (1+32)10 (1+32)10 (94+32)10 (94+32)10 7 位ASCII码是128个字符组成的字符集。其中编码值0 31(00000000 00011111)不对应任何印刷字符，通常称为控制符，用于计算机通信中的通信控制或对计算机设备的功能控制。编码值32(00100000)是空格字符SP。编码值127(1111111)是删除字符DEL。

　　汉字国标码的起始二进制位置选择00100001即(33)10是为了跳过ASCII码的32个控制字符和空格字符。所以，汉字国标码的高位和低位分别比对应的区位码大(32)10或(00100000)2或(20)H，即：国标码高位 = 区码 + 20H (H表示十六进制) 国标码低位 = 位码 + 20H

　　2) 汉字机内码(内码)(汉字存储码)

　　汉字机内码(内码)(汉字存储码)的作用是统一了各种不同的汉字输入码在计算机内部的表示。为了将汉字的各种输入码在计算机内部统一起来，就有了专用于计算机内部存储汉字使用的汉字机内码，用以将输入时使用的多种汉字输入码统一转换成汉字机内码进行存储，以方便机内的汉字处理汉字机内码是在计算机内部存储、处理的代码。计算机既要处理汉字，又要处理英文。因此计算机必须能区别汉字字符和英文字符。英文字符的的机内码是最高为为0的8位ASCII码。为了不与7位ASCII码发生冲突，把国标码每个字节的最高位由0改为1，其余位不变的编码作为汉字字符的机内码。

　　汉字机内码的范围用二进制表示是： 10100001 10100001 11111110 11111110 机内码的高位和低位比对应的国标码的高位和低位大(128)10或(10000000)2或(80)H 即：机内码高位 = 国标码高位 + 80H 机内码低位 = 国标码低位 + 80H 又因为：国标码高位 = 区码 + 20H 国标码低位 = 位码 + 20H 所以：机内码高位 = 区码 + A0H 机内码低位 = 位码 + A0H 也就是说，机内码高位和机内码低位分别比对应的区码和位码大(160)10或(10100000)2或 (A0)H 例如：汉字"啊"的区位码为"1601"，其中区码为(16)10或(10)H，位码为(01)10或(01)H。则：机内码高位 = 10H + A0H = B0H 机内码低位 = 01H + A0H = A1H 所以：机内码= B0A1H

以下是引用片段：

　　3) 汉字输入码(外码)

　　汉字输入码(外码)是为了通过键盘字符把汉字输入计算机而设计的一种编码。英文输入时，相输入什么字符便按什么键，输入码和机内码一致。汉字输入时，可能要按几个键才能输入一个汉字。汉字输入方案有成百上千个，但是这千差万别的外码输入进计算机后都会转换成统一的内码。汉字输入方案大致可分为以下4种类型：

　　(1) 音码：如全拼、双拼、微软拼音等

　　(2) 形码：如五笔字型、郑码、表形码等

　　(3) 音形码：如智能ABC、自然码等

　　(4) 数字码：如区位码、电报码等

　　4) 汉字字形码(输出码)

　　汉字字形码(输出码)用于汉字的显示和打印，是汉字字形的数字化信息。汉字的内码是用数字代码来表示汉字，但是为了在输出时让人们看到汉字，就必须输出汉字的字形。在汉字系统中，一般采用点阵来表示字形。 16 *16汉字点阵示意 16 * 16点阵字形的字要使用32个字节(16 * 16/8= 32)存储，24 * 24点阵字形的字要使用72个字节(24 * 24/8=72)存储。

　　一般来说，表现汉字时使用的点阵越大，则汉字字形的质量也越好，当然每个汉字点阵所需的存储量也越大。

　　5) 汉字地址码

　　汉字地址码是指汉字库(这里主要指整字形的点阵式字模库)中存储汉字字形信息的逻辑地址。在汉字库中，字形信息都是按一定顺序(大多数按标准汉字交换码中汉字的排列顺序)连续存放在存储介质上的，所以汉字地址码也大多是连续有序的，而且与汉字内码间有着简单的对应关系，以简化汉字内码到汉字地址码的转换。

以下是引用片段：
*/

#include "stdafx.h"
#include "HZEncode.h"

#ifdef _DEBUG
#define new DEBUG_NEW
#undef THIS_FILE
static char THIS_FILE[] = __FILE__;
#endif
#define UNICODE
#define _UNICODE
/////////////////////////////////////////////////////////////////////////////
// The one and only application object

CWinApp theApp;

using namespace std;
unsigned short* ptr;
char* pszHZ = "啊";
byte bt[] = {0xc4,0xe3,0xBA,0xC3};//“你好”的机内码
int _tmain(int argc, TCHAR* argv[], TCHAR* envp[])
{
       int nRetCode = 0;

       // initialize MFC and print and error on failure
       if (!AfxWinInit(::GetModuleHandle(NULL), NULL, ::GetCommandLine(), 0))
       {
              // TODO: change error code to suit your needs
              cerr << _T("Fatal Error: MFC initialization failed") << endl;
              nRetCode = 1;
       }
       else
       {
              for (int i = 16;i <= 55; i++)
              {
                     byte Temp[3];
                     Temp[2] = 0;
                     Temp[0] = i + 0xA0;
                     for (int j = 1;j < 94;j++)
                     {

                            Temp[1] = j + 0xA0;
                            cout << (LPCTSTR) Temp;

                     }
                     cout << endl;
              }

       }

       system("pause");
       return nRetCode;
}

肥仔 2008-11-08 12:17 发表评论

C++的三种字符编码方式

肥仔 — Fri, 07 Nov 2008 15:27:00 GMT

c++通常使用的是三种编码方式，分别是SBCS(single byte character set),MBCS(multi-byte characterset)和Unicode字符集。SBCS是一个字节一个字符，MBCS是几个字节一个字符，可能是一个，两个，三个不等，但是实际上，绝大多数时候使用两个字节的，所以有时候看到DBCS(double-byte character set)代替MBCS也不奇怪；Unicode一律是两个字节编码。在windows nt内核中，API一律使用的是unicode编码，所以如果你在编写软件过程中使用非unicode编码方式，系统也会自动转换成unicode执行，然后返回的结构再转换为你使用的类型。单字节表示用char，unicode使用wchar_t.我们是在单字节的光芒下成长起来的，一时间完全抛弃单字节未免难以接受，但是有些时候我们又不可避免的需要使用unicode字符集合，那么ms提供的解决办法是泳宏：TChar

我们看看他的定义：

#ifdef UNICODE
typedef wchar_t TCHAR;
#else
typedef char TCHAR;
#endif

ok，一切问题都解决了，我们只需要定义UNICODE就一样使用wchar_t,是很方便。另外，在windows的COM中使用的一律是unicode，但是MFC默认的确实MBCS，所以你用MFC写的类库如果放到了COM下，有些字符的格式化方式或者返回值错误的，原因就是com一律使用unicode，而unicode使用wchar_t('00')结尾，char却是使用'0'结尾的。一般情况下，普通字符需要加载_T宏才能正常运行，比如MFC中你写道S = "FSDFSDF",那么该类转到COM下，需要写S = _T("FSDFSDF")；才可以。我们可以想象宏_T跟TCHAr的功能一样，如果使用UNICODE就自动在constant string前面加上L，否则就直接使用。

我们说一些小问题：

VC6生成的console application是
int main(int argc, char* argv[])

VS C++ 2005生成的是

int _tmain(int argc, _TCHAR* argv[])

显然，用_tmain更好，why?

You can also use _tmain, which is defined in TCHAR.h. _tmain will resolve to main unless _UNICODE is defined, in which case _tmain will resolve to wmain.(http://msdn2.microsoft.com/en-us/library/6wd819wh.aspx#).

我们也会常常看到如下一些字符类型，

WCHAR wchar_t wchar_t
LPSTR zero-terminated string of char (char*) zero-terminated string of char (char*)
LPCSTR constant zero-terminated string of char (const char*) constant zero-terminated string of char (const char*)
LPWSTR zero-terminated Unicode string (wchar_t*) zero-terminated Unicode string (wchar_t*)
LPCWSTR constant zero-terminated Unicode string (const wchar_t*) constant zero-terminated Unicode string (const wchar_t*)
TCHAR char wchar_t
LPTSTR zero-terminated string of TCHAR (TCHAR*) zero-terminated string of TCHAR (TCHAR*)
LPCTSTR constant zero-terminated string of TCHAR (const TCHAR*) constant zero-terminated string of TCHAR (const TCHAR*)
C 一般代表constant，P代表指针，LP代表长指针,W代表宽字符，也就是UNICODE，这下是不是都能明白这些是干什么的了？

我们也会常常看到_mbsstr()这样的函数，这就是MBCS字符编码的函数，当然可以处理SBCS编码，但是反之却不行。所以为了保险起见，我们可以使用_mbsstr代替strstr,但是如果程序只是处理SBCS，那么显然又影响效率，所以到底用什么方式同时满足效率和可移植性，自己掂量着办吧。

以后使用C++编写程序，如果出现乱码，首先检查C++的编码类型，而且一般情况下都是结束符号没有弄对，SBCS和MBCS都是以单字节0结尾，UNICODE是以双字节00结尾的。

肥仔 2008-11-07 23:27 发表评论

字符编码方式基本知识

肥仔 — Fri, 07 Nov 2008 14:43:00 GMT

ASCII：基本字符集是128个常用字符，扩展字符集是128个，共256个，用1个字节表示。
GB2312：6千多个常用汉字
GBK：1万多个汉字
GB18030：更多，不过依然是两个字节来表示汉字。
上面三种GB*可以统一称为ANSI编码，且16个bit的第一个必定是1。
BIG5：繁体字符集，用于台湾地区

Unicode：两字节表示的世界通用码，存储为文本时会有连个字节的头信息。
UTF-8：一种以8个bit为一组的Unicode的表示格式，存储为本文时有三个字节的头信息。
UTF-16：16个bit为一组

单词全称：
ASCII: American Standard Code Information Interchange
ANSI: American National Standard Institue
GB: Guo Biao
UTF: Unicode Translation Format

========================================================
字符是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等。字符集是多个字符的集合，字符集种类较多，每个字符集包含的字符个数不同，常见字符集名称：ASCII字符集、GB2312字符集、BIG5字符集、 GB 18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字，需要进行字符编码，以便计算机能够识别和存储各种文字。

中文文字数目大，而且还分为简体中文和繁体中文两种不同书写规则的文字，而计算机最初是按英语单字节字符设计的，因此，对中文字符进行编码，是中文信息交流的技术基础。本文将按照字符集的时间顺序讨论几种典型的字符集，选取几种代表性的中文字符集，研究历史由来、特点、技术特征。

ASCII 字符集

1．名称的由来

ASCII（American Standard Code for Information Interchange，美国信息互换标准代码）是基于罗马字母表的一套电脑编码系统。

2．特点

它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统，并等同于国际标准ISO 646。

3．包含内容

控制字符：回车键、退格、换行键等。

可显示字符：英文大小写字符、阿拉伯数字和西文符号

4．技术特征

7位（bits）表示一个字符，共128字符

5．ASCII扩展字符集

7位编码的字符集只能支持128个字符，为了表示更多的欧洲常用字符对ASCII进行了扩展，ASCII扩展字符集使用8位（bits）表示一个字符，共256字符。

ASCII扩展字符集比ASCII字符集扩充出来的符号包括表格符号、计算符号、希腊字母和特殊的拉丁符号。

GB2312 字符集

1．名称的由来

GB2312又称为GB2312-80字符集，全称为《信息交换用汉字编码字符集·基本集》，由原中国国家标准总局发布，1981年5月1日实施。

2．特点

GB2312是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率，基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。

3．包含内容

GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母，共 7445 个图形字符。其中包括6763个汉字，其中一级汉字3755个，二级汉字3008个；包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

4．技术特征

（1）分区表示：

GB2312中对所收汉字进行了“分区”处理，每区含有94个汉字/符号。这种表示方式也称为区位码。

各区包含的字符如下：01-09区为特殊符号；16-55区为一级汉字，按拼音排序；56-87区为二级汉字，按部首/笔画排序；10-15区及88-94区则未有编码。

（2）双字节表示

两个字节中前面的字节为第一字节，后面的字节为第二字节。习惯上称第一字节为“高字节” ，而称第二字节为“低字节”。

“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0)，“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。

5．编码举例

以GB2312字符集的第一个汉字“啊”字为例，它的区号16，位号01，则区位码是1601，在大多数计算机程序中，高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。计算公式是：0xB0=0xA0+16, 0xA1=0xA0+1。

BIG5 字符集

1．名称的由来

又称大五码或五大码，1984年由台湾财团法人信息工业策进会和五间软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立，故称大五码。

Big5码的产生，是因为当时台湾不同厂商各自推出不同的编码，如倚天码、IBM PS55、王安码等，彼此不能兼容；另一方面，台湾政府当时尚未推出官方的汉字编码，而中国大陆的GB2312编码亦未有收录繁体中文字。

2．特点

Big5字符集共收录13,053个中文字，该字符集在中国台湾使用。耐人寻味的是该字符集重复地收录了两个相同的字：“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。

3．字符编码方法

Big5码使用了双字节储存方法，以两个字节来编码一个字。第一个字节称为“高位字节”，第二个字节称为“低位字节”。高位字节的编码范围0xA1-0xF9，低位字节的编码范围0x40-0x7E及0xA1-0xFE。

各编码范围对应的字符类型如下：0xA140-0xA3BF为标点符号、希腊字母及特殊符号，另外于0xA259-0xA261，存放了双音节度量衡单位用字：兙兛兞兝兡兣嗧瓩糎；0xA440-0xC67E为常用汉字，先按笔划再按部首排序；0xC940-0xF9D5为次常用汉字，亦是先按笔划再按部首排序。

4．Big5 的局限性

尽管Big5码内包含一万多个字符，但是没有考虑社会上流通的人名、地名用字、方言用字、化学及生物科等用字，没有包含日文平假名及片假名字母。

例如台湾视“着”为“著”的异体字，故没有收录“着”字。康熙字典中的一些部首用字(如“亠”、“疒”、“辵”、“癶”等)、常见的人名用字(如“堃”、“煊”、“栢”、“喆”等) 也没有收录到Big5之中。

GB18030 字符集

1．名称的由来

GB 18030的全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》，是我国政府于2000年3月17日发布的新的汉字编码国家标准，2001年8月31日后在中国市场上发布的软件必须符合本标准

2．特点

GB 18030字符集标准的出台经过广泛参与和论证，来自国内外知名信息技术行业的公司，信息产业部和原国家质量技术监督局联合实施。

GB 18030字符集标准解决汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。该标准的字符总编码空间超过150万个编码位，收录了27484个汉字，覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容，填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准（GB2312，GB13000.1）兼容。

3．编码方法

GB 18030标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分使用0×00至0×7F码(对应于ASCII码的相应码)。双字节部分，首字节码从0×81至0×FE，尾字节码位分别是0×40至0×7E和0×80至0×FE。四字节部分采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀，这样扩充的四字节编码，其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE，第二、四个字节编码码位均为0×30至0×39。

4．包含的内容

双字节部分收录内容主要包括GB13000.1全部CJK汉字20902个、有关标点符号、表意文字描述符13个、增补的汉字和部首/构件80个、双字节编码的欧元符号等。　　四字节部分收录了上述双字节字符之外的，包括CJK统一汉字扩充A在内的GB 13000.1中的全部字符。

Unicode字符集

1．名称的由来

Unicode字符集编码是Universal Multiple-Octet Coded Character Set 通用多八位编码字符集的简称，是由一个名为 Unicode 学术学会(Unicode Consortium)的机构制订的字符编码系统，支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于1990年开始研发，1994年正式公布，最新版本是2005年3月31日的Unicode 4.1.0。

2．特征

Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

3．编码方法

Unicode 标准始终使用十六进制数字，而且在书写时在前面加上前缀“U+”，例如字母“A”的编码为 004116 和字符“?”的编码为 20AC16。所以“A”的编码书写为“U+0041”。

4．UTF-8 编码
UTF-8是Unicode的其中一个使用方式。 UTF是 Unicode Translation Format，即把Unicode转做某种格式的意思。

UTF-8便于不同的计算机之间使用网络传输不同语言和编码的文字，使得双字节的Unicode能够在现存的处理单字节的系统上正确传输。

UTF-8使用可变长度字节来储存 Unicode字符，例如ASCII字母继续使用1字节储存，重音文字、希腊字母或西里尔字母等使用2字节来储存，而常用的汉字就要使用3字节。辅助平面字符则使用4字节。

5．UTF-16 和 UTF-32 编码
UTF-32、UTF-16 和 UTF-8 是 Unicode 标准的编码字符集的字符编码方案，UTF-16 使用一个或两个未分配的 16 位代码单元的序列对 Unicode 代码点进行编码；UTF-32 即将每一个 Unicode 代码点表示为相同值的 32 位整数。
========================================================
什么是unicode, GB2312, GBK, ANSI, UTF

发展过程 ASCII à GB2312(BIG5) à GBKàGB18030

字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码，为了处理汉字，程序员设计了用于简体中文的GB2312和用于繁体中文的big5。

GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。

GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包括21003个字符。

从ASCII、GB2312到GBK，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼，GB2312、GBK都属于双字节字符集 (DBCS)。

2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。从汉字字汇上说，GB18030在GB13000.1的20902个汉字的基础上增加了CJK扩展A的6582个汉字（Unicode码 0x3400-0x4db5），一共收录了27484个汉字。

CJK就是中日韩的意思。Unicode为了节省码位，将中日韩三国语言中的文字统一编码。GB13000.1就是ISO/IEC 10646-1的中文版，相当于Unicode 1.1。

GB18030的编码采用单字节、双字节和4字节方案。其中单字节、双字节和GBK是完全兼容的。4字节编码的码位就是收录了CJK扩展A的6582个汉字。例如：UCS的0x3400在GB18030中的编码应该是8139EF30，UCS的0x3401在GB18030中的编码应该是8139EF31。

微软提供了GB18030的升级包，但这个升级包只是提供了一套支持CJK扩展A的6582个汉字的新字体：新宋体-18030，并不改变内码。Windows 的内码仍然是GBK。

从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容

Unicode也是一种字符编码方法，不过它是由国际组织设计，可以容纳全世界所有语言文字的编码方案。unicode 为java 中的编码转换桥梁,使用了以组流过滤器来桥接unicode编码文本和本地操作系统编码文本的隔阂(内码,如windows的GBK).所有的class 派生自abstract class Reader and Writer .后面继续研究.

由于现有的大量程序和文档都采用了某种特定语言的编码，例如GBK，Windows不可能不支持现有的编码，而全部改用Unicode。我们称GBK为windows的内码.Windows使用代码页(code page)来适应各个国家和地区。code page可以被理解为内码。GBK对应的code page是CP936。

what is UCS?

Unicode的学名是"Universal Multiple-Octet Coded Character Set"，简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。

UCS有两种格式：UCS-2和UCS-4。顾名思义，UCS-2就是用两个字节编码，UCS-4就是用4个字节（实际上只用了31位，最高位必须为0）编码。

什么是UTF

UTF，是Unicode Text Format的缩写，意为Unicode文本格式。对于UTF，是这样定义的

（1）如果Unicode的16位字符的头9位是0，则用一个字节表示，这个字节的首位是 “0”，剩下的7位与原字符中的后7位相同，如“\u0034”（0000 0000 0011 0100），用“34” (0011 0100)表示；（与源Unicode字符是相同的）；

（2）如果Unicode的16位字符的头5位是0，则用2个字节表示，首字节是“110”开头，后面的5位与源字符中除去头5个零后的最高5位相同；第二个字节以“10”开头，后面的6位与源字符中的低6位相同。如“\ u025d”（0000 0010 0101 1101），转化后为“c99d”（1100 1001 1001 1101）；

（3）如果不符合上述两个规则，则用三个字节表示。第一个字节以“1110”开头，后四位为源字符的高四位；第二个字节以“10”开头，后六位为源字符中间的六位；第三个字节以“10”开头，后六位为源字符的低六位；如“\u9da7”（1001 1101 1010 0111），转化为“e9b6a7”（1110 1001 1011 0110 1010 0111）；

UCS 和 UTF 的联系

UTF-8就是以8位为单元对UCS进行编码

UTF-16以16位为单元对UCS进行编码

big endian和little endian

big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时，究竟是将6C写在前面，还是将49写在前面？如果将6C写在前面，就是big endian。如果将49写在前面，就是little endian。

“endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开，由此曾发生过六次叛乱，一个皇帝送了命，另一个丢了王位。

我们一般将endian翻译成“字节序”，将big endian和little endian称作“大尾”和“小尾”。
=================================================
GB2312是GBK的子集，GBK是GB18030的子集
GBK是包括中日韩字符的大字符集合
如果是中文的网站推荐GB2312 GBK有时还是有点问题
为了避免所有乱码问题，应该采用UTF-8，将来要支持国际化也非常方便
UTF-8可以看作是大字符集，它包含了大部分文字的编码。
使用UTF-8的一个好处是其他地区的用户（如香港台湾）无需安装简体中文支持就能正常观看你的文字而不会出现乱码。

词条：UTF8
UTF8并不算是一种电脑编码，而是一种储存和传送的格式，如前所述，每个Unicode/UCS字符都以 2或4个bytes来储存，看看以下的比较：

　　以"I am Chinese"为例
　　　用ANSI储存：12 Bytes
　　　用Unicode/UCS2储存：24 Bytes + 2 Bytes(header)
　　　用UCS4储存：48 Bytes + 4 Bytes(header)

　　以"我是中国人"为例
　　　用ANSI储存：10 Bytes
　　　用Unicode/UCS2储存：10 Bytes + 2 Bytes(header)
　　　用UCS4储存：20 Bytes + 4 Bytes(header)

　　由此可见直接以Unicode/UCS的原始形式来储存是一种极大的浪费，而且也不利于互联网的传输(中文稍为合算一点^_^)。

　　有见及此，Unicode/UCS的压缩形式－－UTF8出现了，套用官方网站的首句话『UTF-8 stands for Unicode Transformation Format-8. It is an octet (8-bit) lossless encoding of Unicode characters.』，由于UTF也适用于编码UCS，故亦可称为『UCS transformation formats (UTF)』

　　UTF8是以8bits即1Bytes为编码的最基本单位，当然也可以有基于16bits和32bits的形式，分别称为UTF16和UTF32，但目前用得不多，而UTF8则被广泛应用在文件储存和网络传输中。

编码原理

先看这个模板：

UCS-4 range (hex.) UTF-8 octet sequence (binary)
0000 0000-0000 007F 0xxxxxxx
0000 0080-0000 07FF 110xxxxx 10xxxxxx
0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx

0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0400 0000-7FFF FFFF 1111110x 10xxxxxx ... 10xxxxxx

编码步骤：
1) 首先确定需要多少个8bits(octets)
2) 按照上述模板填充每个octets的高位bits
3) 把字符的bits填充至x中，字符顺序：低位→高位，UTF8顺序：最后一个octet的最末位x→第一个octet最高位x
4) 解码的原理一样。

实例：(留意每个bit的颜色，粗体字为模板内容)

UCS-4 UTF-8
HEX BIN Bytes BIN HEX Bytes
0000 000A 00001010 4 00001010 0A 1
0000 0099 10011001 4 11000010 10011001 C2 99 2
0000 8D99 10001101 10011001 4 11101000 10110110 10011001 E8 B6 99 3

　　不知大家看懂了没有，其实不懂也无所谓，反正又不用自己算，程式可以完全代劳。

　　以UTF8格式储存的文件档首标识为EF BB BF。

效率

　　从上述编码原理中得出的结论是：
　　　1.每个英文字母、数字所占的空间为1 Byte；
　　　2.泛欧语系、斯拉夫语字母占2 Bytes；
　　　3.汉字占3 Bytes。

　　由此可见UTF8对英文来说是个非常诱人的方案，但对中文来说则不太合算，无论用ANSI还是 Unicode/UCS2来编码都只用2 Bytes，但用UTF8则需要3 Bytes。

　　以下是一些统计资料，显示用UTF8来储存文件每个字符所需的平均字节：
　　　1.拉丁语系平均用1.1 Bytes；
　　　2.希腊文、俄文、阿拉伯文和希伯莱文平均用1.7 Bytes；
　　　3.其他大部份文字如中文、日文、韩文、Hindi(北印度语)用约3 Bytes；
　　　4.用超过4 Bytes的都是些非常少用的文字符号。

词条：GB2312
字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码，为了处理汉字，程序员设计了用于简体中文的GB2312和用于繁体中文的big5。

GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包括21003个字符。2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。现在的PC平台必须支持GB18030，对嵌入式产品暂不作要求。所以手机、MP3一般只支持GB2312。

从ASCII、GB2312、GBK到GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼，GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。

有的中文Windows的缺省内码还是GBK，可以通过GB18030升级包升级到GB18030。不过GB18030相对GBK增加的字符，普通人是很难用到的，通常我们还是用GBK指代中文Windows内码。

这里还有一些细节：

GB2312的原文还是区位码，从区位码到内码，需要在高字节和低字节上分别加上A0。

在DBCS中，GB内码的存储格式始终是big endian，即高位在前。

GB2312的两个字节的最高位都是1。但符合这个条件的码位只有128*128=16384个。所以GBK和GB18030的低字节最高位都可能不是1。不过这不影响DBCS字符流的解析：在读取DBCS字符流时，只要遇到高位为1的字节，就可以将下两个字节作为一个双字节编码，而不用管低字节的高位是什么。

肥仔 2008-11-07 22:43 发表评论

VC/C++的中文字符处理方式

肥仔 — Fri, 07 Nov 2008 14:39:00 GMT

怎样把汉字转换成整数，又怎样把该整数还原成汉字

char * str="汉字";BYTE *pstr=(BYTE*)str;BYTE B=pstr[i];B 就是整数

一引入问题

代码 wchar_t a[3]=L”中国”，编译时出错，出错信息为：数组越界。但wchar_t 是一个宽字节类型，数组a的大小应为6个字节，而两个汉字的的unicode码占4个字节，再加上一个结束符，最多6个字节，所以应该不会越界。

难道是编译器出问题了？

二解决引入问题所需的知识

主要需两方面的知识，第一个为字符尤其是汉字的编码，以及语言和工具的支持情况，第二个是vc/c++中MutiByte Charater Set 和 Wide Character Set有关内存分配的情况。

三汉字的编码方式及在vc/c++中的处理

1.汉字编码方式的介绍

对英文字符的处理，7位ASCII码字符集中的字符即可满足使用需求，且英文字符在计算机上的输入及输出也非常简单，因此，英文字符的输入、存储、内部处理和输出都可以只用同一个编码（如ASCII码）。

而汉字是一种象形文字，字数极多（现代汉字中仅常用字就有六、七千个，总字数高达5万个以上），且字形复杂，每一个汉字都有"音、形、义"三要素，同音字、异体字也很多，这些都给汉字的的计算机处理带来了很大的困难。要在计算机中处理汉字，必须解决以下几个问题：首先是汉字的输入，即如何把结构复杂的方块汉字输入到计算机中去，这是汉字处理的关键；其次，汉字在计算机内如何表示和存储？如何与西文兼容？最后，如何将汉字的处理结果从计算机内输出？

为此，必须将汉字代码化，即对汉字进行编码。对应于上述汉字处理过程中的输入、内部处理及输出这三个主要环节，每一个汉字的编码都包括输入码、交换码、内部码和字形码。在计算机的汉字信息处理系统中，处理汉字时要进行如下的代码转换：输入码→交换码→内部码→字形码。

(1)输入码：作用是，利用它和现有的标准西文键盘结合来输入汉字。输入码也称为外码。主要归为四类：

a) 数字编码：数字编码是用等长的数字串为汉字逐一编号，以这个编号作为汉字的输入码。例如，区位码、电报码等都属于数字编码。

b) 拼音码：拼音码是以汉字的读音为基础的输入办法。

c) 字形码：字形码是以汉字的字形结构为基础的输入编码。例如，五笔字型码（王码）。

d) 音形码：音形码是兼顾汉字的读音和字形的输入编码。

(2)交换码：用于汉字外码和内部码的交换。交换码的国家标准代号为GB2312-80。

(3)内部码：内部码是汉字在计算机内的基本表示形式，是计算机对汉字进行识别、存储、处理和传输所用的编码。内部码也是双字节编码，将国标码两个字节的最高位都置为"1"，即转换成汉字的内部码。

(4)字形码：字形码是表示汉字字形信息（汉字的结构、形状、笔划等）的编码，用来实现计算机对汉字的输出（显示、打印）。

2.VC中汉字的编码方式

vc/c++正是采用了GB2312内部码作为汉字的编码方式,因此vc/c++中的各种输入输出方法，如cin/wcin,cout/wcout,scanf/wsanf,printf/wprintf...都是基于GB2312的，如果汉字的内码不是这种编码方式，那么利用上述各种方法就不会正确的解析汉字。

仔细观察ASCII字符表，从第161个字符开始，后面的字符并不经常为用户所使用，负值也未使用。GB2312编码方式充分利用这一特性，将161-255（-95~-1）之间的数值空间作为汉字的标识码。既然255-161 = 94不能满足汉字容量的要求，就将每两个字符并在一块(即一个汉字占两个字节)，显然，94* 94 =8836基本上已经满足了常用汉字个数的要求。计算机处理字符时，当连续处理到两个大与160(或-95~-1)的字节时，就认为这两个字节存放了一个汉字字符。可以用下面的Demo程序来模拟vc/c++中输出汉字字符的过程。

unsigned char input[50];

cin>>input;

int flag=0;

for(int i =0 ;i < 50 ;i++)

{

if(input[i] > 0xa0 && input[i] != 0)

{

if(flag == 1)

{

cout<<"chinese character"<

flag = 0;

}

else

{

flag++;

}

else if(input[i] == 0)

{

break;

}

else

{

cout<<"english character"<

}

输入：Hello中国（“中国”对应的GB2312内码为：214 208，185 250）

输出：english character

english character

chinese character

vc/c++中的英文字符仍然采用ASCII编码方式。可以设想，其他国家程序员利用vc/c++编写程序输入本国字符时，vc/c++则会采用该国的字符编码方式来处理这些字符。

问题又产生了，韩国的vc/c++程序在中国的vc/c++上运行时，如果没有相应的内码库，则对韩语字符的显示有可能出现乱码。我个人猜测，vc安装程序中应该带有不同国家的内码库，这样一来肯定会占用很大的空间。如果所有的国家使用统一的编码方式，且所有的程序设计语言和开发工具都支持这种编码方式该多好！而现实中，确实已经有这种编码方式了，且许多新的语言也都支持这种编码方式，如Java、C#等，它就是下面的Unicode编码

3.新的内码标准---Unicode

Unicode（统一码、万国码、单一码）是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发，1994年正式公布。随着计算机工作能力的增强，Unicode也在面世以来的十多年里得到普及。最新版本的 Unicode 是 2005年3月31日推出的Unicode 4.1.0 。另外，5.0 Beta已于2005年12月12日推出，以供各会员评价。

Unicode 编码系统可分为编码方式和实现方式两个层次。

编码方式：Unicode 的编码方式与 ISO 10646 的通用字符集（Universal Character Set，UCS）概念相对应，目前的用于实用的 Unicode 版本对应于 UCS-2，使用16位的编码空间。也就是每个字符占用2个字节。这样理论上一共最多可以表示 216 个字符。基本满足各种语言的使用。实际上目前版本的 Unicode 尚未填充满这16位编码，保留了大量空间作为特殊使用或将来扩展。

实现方式：Unicode 的实现方式不同于编码方式。一个字符的 Unicode 编码是确定的。但是在实际传输过程中，由于不同系统平台的设计不一定一致，以及出于节省空间的目的，对 Unicode 编码的实现方式有所不同。Unicode 的实现方式称为Unicode转换格式（Unicode Translation Format，简称为 UTF）。如，UTF-8 编码，这是一种变长编码，它将基本7位ASCII字符仍用7位编码表示，占用一个字节（首位补0）。而遇到与其他 Unicode 字符混合的情况，将按一定算法转换，每个字符使用1-3个字节编码，并利用首位为0或1进行识别。

Java与C#语言都是采用Unicode编码方式，在这两种语言中定义一个字符，在内存中存放的就是这个字符的两字节Unicode码。如下所示：

char a='我'; => 内存中存放的Unicode码为：25105

肥仔 2008-11-07 22:39 发表评论

Win32 字符编码

肥仔 — Fri, 07 Nov 2008 14:33:00 GMT

摘要: 毫无疑问，我们都看到过像 TCHAR, std::string, BSTR 等各种各样的字符串类型，还有那些以 _tcs 开头的奇怪的宏。你也许正在盯着显示器发愁。本指引将总结引进各种字符类型的目的，展示一些简单的用法，并告诉您在必要时，如何实现各种字符串类型之间的转换。　　在第一部分，我们将介绍3种字符编码类型。了解各种编码模式的工作方式是很重要的事情。即使你已经知道一个字符串是一个字符数组，你... 阅读全文

肥仔 2008-11-07 22:33 发表评论

C++的三种字符编码方式

肥仔 — Fri, 07 Nov 2008 14:33:00 GMT

我们看看他的定义：

#ifdef UNICODE
typedef wchar_t TCHAR;
#else
typedef char TCHAR;
#endif

我们说一些小问题：

VC6生成的console application是
int main(int argc, char* argv[])

VS C++ 2005生成的是

int _tmain(int argc, _TCHAR* argv[])

显然，用_tmain更好，why?

我们也会常常看到如下一些字符类型，

肥仔 2008-11-07 22:33 发表评论

维基百科----UTF-16

肥仔 — Fri, 07 Nov 2008 14:31:00 GMT

维基百科，自由的百科全书

跳转到: 导航, 搜寻

UTF-16是Unicode的其中一个使用方式。 UTF是 Unicode/UCS Transformation Format，即把Unicode转做某种格式的意思。

它定义于ISO/IEC 10646-1的附录Q，而RFC2781也定义了相似的做法。

在Unicode基本多文种平面定义的字符（无论是拉丁字母、汉字或其它文字或符号），一律使用2字节储存。而在辅助平面定义的字符，会以代理对（surrogate pair）的形式，以两个2字节的值来储存。

UTF-16比起UTF-8，好处在于大部分字符都以固定长度的字节 (2字节) 储存，但UTF-16却无法兼容于ASCII编码。

[编辑] UTF-16的编码模式

UTF-16的大尾序和小尾序储存形式都在用。一般来说，以Macintosh制作或储存的文字使用大尾序格式，以Microsoft或Linux制作或储存的文字使用小尾序格式。

为了弄清楚UTF-16文件的大小尾序，在UTF-16文件的开首，都会放置一个U+FEFF字符作为Byte Order Mark (UTF-16LE 以 FF FE 代表，UTF-16BE 以 FE FF 代表)，以显示这个文本文件是以UTF-16编码，其中U+FEFF字符在UNICODE中代表的意义是ZERO WIDTH NO-BREAK SPACE，顾名思义，它是个没有宽度也没有断字的空白。

以下的例子有三个字符：「朱」(U+6731)、半角逗号 (U+002C)、「聿」(U+807F)。

使用 UTF-16 编码的例子
编码名称	编码次序	编码
编码名称	编码次序	BOM	"朱"	","	"聿"
UTF-16LE	小尾序		31 67	2C 00	7F 80
UTF-16BE	大尾序		67 31	00 2C	80 7F
UTF-16	小尾序，包含BOM	FF FE	31 67	2C 00	7F 80
UTF-16	大尾序，包含BOM	FE FF	67 31	00 2C	80 7F

[编辑] UTF-16 与 UCS-2 的关系

UTF-16可看成是UCS-2的父集。在没有辅助平面字符前，UTF-16与UCS-2所指的是同一的意思。但当引入辅助平面字符后，就只称为UTF-16了。现在若有软件声称自己支持UCS-2编码，那其实是暗指它不能支持辅助平面字符的委婉语。

肥仔 2008-11-07 22:31 发表评论

谈谈Unicode编码，简要解释UCS、UTF、BMP、BOM等名词

肥仔 — Fri, 07 Nov 2008 14:14:00 GMT

这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念，增进知识，类似于打RPG游戏的升级。整理这篇文章的动机是两个问题：

问题一：

使用Windows记事本的“另存为”，可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件，Windows是怎样识别编码方式的呢？

我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节，分别是FF、FE（Unicode）,FE、FF（Unicode big endian）,EF、BB、BF（UTF-8）。但这些标记是基于什么标准呢？

问题二：

最近在网上看到一个ConvertUTF.c，实现了UTF-32、UTF-16和UTF-8这三种编码方式的相互转换。对于Unicode(UCS2)、GBK、UTF-8这些编码方式，我原来就了解。但这个程序让我有些糊涂，想不起来UTF-16和UCS2有什么关系。

查了查相关资料，总算将这些问题弄清楚了，顺带也了解了一些Unicode的细节。写成一篇文章，送给有过类似疑问的朋友。本文在写作时尽量做到通俗易懂，但要求读者知道什么是字节，什么是十六进制。

0、big endian和little endian

big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时，究竟是将6C写在前面，还是将49写在前面？如果将6C写在前面，就是big endian。还是将49写在前面，就是little endian。

“endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开，由此曾发生过六次叛乱，其中一个皇帝送了命，另一个丢了王位。

我们一般将endian翻译成“字节序”，将big endian和little endian称作“大尾”和“小尾”。

1、字符编码、内码，顺带介绍汉字编码

这里还有一些细节：

· GB2312的原文还是区位码，从区位码到内码，需要在高字节和低字节上分别加上A0。

· 在DBCS中，GB内码的存储格式始终是big endian，即高位在前。

· GB2312的两个字节的最高位都是1。但符合这个条件的码位只有128*128=16384个。所以GBK和GB18030的低字节最高位都可能不是1。不过这不影响DBCS字符流的解析：在读取DBCS字符流时，只要遇到高位为1的字节，就可以将下两个字节作为一个双字节编码，而不用管低字节的高位是什么。

2、Unicode、UCS和UTF

前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容（更准确地说，是与ISO-8859-1兼容），与GB码不兼容。例如“汉”字的Unicode编码是6C49，而GB码是BABA。

Unicode也是一种字符编码方法，不过它是由国际组织设计，可以容纳全世界所有语言文字的编码方案。Unicode的学名是"Universal Multiple-Octet Coded Character Set"，简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。

根据维基百科全书(http://zh.wikipedia.org/wiki/)的记载：历史上存在两个试图独立设计Unicode的组织，即国际标准化组织（ISO）和一个软件制造商的协会（unicode.org）。ISO开发了ISO 10646项目，Unicode协会开发了Unicode项目。

在1991年前后，双方都认识到世界不需要两个不兼容的字符集。于是它们开始合并双方的工作成果，并为创立一个单一编码表而协同工作。从Unicode2.0开始，Unicode项目采用了与ISO 10646-1相同的字库和字码。

目前两个项目仍都存在，并独立地公布各自的标准。Unicode协会现在的最新版本是2005年的Unicode 4.1.0。ISO的最新标准是10646-3:2003。

UCS规定了怎么用多个字节表示各种文字。怎样传输这些编码，是由UTF(UCS Transformation Format)规范规定的，常见的UTF规范包括UTF-8、UTF-7、UTF-16。

IETF的RFC2781和RFC3629以RFC的一贯风格，清晰、明快又不失严谨地描述了UTF-16和UTF-8的编码方法。我总是记不得IETF是Internet Engineering Task Force的缩写。但IETF负责维护的RFC是Internet上一切规范的基础。

3、UCS-2、UCS-4、BMP

UCS有两种格式：UCS-2和UCS-4。顾名思义，UCS-2就是用两个字节编码，UCS-4就是用4个字节（实际上只用了31位，最高位必须为0）编码。下面让我们做一些简单的数学游戏：

UCS-2有2^16=65536个码位，UCS-4有2^31=2147483648个码位。

UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个plane。每个plane根据第3个字节分为256行 (rows)，每行包含256个cells。当然同一行的cells只是最后一个字节不同，其余都相同。

group 0的plane 0被称作Basic Multilingual Plane, 即BMP。或者说UCS-4中，高两个字节为0的码位被称作BMP。

将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。在UCS-2的两个字节前加上两个零字节，就得到了UCS-4的BMP。而目前的UCS-4规范中还没有任何字符被分配在BMP之外。

4、UTF编码

UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下：

UCS-2编码(16进制)	UTF-8 字节流(二进制)
0000 - 007F	0xxxxxxx
0080 - 07FF	110xxxxx 10xxxxxx
0800 - FFFF	1110xxxx 10xxxxxx 10xxxxxx

例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，所以肯定要用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是：0110 110001 001001，用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

读者可以用记事本测试一下我们的编码是否正确。

UTF-16以16位为单元对UCS进行编码。对于小于0x10000的UCS码，UTF-16编码就等于UCS码对应的16位无符号整数。对于不小于0x10000的UCS码，定义了一个算法。不过由于实际使用的UCS2，或者UCS4的BMP必然小于0x10000，所以就目前而言，可以认为UTF-16和UCS-2基本相同。但UCS-2只是一个编码方案，UTF-16却要用于实际的传输，所以就不得不考虑字节序的问题。

5、UTF的字节序和BOM

UTF-8以字节为编码单元，没有字节序的问题。UTF-16以两个字节为编码单元，在解释一个UTF-16文本前，首先要弄清楚每个编码单元的字节序。例如收到一个“奎”的Unicode编码是594E，“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流“594E”，那么这是“奎”还是“乙”？

Unicode规范中推荐的标记字节顺序的方法是BOM。BOM不是“Bill Of Material”的BOM表，而是Byte Order Mark。BOM是一个有点小聪明的想法：

在UCS编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。

这样如果接收者收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。

UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF（读者可以用我们前面介绍的编码方法验证一下）。所以如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。

Windows就是使用BOM来标记文本文件的编码方式的。

6、进一步的参考资料

本文主要参考的资料是 "Short overview of ISO-IEC 10646 and Unicode" (http://www.nada.kth.se/i18n/ucs/unicode-iso10646-oview.html)。

我还找了两篇看上去不错的资料，不过因为我开始的疑问都找到了答案，所以就没有看：

"Understanding Unicode A general introduction to the Unicode Standard" (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter04a)
"Character set encoding basics Understanding character set encodings and legacy encodings" (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter03)

我写过UTF-8、UCS-2、GBK相互转换的软件包，包括使用Windows API和不使用Windows API的版本。以后有时间的话，我会整理一下放到我的个人主页上(http://fmddlmyy.home4u.china.com)。

我是想清楚所有问题后才开始写这篇文章的，原以为一会儿就能写好。没想到考虑措辞和查证细节花费了很长时间，竟然从下午1:30写到9:00。希望有读者能从中受益。

附录1 再说说区位码、GB2312、内码和代码页
有的朋友对文章中这句话还有疑问：
“GB2312的原文还是区位码，从区位码到内码，需要在高字节和低字节上分别加上A0。”

我再详细解释一下：

“GB2312的原文”是指国家1980年的一个标准《中华人民共和国国家标准信息交换用汉字编码字符集基本集 GB 2312-80》。这个标准用两个数来编码汉字和中文符号。第一个数称为“区”，第二个数称为“位”。所以也称为区位码。1-9区是中文符号，16-55区是一级汉字，56-87区是二级汉字。现在Windows也还有区位输入法，例如输入1601得到“啊”。（这个区位输入法可以自动识别16进制的GB2312和10进制的区位码，也就是说输入B0A1同样会得到“啊”。）

内码是指操作系统内部的字符编码。早期操作系统的内码是与语言相关的。现在的Windows在系统内部支持Unicode，然后用代码页适应各种语言，“内码”的概念就比较模糊了。微软一般将缺省代码页指定的编码说成是内码。

内码这个词汇，并没有什么官方的定义，代码页也只是微软这个公司的叫法。作为程序员，我们只要知道它们是什么东西，没有必要过多地考证这些名词。

所谓代码页(code page)就是针对一种语言文字的字符编码。例如GBK的code page是CP936，BIG5的code page是CP950，GB2312的code page是CP20936。

Windows中有缺省代码页的概念，即缺省用什么编码来解释字符。例如Windows的记事本打开了一个文本文件，里面的内容是字节流：BA、BA、D7、D6。Windows应该去怎么解释它呢？

是按照Unicode编码解释、还是按照GBK解释、还是按照BIG5解释，还是按照ISO8859-1去解释？如果按GBK去解释，就会得到“汉字”两个字。按照其它编码解释，可能找不到对应的字符，也可能找到错误的字符。所谓“错误”是指与文本作者的本意不符，这时就产生了乱码。

答案是Windows按照当前的缺省代码页去解释文本文件里的字节流。缺省代码页可以通过控制面板的区域选项设置。记事本的另存为中有一项ANSI，其实就是按照缺省代码页的编码方法保存。

Windows的内码是Unicode，它在技术上可以同时支持多个代码页。只要文件能说明自己使用什么编码，用户又安装了对应的代码页，Windows就能正确显示，例如在HTML文件中就可以指定charset。

有的HTML文件作者，特别是英文作者，认为世界上所有人都使用英文，在文件中不指定charset。如果他使用了0x80-0xff之间的字符，中文Windows又按照缺省的GBK去解释，就会出现乱码。这时只要在这个html文件中加上指定charset的语句，例如：

如果原作者使用的代码页和ISO8859-1兼容，就不会出现乱码了。

再说区位码，啊的区位码是1601，写成16进制是0x10,0x01。这和计算机广泛使用的ASCII编码冲突。为了兼容00-7f的ASCII编码，我们在区位码的高、低字节上分别加上A0。这样“啊”的编码就成为B0A1。我们将加过两个A0的编码也称为GB2312编码，虽然GB2312的原文根本没提到这一点。

肥仔 2008-11-07 22:14 发表评论