C++源文件编码问题

Posted on 2007-04-05 15:30 小明阅读(5911) 评论(6) 编辑收藏引用所属分类: C/C++ 、Tools 、G11N/ICU

1 . VC8(VS2005)

VC8能识别的源文件编码有三种:ANSI(本地codepage),utf8,utf16. 后面两种要保留BOM,否则VC8不能识别。

基本上源文件的编码其实只对文件中的字符串的值有影响。

先说结论：
对于普通字符串("中文1234")，VC8会把它从源文件的编码格式转为ANSI字符串。
对于宽字符串(L"中文1234"), VC8会把它从源文件的编码格式转为utf16字符串。

例子1：test.cpp (编码是utf8)

#include <stdio.h>
#include <string.h>

#define TEST_MSG            "中文1234"

int main(int argc, char* argv[])
{
    char buf[1024]={0};
    strcpy(buf,TEST_MSG);
    printf("%s\n",buf);

    for(int i=0;buf[i]!=0;++i)
    {
        printf("0x%2x ",(unsigned char)buf[i]);
    }
    return 0;
}

如果这个程序在codepage 936(简体中文)上面去compile
输出的结果就是
中文1234
0xd6 0xd0 0xce 0xc4 0x31 0x32 0x33 0x34
可以看出是gb2312的编码，而不是utf8

如果这个程序在codepage 932(日文)上面去compile
输出的结果就是
中文1234
0x92 0x86 0x95 0xb6 0x31 0x32 0x33 0x34
可以看出是shift-jis的编码，也不是utf8
(注:shift-jis也包含"中文"两个字)

也就是说同样的source code在不同的code page下产生不同的可执行文件

例子2：test.cpp (编码改为ANSI)
如果这个程序在codepage 936(简体中文)上面去compile
输出的结果就是
中文1234
0xd6 0xd0 0xce 0xc4 0x31 0x32 0x33 0x34
可以看出是gb2312的编码，而不是utf8

把相同的file拷贝到codepage 932(日文)上面去compile
输出的结果是
ﾖﾐﾎﾄ1234
0xd6 0xd0 0xce 0xc4 0x31 0x32 0x33 0x34
可以看出是binary内容相同，但是string却不同了

例子三:test.cpp (编码utf8)

#include <stdio.h>
#include <string.h>

#define TEST_MSG            L"中文1234"

int main(int argc, char* argv[])
{
    char buf[1024]={0};
    memcpy(buf,(const char *)TEST_MSG,sizeof(TEST_MSG));
    //printf("%s\n",buf);

    for(int i=0;i<sizeof(TEST_MSG);++i)
    {
        printf("0x%x ",(unsigned char)buf[i]);
    }
    return 0;
}

在任何平台下使用vc8去compile，结果都应该是输出
0x2d 0x4e 0x87 0x65 0x31 0x0 0x32 0x0 0x33 0x0 0x34 0x0 0x0 0x0

顺便考你一下：
如果想输出"中文1234"的utf8格式，应该如何写代码，保证vc8在任何语言平台下面去compile，结果都一样正确？

2. gcc/g++
gcc/g++似乎不支持utf16编码的源文件
可以处理ANSI和utf8格式的源文件(no BOM)

如果采用例子一所用的源文件(utf8编码)
会输出
0xe4 0xb8 0xad 0xe6 0x96 0x87 0x31 0x32 0x33 0x34
可以看出是utf8是编码

这一点上看vc8和gcc是不同的

如果采用例子三所用的源文件(编码是utf8,使用L和wchar_t)
会输出
0x2d 0x4e 0x0 0x0 0x87 0x65 0x0 0x0 0x31 0x0 0x0 0x0 0x32 0x0 0x0 0x0 0x33 0x0 0x0 0x0 0x34 0x0 0x0 0x0 0x0 0x0 0x0 0x0
可以看出gcc的wchar_t是四个字节，跟vc8也不同

有些复杂，希望不要让你困扰。

Feedback

# re: C++源文件编码问题回复 更多评论

2007-04-05 19:36 by Corner Zhang

建议把源代码的文件的编码设为UTF8

# re: C++源文件编码问题回复 更多评论

2007-04-05 22:03 by 自大者

我看楼主自己也没搞清什么是"字符集"和"字符集编码"，根本就不是什么utf16, 而是utf16-be, 就是ucs2, 就是你所谓的unicode.

# re: C++源文件编码问题回复 更多评论

2007-04-05 23:31 by 阿来

长见识了 :)

# re: C++源文件编码问题回复 更多评论

2007-09-26 09:11 by Minidx全文检索

“任何平台下使用vc8去compile，结果都应该是……“
VC8还支持什么平台？？

# re: C++源文件编码问题回复 更多评论

2008-03-07 00:27 by 逍遥剑客

头疼, 以后全UTF吧

# re: C++源文件编码问题 回复 更多评论

2011-12-09 10:11 by NetAsker

建议初学者别看这个。会被误导的。
这个例子只会让初学者更糊涂。
不知道是作者不理解unicode，还是故意搅混水。。
1。首先，第一个例子，“如果这个程序在codepage 932(日文)上面去compile” 那么，你是拷贝过去的还是在日本系统上自己编辑的？从结果来看，我觉得你是拷贝过去的。

2。在看你的例3 test 中为什么没有字符串打印？你注视掉 //printf("%s\n",buf);这么关键的一句，为什么呢？？你可以用wcsprintf测试。

3。还是测试3， “在任何平台下使用vc8去compile，结果都应该是输出
0x2d 0x4e 0x87 0x65 0x31 0x0 0x32 0x0 0x33 0x0 0x34 0x0 0x0 0x0”

你知道这是什么编码格式吗？utf-8还是utf16?,你说任何平台下使用vc8，你说的任何平台什么意思？

刷新评论列表

只有注册用户登录后才能发表评论。


相关文章: 逆向三国群英2 debug to fix crash 那些leveldb使用的奇技淫巧1-内存管理奇怪的g++的行为 printf的wrapper 如何写出专业的C头文件 C++源文件编码问题 {Just for fun} 如何让指针指向自己 [STL] 循环中erase 谈谈snprintf

网站导航: 博客园博客园最新博文博问管理

小明思考