woaidongmao

文章均收录自他人博客，但不喜标题前加-[转贴]，因其丑陋，见谅！~

随笔 - 1469, 文章 - 0, 评论 - 661, 引用 - 0

数据加载中……

写入UTF-16文件的时候，不要忘记在文件头添加BOM

windows下的Unicode是UTF-16，每个字都用两个字节来表示。编程的时候，通过TEXT宏，以及在项目中定义Unicode, _Unicode变量，就可以保证整个项目都是在Unicode下工作。

现在在将字符串写入文件的时候，发生了一些问题。写文件用的是WriteFile函数，字符串本身都是UTF-16的，写入文件后发现用vim和记事本打开都无法正确显示。用16进制的方式查看，每个字都是对的，都是2个字节，如果是英文字母，第二个字节就是00。

google了一下，发现了答案。要在文件开头写入0xfffe，这是Unicode file的identifier，windows下的记事本和写字板读到这个头之后，就能正确识别这是一个Unicode文件了。所以，在代码中，创建文本文件的时候，要多写这样一段：

// logfile doesn't exist, create it, that's all
hFile = CreateFile(log_file_path, GENERIC_WRITE, NULL, NULL, CREATE_NEW, FILE_ATTRIBUTE_NORMAL, NULL);
if (hFile == INVALID_HANDLE_VALUE) {
    operate_result = FALSE;
} else {
    // write 0xfffe at the beginning of the file, this makes Notepad reads Unicodes well
    WORD unicode_identifier = 0xfeff;
    if (WriteFile(hFile, &unicode_identifier, sizeof(WORD), &bytes_written, NULL)) {
        operate_result = TRUE;
    } else {
        operate_result = FALSE;
    }
}
goto finished;

finished:
    if (hFile != NULL && hFile != INVALID_HANDLE_VALUE)
        CloseHandle(hFile);
    return operate_result;

这里不要奇怪为什么设置给unicode_identifier变量的值是0xfeff，这是因为x86是little endian，所以代码中的oxfeff存在寄存器中，然后设置到内存的时候，从低地址到高地址就变成了fffe，这样最后将这个WORD写入文件之后就正好是fffe了。

最后我自己又测试了一下，写入中文也是没有问题的。使用gvim来打开的话需要设置一下，我在Ubuntu下打开文件是OK的，windows下的gvim的.vimrc设置和Ubuntu一样的话，应该也是没问题的。

posted on 2012-02-29 16:48 肥仔阅读(2294) 评论(0) 编辑收藏引用所属分类: 字符编码

只有注册用户登录后才能发表评论。


相关文章: 字符编码笔记：ASCII，Unicode和UTF-8 写入UTF-16文件的时候，不要忘记在文件头添加BOM 判断字符串是否UTF8编码 EUC 怎样学习使用libiconv库 unicode utf-8 gb18030 gb2312 gbk各种编码对比 GB18030编码研究以及GBK、GB18030与Unicode的映射 GBK, UCS和UTF8相互转换 C程序实现汉字内码与GB码 C++的三种字符编码方式

网站导航: 博客园博客园最新博文博问管理

woaidongmao

写入UTF-16文件的时候，不要忘记在文件头添加BOM

导航

常用链接

留言簿(10)

随笔分类

随笔档案

搜索

最新评论

阅读排行榜

评论排行榜