小明思考

高性能服务器端计算
posts - 70, comments - 428, trackbacks - 0, articles - 0
  C++博客 :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理

深入 printf / wprintf / console下的unicode output

Posted on 2006-06-21 11:53 小明 阅读(18256) 评论(5)  编辑 收藏 引用 所属分类: C/C++G11N/ICU
1. printf 只能提供ANSI/MB 的输出,不支持输出unicode stream.
例如:
wchar_t test[]=L"测试1234";
printf(
"%s",test);
是不会正确输出的


2.wprintf 同样不会提供unicode output,
   但是他会把wchar_t的string转为locale的SB/MB字符编码,然后输出
例如:
wchar_t test[] = L"测试Test";
wprintf(L
"%s",test);
会输出??1234之类的字符串,或者不输出任何结果
因为wprintf没有办法把L"测试Test"转为默认的ANSI,需要设置locale
setlocale(LC_ALL,"chs");
wchar_t test[] 
= L"测试Test";
wprintf(L
"%s",test);
会有正确的输出
等同于printf("%ls",test);

综上:  CRT I/O functions do not provide Unicode output.

3. Window console自从NT4就是一个真正的unicode console
不过输出unicode string,只有使用Windows API, WriteConsoleW
例如:
wchar_t test[] = L"测试1234";
DWORD ws;
WriteConsoleW(GetStdHandle(STD_OUTPUT_HANDLE),test,wcslen(test),
&ws,NULL);
可以正确的输出而不需要设置locale,因为是真正的unicode的输出,跟codepage无关

4. 如何实现跨平台的console output
    不要使用wchar_t和wprintf,因为这些都依赖于编译器.
     ICU是IBM的一个成熟的跨平台支持unicode的libary,推荐使用

以下是ICU的uprintf实现

void uprintf(const UnicodeString &str) {
    
char *buf = 0;
    int32_t len 
= str.length();
    int32_t bufLen 
= len + 16;
    int32_t actualLen;
    buf 
= new char[bufLen + 1];
    actualLen 
= str.extract(0, len, buf/*, bufLen*/); // Default codepage conversion
    buf[actualLen] = 0;
    printf(
"%s", buf);
    delete buf;
}
它也是先把Unicode string转化为本地的codepage,然后printf,虽然也不是unicode output,但是跨平台,大多数情况会工作得很好。

Feedback

# re: 深入 printf / wprintf / console下的unicode output  回复  更多评论   

2006-06-22 09:19 by niming
ICU是个什么库?

如果仅仅为了使用printf这些函数而用其他的库,感觉不是很爽。

前段时间测试了一些C++的其他library,虽然功能不错,但换到其他机器就需要不停的配置,如果有新同事或者交给其他人来做的话也同样不能避免这套复杂的环境配置流程。这点太郁闷了。

# re: 深入 printf / wprintf / console下的unicode output  回复  更多评论   

2006-06-22 09:25 by 小明
ICU当然不仅仅是printf这么简单了

ICU是IBM为了支持i18n而开发的跨平台的库。
支持各种编码转化,本地化输出(时间/货币等等),resource bundle等。

# 从文件读取呢  回复  更多评论   

2009-09-29 20:40 by 北河三
一个unicode的编码的文本文件怎么读取?
不是我说,你的例子不详细,有的东西根本就没定义,也无法输出正确结果:
STD_OUTPUT_HANDLE 是你制造的?
完整的代码是一份也没有,做学问这样子是不行的

# re: 深入 printf / wprintf / console下的unicode output  回复  更多评论   

2010-02-11 14:20 by 1+2=3
@北河三
WinBase.h 1765
STD_OUTPUT_HANDLE

作者已经说的很详细了,难道要嚼细了吐给你吗?

# re: 深入 printf / wprintf / console下的unicode output  回复  更多评论   

2010-04-15 13:53 by classfree
WCHAR buf[] = L"我是一个很Y的程序员";
printf("%ws\n", buf);

只有注册用户登录后才能发表评论。
【推荐】超50万行VC++源码: 大型组态工控、电力仿真CAD与GIS源码库
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理