力为的技术博客

联系 聚合 管理
  154 Posts :: 1 Stories :: 561 Comments :: 0 Trackbacks
在VC++的世界里,MS比较鼓励使用_UNICODE,std::wstring。而在Web, XML则提倡用UTF8。当在C++的程序里要保存/读取XML数据,就存在wstring与string之间的转换。C++11里提供方便的转换工具(参照:std::wstring_convert处理UTF8 )

有人说,MS引入_UNICODE就是个错误,STL引入wstring也是个错误;而鼓励使用UTF8 string做为程序内部string存储格式。在与GUI交互的时候,转换为wstring(假定GUI使用的是_UNICODE)。这样做至少有一个好处:相对的可以减少程序运行时占用内存的大小。当然现在内存资源也不是个什么大问题,我更关心的是保存/读取XML数据的效率。

VC++默认构造std::string的时候是ANSI格式,如
std::string nstr = "123,我是谁?我爱十八大!";   

为了构造个UTF8的string,总不能这样写吧
inline std::string ToUTF8(const wchar_t* wideStr)
{
   std::wstring_convert<std::codecvt_utf8<wchar_t>> conv;
   return conv.to_bytes(wideStr);
}

std::string nstr = ToUTF8(L"123,我是谁?我爱十八大!");

这样写能Work,但总感觉有问题。

VC++ 2008 SP1提供了个编译选项,可以默认就构造出UTF8的string,不需要上述转换。
#pragma execution_character_set("utf-8") 

这样string就是utf8。
那wstring的编码格式会变吗?若变,会变成啥呢?
std::wstring str = L"123,我是谁?";

另外C++11定义了u8,类似L
  std::string nstr = u8"123,我是谁?";
但VS2010SP1并不支持。

注:
以上说的都是VC++的事儿。而Clang,据说默认就是utf8(有待验证)。
posted on 2012-10-29 14:53 力为 阅读(14297) 评论(2)  编辑 收藏 引用 所属分类: 4. C++ FAQ3. VC&MFC&Qt

评论

# re: 构造UTF8的std::string 2012-10-31 17:32 teli_eurydice
貌似没有效果,这个应该是 2010 的吧  回复  更多评论
  

# re: 构造UTF8的std::string 2012-11-03 11:05 力为
@teli_eurydice
对的,应该是VS2010
  回复  更多评论
  


只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理