追逐梦想

临渊羡鱼,不如退而结网
posts - 8, comments - 18, trackbacks - 0, articles - 0

[转]wchar_t与char转换

Posted on 2008-01-08 11:07 寒蝉 阅读(36021) 评论(11)  编辑 收藏 引用 所属分类: C++读书笔记
环境:Dev cpp 平台i386 
    C++标准中,wchar_t是宽字符类型,每个wchar_t类型占2个字节,16位宽。汉字的表示就要用到wchar_t 。char,我们都知道,占一个字节,8位宽。
其实知道了这个以后,要在wchar_t 和 char两种类型之间转换就不难实现了。wchar_t 转换为char 的代码如下: 
有如下的wchar_t和char变量:
wchar_t w_cn = '中'; char c_cn[2] = {'0'} ;
char *C2W(wchar_t w_cn , char c_cn[2])
{    //following code convert wchar to char 
      c_cn[0] = w_cn >> 8 ;
      c_cn[1] = w_cn ;
      c_cn[2] = '\0';
      return c_cn ;
}
  其中需要注意的是一个16位的wchar_t需要用两个8位的char来存储之。我们可以发现另外一个问题,wchar_t的高位字节应该存储在char数组的低位字节。
(这里没有仔细研究了,觉得怪怪的)。
 这是完成了wchar_t到char的转化,char到wchar_t的转换类似。






C++中,你要想这样:cout<<w_cn<<endl;打印wchar_t,那是不行的。why?我想是wchar_t类型没有重载<<运算符吧。要显示,我的方法是:
string cn(c_cn);

cout<<cn<<endl;
这样就能正确的打印wchar_t字符了。是不是感觉好像做了好多事,但是完成的却是很简单的事情?呵呵,其实我也有同感,但是没有办法。更简单的办法,当然是直接用API(我一个是懒的去找了,二一个自己动手转换有些东西看的更清楚咯),但是这样的转换更灵活,
在实际中应该会用到的。 有了以上的基础,下面给出wchar_t字符串到char字符串的转换代码:
char *W2C(const wchar_t *pw , char *pc)







{
//cout<<*pw<<endl;    //这样是不能正确显示的,你可以试试看显示的是什么
      *pc++ = *pw >> 8 ;
      *pc = *pw ;
      return 0 ;

char *wstr2cstr(const wchar_t *pwstr , char *pcstr, size_t len)
{     char *ptemp = pcstr ;
      if(pwstr!=NULL && pcstr!=NULL)
      {  size_t wstr_len = wcslen(pwstr) ;
          len = (len > wstr_len ) ?    wstr_len : len ;
      while( len -- > 0)
      {
          W2C(pwstr , pcstr);
          pwstr++ ;
          pcstr +=2 ;      //和我们开始说的一样+2,不是+1
      }
          *pcstr = '\0';
          return ptemp ;
      }
      return 0 ;
}    
对上面的代码进行测试:
int main(int arg , char *argv[])
{
      wchar_t pwstr[] = {'我' , '是' , '中' , '国' , '人'};
      char *pcstr = (char *)new char[2 * wcslen(pwstr)+1] ;
      memset(pcstr , 0 , 2 * wcslen(pwstr)+1 );
      wstr2cstr(pwstr , pcstr , wcslen(pwstr)) ;
      str.assign (pcstr);
      cout<<str<<endl;
      delete []pcstr ;
}

Feedback

# re: [转]wchar_t与char转换  回复  更多评论   

2008-01-08 16:40 by <a href=http://minidx.com>minidxer</a>
相同的编码的这样转没问题,不同的话就有问题的
比如gb的转UTF16

# re: [转]wchar_t与char转换  回复  更多评论   

2008-01-20 19:41 by jsjkandy
对于编码还刚刚处于学习阶段,不知道您是否可以给我介绍几篇文章,或者给讲一些不同的 编码在不同的平台上进行移植的一些问题。呵呵。

# re: [转]wchar_t与char转换  回复  更多评论   

2009-03-02 15:29 by biangji
你好,我在c++中传递char*类型到java的时候出现如下问题
#
# An unexpected error has been detected by Java Runtime Environment:
#
# EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x102156f9, pid=5280, tid=5672
#
# Java VM: Java HotSpot(TM) Client VM (11.0-b15 mixed mode, sharing windows-x86)
# Problematic frame:
# C [MSVCR71D.dll+0x156f9]
#
# An error report file with more information is saved as:
# D:\Program Files\eclipse\workspace\jnaTestProject1\hs_err_pid5280.log
#
# If you would like to submit a bug report, please visit:
# http://java.sun.com/webapps/bugreport/crash.jsp
# The crash happened outside the Java Virtual Machine in native code.
# See problematic frame for where to report the bug.
#
不知道是怎么回事,麻烦您解答,谢谢

# re: [转]wchar_t与char转换  回复  更多评论   

2009-03-02 15:30 by biangji
不好意思,我发错了

# re: [转]wchar_t与char转换  回复  更多评论   

2009-03-05 21:19 by 寒蝉
@biangji
不好意思,呵呵,我java不会啊。

# re: [转]wchar_t与char转换[未登录]  回复  更多评论   

2010-10-18 15:51 by me
setlocale...
std::wcout << ..?

# re: [转]wchar_t与char转换  回复  更多评论   

2011-11-17 11:43 by todd
wchar_t w_cn = '中' 这样写至少也应该有个警告, 应该用 wchar_t w_cn = L'中'

输出wchar_t字符串可以用 wcout

char c_cn[2] .... c_cn[2] = ... 理论上是索引超出范围

wchar_t 的长度与编译器实现有关, 可能是2个字节, 也可能是4个字节

这个转化方案有问题,理论上是错误的,至少是靠不住的。

char sz[] = "中"; 导致 sizeof(sz) 结果为4, 除掉结尾的'\0' 字符, 中字用了3个字符, (但这也可能是因为我的代码文件用的 utf-8 保存的, 不确定)

unicode可以说只是一个字符集, 收 utf-8, utf-16, ucs4 等等编码方式的支持。
gb18030定义模糊, 其把字符集与编码方式混为一谈(也或者我读得文档表述有问题)

utf-8, utf-16, ucs4 之间转换只需解码再编码就可以了。 而与gb18030之间的转化解码后还要进行字符集转换后在编码。

比如给定汉字x, 其 unicode 对应 code point 是 xu, 其 utf-8 编码是 utf8(xu);
其gb18030的 code point 是 xk , 编码是 gb18030(xk), 而 utf8(xu) 与 gb18030(xk) 可能想去甚远

# re: [转]wchar_t与char转换[未登录]  回复  更多评论   

2012-06-22 12:28 by JK
char *pcstr = (char *)new char[2 * wcslen(pwstr)+1] ;
memset(pcstr , 0 , 2 * wcslen(pwstr)+1);
wstr2cstr(pwstr , pcstr , wcslen(pwstr));

三句代码把 wcslen 调用了三次,为什么不先算出来,调三次不浪费吗?况且,你这里直接用 sizeof 更好,连函数调用都省去了。

# re: [转]wchar_t与char转换  回复  更多评论   

2012-11-27 07:28 by Martian
可笑,完全错误,错的没边了

# re: [转]wchar_t与char转换  回复  更多评论   

2012-11-29 17:05 by ikillmeba
确实,有很多的错误,编译器的问题,还有平台的问题,都有可能

# re: [转]wchar_t与char转换  回复  更多评论   

2013-02-19 10:56 by ligand
此文错得太离谱。

C++语言标准没有规定wchar_t是多少比特宽度!!!

在类Unix/Linux系统中,wchar_t是32比特宽。

即使在Windows平台上,一个wchar_t汉字字符转为DBCS(双字节表示,简体中文即指gb2312/gbk/gb18030,三者可视为同一),也不能直接靠移位操作、字节复制之类,而必须去查表。因为wchar_t汉字字符保存的是Unicode的码值的UTF-16小尾表示,与gb2312/gbk/gb18030完全不同。这就好比gb2312/gbk/gb18030与繁体的Big5转换,也必须只能去查表。

只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理