Java：读取文件不乱码

@import url(http://www.cppblog.com/cutesoft_client/cuteeditor/Load.ashx?type=style&file=SyntaxHighlighter.css);@import url(/css/cuteeditor.css);

最低位地址存放高位字节，可称高位优先，内存从最低地址开始按顺序存放（高数位数字先写）。最高位字节放最前面。

例如“汉”字的Unicode编码是6C49。如果将6C写在前面，就是big endian。还是将49写在前面，就是little endian

Endian可读为字节序.

0x11BB，高字节为11，低字节为BB

Big Endian: 高字节存储在高位，低字节存储在低位: 高字节结束存储: BB 11

Little Endian: 高字节存储在低位，低字节存储在高位: 低字节结束存储: 11 BB

数字的高低位与存储中位置偏移的高低位正好相反. Little Endian更适合阅读，因为11BB存储为11BB.

import java.nio.ByteOrder;

public class Test {

public static void main(String[] args) {

char c = '\u11BB';

String endian = Integer.toHexString(c & 0xFF).toUpperCase();

System.out.println(endian.equals("BB") ? "Little Endian" : "Big Endian");

System.out.println(ByteOrder.nativeOrder());

}

BOM(字节序标志): Byte Order Mark

UTF-16是以两个字节为编码单元，要考虑字节序，所以使用BOM来标志字节序: FEFF or FFFE.

FEFF 又叫做 Zero Witdh No-Break Space，它在UCS中是不存在的字符，所以用来标志字节序，又称做BOM.

FEFF: Big Endian

FFEF: Little Endian

A: The following table summarizes some of the properties of each of the UTFs.

Name	UTF-8	UTF-16	UTF-16BE	UTF-16LE	UTF-32	UTF-32BE	UTF-32LE
Smallest code point	0000	0000	0000	0000	0000	0000	0000
Largest code point	10FFFF	10FFFF	10FFFF	10FFFF	10FFFF	10FFFF	10FFFF
Code unit size	8 bits	16 bits	16 bits	16 bits	32 bits	32 bits	32 bits
Byte order	N/A	<BOM>	big-endian	little-endian	<BOM>	big-endian	little-endian
Fewest bytes per character	1	2	2	2	4	4	4
Most bytes per character	4	4	4	4	4	4	4

Windows保存的Unicode文件是含有BOM的，UTF-8编码的文件以字节为编码单元，不存在字节序的问题，但可以使用BOM来表示编码方式: 文件前3字节是EF BB BF，为UTF-8编码。因为FEFF在UTF-8里的编码为EF BB BF.

Mac下的TextEdit保存为UTF-8就不含BOM

TextWrangler可以选择是否包含有BOM

一个汉字在Unicode中用两个字节表示，a-z等字母也是两个字节。

UTF-8是Unicode的一种表现形式(Unicode编码值使用UTF-8方式编码存储)，是一种变长的表达方式，把字符的Unicode编码在文件中表现出来，从一个字节到三个字节不等(为了减少如a-z等ascii码字符占用的空间，因为他们出现太频繁了).

UTF-8编码范围为:

0000 - 007F : 0xxxxxxx

0080 - 07FF : 110xxxxx 10xxxxxx

0800 - FFFF : 1110xxxx 10xxxxxx 10xxxxxx

如"汉"的Unicode编码为6C49，在0800 - FFFF之间，所以要使用3字节模板: 1110xxxx 10xxxxxx 10xxxxxx

6C49的二进制是: 0110 110001 001001

用这个二进制流依次代替3字节模板中的x得: 1110 0110 10110001 10001001，即E6 B1 89

保存到文件中的就是3个字节E6 B1 89，而不是2个字节6C 49

// 给InputStreamReader指定要读取的文件的编码，读取时就不会出现乱码了.

public class TextFileReader {

public static void main(String[] args) throws Exception {

String filename = "source/demo-gb18030.txt";

String encoding = "gb18030";

printFile(filename, encoding);

}

// 打印出文件的文本内容, 使用指定的编码读入文件

public static void printFile(String filename, String encoding) throws IOException {

InputStreamReader isr = new InputStreamReader(new FileInputStream(filename), encoding);

BufferedReader reader = new BufferedReader(isr);

String line = null;

while ((line = reader.readLine()) != null) {

System.out.println(line);

}

posted on 2010-12-29 06:27 逛奔的蜗牛阅读(2659) 评论(4) 编辑收藏引用所属分类: Java

# re: Java：读取文件不乱码 2011-06-19 17:17 秦旭

@r X? 貄D 恤 X? @r ? 攥D ? 5 ?? 8? ? @r 愻貄D ? 愻 @r 狊 ZB ?@? 貙 €[B  ?  場  $ 绑 h珼 ? 輷A l B 睂B ? 悒D 绑 D 〥 L? 〥绑 0? @r 润 z$B + ?  趔 4囇w?Au_Client  瞳很 0? \? 堁w 瘕\? Z堁w? *堁w ? ? ? 狋 ?詗0堁w*堁w爭襴 ? + ?  靰z 珟襴+ 聂 ;"揬笩 333333333333333333333333333333搢"搢?搢?搢劵 I 埢 h? s鋻|? "搢 8 ? 痿 4? 閽|(搢"搢?搢?搢橑愾 `? $? ? h? 閽|(搢"搢?搢?搢赠 vS 堳銙襴貆z + ?  H倆怎 !詗? + 磅 Z?R@? @r X? 貄D 恤 X? @r ? 攥D ? 5 ?? 8? ? @r 愻貄D ? 愻 @r 狊 ZB ?@? 貙 €[B  ?  場  $ 绑 h珼 ? 輷A l B 睂B ? 悒D 绑 D 〥 L? 〥绑 0? @r 润 z$B + ?  趔 4囇w?Au_Client_5? 瞳很 0? \? 堁w 瘕\? Z堁w? *堁w ? ? ? 狋 ?詗0堁w*堁w爭襴 ? + ?  靰z 珟襴+ 聂 ;"揯镖 -99933333333333333333333333333搢"搢?搢?搢劵 I 埢 h? s鋻|? "搢 8 ? 痿 4? 閽|(搢"搢?搢?搢橑愾 `? $? ? h? 閽|(搢"搢?搢?搢赠 vS 堳銙襴貆z + ?  H倆怎 !詗? + 磅 Z?R@? 回复更多评论

# re: Java：读取文件不乱码 2012-05-15 01:35 Lory

谢了回复更多评论

# re: Java：读取文件不乱码 2012-05-15 01:35 Lory

博主很谦虚，一定是个高手回复更多评论

# re: Java：读取文件不乱码 2012-10-19 10:53 璇

可以解决乱码问题(*^__^*) 回复更多评论

刷新评论列表

只有注册用户登录后才能发表评论。


相关文章: Java：static final 变量的初始化 Java：Sublimetext格式化插件 Log4J 配置 Java：FastJson 主要API与类型 Java：用 Java 7 运行 IDEA 13 Java：Mavericks里安装Java 6 Qt：编码范围 Java：内存映射 Java：Java NIO之Buffer基础 Java：URLConnection访问网页

网站导航: 博客园博客园最新博文博问管理

逛奔的蜗牛

随笔分类

搜索

最新评论

评论