东莞交警网驾驶证查询:对编码问题的总结(java版)

来源：百度文库编辑：偶看新闻时间：2024/05/10 12:51:36

总结下这两天对编码的认识一些认识，本文显得比较啰嗦，应为这是我探讨的整个流程结果，了解的有不对的地方多多指点出来！
不了解的相信你会有个不错的认解，这是我学习编程的一个开始，大家就多多帮村。
在查看网上一些资料时候，首先第一个奇怪的现象出了，据说是移动打不过联通的根本原因。
如果你的电脑操作系统是win2000或winxp的话，那么：
1、在桌面上点右键，选择新建 - 文本文档；
2、打开“新建文本文档“，录入“移动“两字后存盘退出；
3、重新打开“新建文本文档“，看到什么了？
4、是不是刚刚录入的“移动“两字？
咱们换过来
1、在桌面上点右键，选择新建 - 文本文档；
2、打开“新建文本文档“，录入“联通“两字后存盘退出；
3、重新打开“新建文本文档“，看到什么了？
4、是不是刚刚录入的“联通“两字不见了，取而代之是个烧焦的手机电池的摸样？
呵呵，是不是很有趣，自己试一下，如果重新建个，除了键入“联通”还多敲几个字，“联通”又能正常显示啦。
（以下说的是中文的系统）这个道理还是挺明显的，简单的说文本他本身默认存入编码为GBK，但是“联通”二字的二进制格式跟utf-8编码的格式相同，所以再次打开的时候就是系统用了utf-8的格式去解读了gbk的文本，所以出现乱码。
首先了解下上网了解下so8859-1，GB2312/GBK，unicode，utf-8,utf-16等编码的背景资料以及各自关系。
接下来自己又对了java编程做了些实验，我以“连通”二字做了实验，应为不想对不住联通，“连通”二字解成GBK二进制码后也是符合utf-8编码的二进制码格式。这个问题晚上查一下一大堆，在这里就不多说了。
接下来是探讨java运行时的编码转换，好，开始建立一个文本，输入“连通”二字，默认保存。
测试程序
Java代码 ',1)">

import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException;
public class Charset {
public static void main(String[] str) {
System.out.println(System.getProperty("file.encoding"));
FileInputStream fis01;
FileInputStream fis02;
FileInputStream fis03;
InputStreamReader isrUTF8;
InputStreamReader isrGBK;
BufferedReader brUTF8;
BufferedReader brGBK;
try {
fis01 = new FileInputStream("E:\\试一下.txt");
fis02 = new FileInputStream("E:\\试一下.txt");
fis03 = new FileInputStream("E:\\试一下.txt");
isrGBK = new InputStreamReader(fis02, "GBK");
isrUTF8 = new InputStreamReader(fis01, "UTF-8");
brGBK = new BufferedReader(isrGBK);
brUTF8 = new BufferedReader(isrUTF8);
int t = 0;
String strGBK = brGBK.readLine();
String strUTF8 = brUTF8.readLine();
System.out.println("GBK的字节-----");
byte[] b = strGBK.getBytes();
for (int i = 0; i < b.length; i++) {
System.out.println(b[i]);
}
System.out.println("-----");
System.out.println("utf-8的字节-----");
byte[] c = strUTF8.getBytes();
for (int i = 0; i < c.length; i++) {
System.out.println(c[i]);
}
System.out.println("-----");
System.out.println("直接读取的字节-----");
byte[] y = new byte[b.length];
int f = fis03.read(y);
for (int d = 0; d < y.length; d++) {
System.out.println(y[d]);
}
System.out.println("-----");
System.out.println("GBK:" + strGBK);
System.out.println("UTF-8:" + strUTF8);
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}
很简单的一个程序，结果为
GBK
GBK的字节----- -63 -84 -51 -88
-----
utf-8的字节----- 63 63 63
-----
直接读取的字节----- -63 -84 -51 -88
-----
GBK:连通
UTF-8:???
如图运行过程如图：

源代码为本机默认编码（即GBK），在读取二进制后通过，因为在Java 语言默认的编码方式是UNICODE，单我们读取一个文本时，首先读取二进制，通过isrGBK = new InputStreamReader(fis02, "GBK")用GBK编码将二进制码解析成UNICODE编码存在JVM虚拟内存里；当要打印输出，或是获取二进制码时，用byte[] b = strGBK.getBytes()（默认就是byte[] b = strGBK.getBytes(“gbk”)）,UNICODE作为内存的与其他外来流的中间者沟通个个编码转换。
如果不指定，就是默认编码就是GBK，一般情况下就是我们存的是“GBK”，读出来的也是“GBK”，所以一般情况下不会出现乱码问题，接下来把上面的文本在保存时指定存为ＵＴＦ－８时，得到结果为
GBK
GBK的字节-----
-17 -69 -65 -24 -65 -98 -23 -128 63
-----
utf-8的字节----- 63 -63 -84 -51 -88
-----
直接读取的字节----- -17 -69 -65 -24 -65 -98 -23 -128 -102
-----
GBK:锘胯繛閫?
UTF-8:?连通
运行过程：

可以看到，二进制 -17-69-65 这三个是编码标识符，说明这是一个UTF-8编码的文本，用UTF-8解析-24-65-98等于“连”，-23-128-102=“通。
总结就引用一下网上看到的一句话：
事实上，世界上任何东西要与其他东西通信会话，都存在一个既定的协议，既定的编码。人与人之间通过文字联络，汉字“妈”代表生你的那个人，这就是一种既定的编码。但注意到这样一种情况，汉字“妈”在日本文字里有可能是你生下的那个人，所以当一个中国人Ａ与日本Ｂ之间用“妈”这个字进行交流，出现误解就很正常的。用记事本打开二进制文件与上面的情况类似。记事本无论打开什么文件都按既定的字符编码工作（如ASCII码），所以当他打开二进制文件时，出现乱码也是很必然的一件事情了，解码和译码不对应嘛。
杂谈：
由于自己写的还有些地方说得比较模糊，看了别人的文章，写得太好了 http://www.javaeye.com/topic/311583内部很清晰，语言精炼标准。
自己代码试出，原来utf-16就是unicode编码，应该是unicode字集开始时候只有unicode编码，但后来出现了utf-8编码，为了名字统一好看，给unicode编码多加了个名字叫utf-16编码。。
接下网上查到：UTF-16直接就是unicode编码, 没有变换, 但它包含了0x00在编码内, 头256字节码的第一个byte都是0x00, 在操作系统(C语言)中有特殊意义, 会引起问题。
红色的这两段字，都为自己理解，第一句更是自己的猜想理解，（事实肯定不是这样，让自己好记点，呵呵）想具体认识，查看些官方类文旦。
自己之前也混淆字符集跟编码两个概念，特地链接过来http://www.javaeye.com/topic/317895。
这里贴了一些较权威的资料，贴上帮助学习http://drift-ice.javaeye.com/blog/726265。
现在就纠正下上面红色的概念问题:
Unicode是为整合全世界的所有语言文字而诞生的。任何文字在Unicode中都对应一个值，这个值称为代码点（code point）。代码点的值通常写成 U+ABCD 的格式。而文字和代码点之间的对应关系就是UCS-2（Universal Character Set coded in 2 octets）。顾名思义，UCS-2是用两个字节来表示代码点，其取值范围为 U+0000～U+FFFF。
为了能表示更多的文字，人们又提出了UCS-4，即用四个字节表示代码点。它的范围为 U+00000000～U+7FFFFFFF，其中 U+00000000～U+0000FFFF和UCS-2是一样的。
要注意，UCS-2和UCS-4只规定了代码点和文字之间的对应关系，并没有规定代码点在计算机中如何存储。规定存储方式的称为UTF（Unicode Transformation Format），其中应用较多的就是UTF-16和UTF-8了。
主要上文主要说的unicode编码主要是说:java中的string.getByte("unicode")出来的是utf-16,呵呵。
这段话可以帮助理解:Windows平台下默认的Unicode编码为Little Endian的UTF-16.

vk700的K-JAVA应用编码是多少 divx 编码的问题浏览器编码的问题我对快乐的总结！人们对西游记的总结求哈夫曼编码（JAVA） java虚拟机概述总结 java中是怎样识别文本编码方式的呢？ java中是如何识别文本编码的？关于ASP编码的问题关于音频编码的问题五笔编码的问题? 五笔编码的问题? 关于编码查询的问题关于网站的编码问题音频编码的问题 ~急!!! 关于编码查询的问题 javascript 编码转换的问题 JSP页面编码的问题关于中文编码的问题关于商品编码的问题五笔的编码问题网络管理编码的问题韩国网站的编码问题