2017年2月 – Fawdlstty个人小站

1、编码
在讲字符串之前首先说说编码方式。字符串在程序用用数据类型进行存储，同时数据类型存储的也可以是不同编码方式的字符串。总的来说，常用编码方式有以下几种：
ASCII：最古老的编码方式，只使用后7位，可以存储英语大小写、数字及几乎所有常用半角符号。
ISO-8859-1：西欧地区使用的编码方式，兼容ASCII码，在最高位为1时用于描述西文符号。
GB2312/GBK/GB18030：这个是天朝用户专用编码方式，兼容ASCII码，对于英文字符使用1字节进行存储，对于中文使用2字节进行存储，同时两个字节的最高位均为1。值得注意的是，GB2312在Win32开发中常常被称作Ansi编码；其次，GBK为GB2312的扩充，GB18030为GBK的扩充。以前它们是不同的编码方式，但现在也没有严格的划分，通常三者代表同一种编码方式。
BIG-5：也是天朝用户专用编码方式，兼容ASCII码，与GB2312不同的是，它只能编码繁体字，不能编码简体字。
UTF-16/UCS-2：这两个名称所代表的是同一种编码方式，使用两个字节来存储一个中文字符或者一个字母，不兼容ASCII码。这种编码方式也划分为两种不同的子编码方式，分别为UCS-2 Big Endian与UCS2 Little Endian。常说的UTF-16或者UCS-2通常指的是UCS-2 Big Endian。这两种子编码方式的区别为，Big Endian高字节在前，低字节在后；Little Endian低字节在前，高字节在后。这种编码方式在Win32开发中常常被称作Unicode编码，但它属于一种误称；另外，这种编码方式有点浪费存储空间，并且也不能描述世界上所有的符号，相比其他编码，唯一优势是，字符串长度就等于字符个数。
UTF-8：使用最广泛的编码方式，没有之一！几乎所有的网页、XML描述文件、Json数据文件、大多数数据库以及Linux系统均使用的编码方式，相比而言GB2312、UTF-16只有在Windows平台用用而已，仗着Windows平台用的人多，所以也作为常用的编码方式，对于英文字符使用1字节进行存储，因此兼容ASCII编码；它同时也能编码世界上所有的文字，对于汉字而言这种编码方式使用3个字节进行存储，但理论上可以使用2、3、4、5或6字节来编码一个特定字符。
UTF-32/UCS-4：由于UTF-16不能编码所有的编码方式，但发明这编码的人不服，爱搞事，所以发明了4个字节来编码一个字符的编码方式，理论上可以描述世界上所有的字符，但由于一个字母都需要4个字节，过于浪费存储空间，所以这种编码方式几乎没有人使用。
以上是需要了解的编码方式，除了上面几个之外，不同地方也有他们自己的编码方式，以下为不完全统计：
西欧语系：ISO-8859-1
东欧语系：ISO-8859-2
土耳其语：ISO-8859-3
波罗的语：ISO-8859-4
斯拉夫语：ISO-8859-5
阿拉伯文：ISO-8859-6
希腊文：ISO-8859-7
希伯来文：ISO-8859-8
日文：Shift-JIS
韩文：EUC-KR
……
继续阅读C++：字符串编码与字符串