字符编码是什么？你的电脑靠它读懂每一个字

📅 2026-06-15 🏷 百科 · 字符编码 · UTF-8 · Unicode · ASCII · 互联网基础

字符编码是计算机理解文字的基础规则。本文用通俗语言解释UTF-8、Unicode、ASCII的概念和区别，帮你搞懂为什么会出现乱码以及如何解决。

字符编码是什么？从"汉字存不进记事本"说起

你有没有遇到过这种情况：用记事本打开一个中文文档，满屏幕都是类似 鎺ㄨ崘 这样的乱码？

乱码的本质只有一个——你的电脑读文字用的编码规则，和写这段文字的编码规则不一致。

字符编码就是一套"字典"：规定每个字符对应哪一串二进制数字。计算机只认识 0 和 1，它必须通过这套字典，才知道二进制串 01000001 代表的是字母 A，而不是某个奇怪的符号。

没有字符编码，你的键盘敲出的每个字符都会变成一堆无人能懂的 01 串。

为什么需要那么多套编码？

最早的电脑是美国人发明的，他们只需要表示英文字母、数字和一些标点符号——加起来大概 128 个字符就够了。于是 1963 年出现了 ASCII 码：用 7 位二进制（0-127）表示这 128 个字符。

比如：

A → 01000001（十进制 65）
a → 01100001（十进制 97）
0 → 00110000（十进制 48）

这套编码很简单，够用。但当电脑传播到全世界，问题来了——

中文有上万个常用字
日文有平假名、片假名
俄文、阿拉伯文、印度文各自有一套字母

ASCII 的 128 个位置根本不够分。于是各国纷纷制定了自己的编码标准：

中国 → GB2312（后来升级为 GBK、GB18030）
日本 → Shift-JIS
韩国 → EUC-KR
欧洲 → ISO-8859 系列

每个编码各自为政。问题来了：如果一个文件同时包含中文和日文，用哪种编码打开？

这就是乱码的根源。

Unicode：全球统一的"字符字典"

1991 年，一个叫 Unicode 联盟的组织站出来说：别再各搞各的了，我们来建一个全球统一的字符集。

Unicode 的做法很简单：给世界上每一个字符分配一个唯一的编号，叫 码位（Code Point）。

A → U+0041
中 → U+4E2D
日 → U+65E5
❤ → U+2764

不管你在哪里，中 的码位永远是 U+4E2D。这就解决了"万国码"的问题——一个编码搞定全世界所有文字。

但这里有一个关键的区别：Unicode 只是一个编号系统，它规定了"每个字符对应什么编号"，但没有规定"这个编号在计算机里怎么存储"。

这就是 UTF-8 出场的地方。

UTF-8：互联网的标准编码

UTF-8 是 Unicode 的一种实现方式，也是目前互联网上使用最广泛的字符编码。

它的核心设计哲学是：向后兼容 ASCII。

什么意思？如果一个文件只包含纯英文字母，UTF-8 编码和 ASCII 编码完全一样。所以你拿一个纯英文的 ASCII 文件用 UTF-8 打开，一切正常——因为规则没变。

UTF-8 使用可变长度编码：

英文字符 → 1 字节（跟 ASCII 完全一样）
欧洲字符（德语、法语等带重音的字母）→ 2 字节
中文、日文、韩文 → 3 字节
部分生僻字、表情符号 → 4 字节

举个例子，“Hello 你好"用 UTF-8 存储是这样的：

字符	UTF-8 字节（十六进制）	字节数
H	48	1
e	65	1
l	6C	1
l	6C	1
o	6F	1
（空格）	20	1
你	E4 BDA0	3
好	E5 A5 BD	3

注意：英文字母只占 1 个字节，中文每个字占 3 个字节。英文越多，文件越小。这就是 UTF-8 受欢迎的原因之一。

常见编码对比

编码	特点	适用场景
ASCII	只支持英文，7位	早期英文系统、基础网络协议
GBK	中文双字节编码，兼容 ASCII	中国大陆旧系统、Windows 中文版
UTF-8	可变长度，兼容 ASCII，支持全球文字	现代网站、APP、跨平台文件
UTF-16	固定2或4字节，Windows 内部常用	某些操作系统内部处理

简单记忆：现在遇到编码问题，99% 的情况切到 UTF-8 就能解决。

乱码怎么出现？怎么解决？

最常见的三种乱码场景

场景一：用错误的编码打开文件

比如一个用 GBK 编码保存的中文文件，你用只认 UTF-8 的工具打开——出来的就是一堆乱码。

解决办法：在打开文件时手动指定编码。大多数编辑器和命令行工具都支持 -e 或 --encoding 参数。用 navbox 的文本处理工具也可以批量转换编码。

场景二：网页没有声明编码

网页的 HTML 文件如果没有写 <meta charset="UTF-8">，浏览器会用自己的猜谜游戏来判定编码——猜错了就是乱码。

解决办法：联系网站管理员添加 charset 声明。如果是自己的网站，永远在 HTML 头部加上 <meta charset="UTF-8">。

场景三：数据传输过程中编码不一致

比如数据库用 UTF-8 保存数据，但程序连接数据库时没有声明 UTF-8，拿到的就是乱码。

解决办法：在所有连接字符串、API 请求头里明确声明编码。比如 HTTP 请求头加 Content-Type: text/plain; charset=utf-8。

UTF-8 和 Unicode 的关系

很多人会把 UTF-8 和 Unicode 混为一谈。它们的关系是这样的：

Unicode 是字典（规定了每个字符的编号） UTF-8 是翻译规则（规定了编号在计算机里怎么存）

就像"汉字"是一个文字系统，UTF-8 是存储汉字的一种方法。除了 UTF-8，Unicode 还可以用 UTF-16、UTF-32 等方式存储。

但 99% 的情况下，你说"Unicode”，其实指的就是"UTF-8 编码的 Unicode 字符"。

为什么你的程序偶尔会报"UnicodeDecodeError"？

Python 开发者最常遇到的错误之一：

UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 0-2:
invalid continuation byte

这个错误的意思是：你告诉 Python 这段数据是 UTF-8 编码，但数据实际上不是。 就像你拿着英文字典去读中文报纸，当然对不上号。

常见原因：

读取了用 GBK 保存的中文文件，但没有指定编码
从数据库读取的字节没有正确解码
网络请求返回的编码声明有误

常见解法：

# 错误写法
with open("data.txt") as f:
    text = f.read()

# 正确写法
with open("data.txt", encoding="utf-8") as f:
    text = f.read()

# 不确定编码时，先试试 utf-8，不行再 fallback
try:
    with open("data.txt", encoding="utf-8") as f:
        text = f.read()
except UnicodeDecodeError:
    with open("data.txt", encoding="gbk") as f:
        text = f.read()

总结

字符编码是计算机世界的"语言规则"。ASCII 是最早的英文编码，Unicode 是统一的全球字符集，UTF-8 是目前最主流的存储方式。

记住这三点就够了：

Unicode 负责编号，UTF-8 负责存储
UTF-8 兼容 ASCII，英文文件用 UTF-8 打开完全没问题
遇到乱码，第一反应：检查编码是否一致

你的代码、网站、数据文件——全都依赖字符编码。搞懂它，你就搞懂了计算机处理文字的第一道关卡。

下次看到网页乱码，别慌。右键"查看页面源代码"，找找 <meta charset> 那一行——通常问题就在那儿。