共计 1261 个字符,预计需要花费 4 分钟才能阅读完成。
平时工作中,偶尔会有关于 Oracle 字符与字节的困惑,今天闲暇之余,特意整理一下。
术语:
位(bit):是计算机 内部数据 储存的最小单位,11001100 是一个八位二进制数。
字节(byte):是计算机中 数据处理 的基本单位,习惯上用大写 B 来表示,1B(byte, 字节)= 8bit(位)
字符:是指计算机中使用的字母、数字、字和符号
说明:
在 Oracle 中,NVARCHAR2、NCHAR 使用的是国家字符集 (NLS_NCHAR_CHARACTERSET),同时国家字符集必须
为 AL16UTF16、UTF8 两个中的一个;其他的字符类型使用的是 标准字符集 (NLS_CHARACTERSET), 例如该库的字符集查询 如下:
测试
(1) 首先在 数据库字符集为 ZHS16GBK,国家字符集为 UTF8 进行测试:
建一张测试表并插入数据:
create table t_var(va nvarchar2(32),vb varchar2(32));
insert into t_var values(‘ 你好 ’,’ 你好 ’);
insert into t_var values(‘hello’,’hello’);
此时我们查询:
测试结果:
a. 当字符类型使用标准 字符集为 ZHS16GBK 时,一个英文字符占一个字节,一个中文字符占两个字节;
b. 当 字符类型使用 国家字符集为 UTF8 时,一个英文字符占一个字节,一个中文字符占三个字节;
(2) 然后我们在另一个库标准字符集为 ZHS16GBK,国家字符集为 AL16UTF16 时,再进行以上相同的测试:
测试结果:
a. 当字符类型使用标准 字符集为 ZHS16GBK 时,一个英文字符占一个字节,一个中文字符占两个字节;
b. 当 字符类型使用 国家字符集为 AL16UTF16 时,一个 英文字符占两个字节,一个中文字符占两个字节;
以上是一个简单的测试过程,说明当我们当我们选择不同的字符类型时,一个字符所占的字节是不一样的,这可能会对我们使用一些字符处理的函数时造成影响。
此外,我们在日常工作中,也许看到过以下的字符长度定义的写法:
varchar2(32)
varchar2(32 char)
varchar2(32 byte)
这三种定义方法都是正确的,只不过它表示的意思是不一样的:
varchar2(32 char):指定了字符串最大长度是 32 位,不管是中文还是英文,最大存储长度是 32 位;
varchar2(32 byte):指定了字符串所占的最长字节数为 32,例如允许存储中文最多 16 个,英文 32 个;
varchar2(32):未明确指定字符串最大长度的度量是以 byte 为准,还是以 char 为准,此时起决定作用的是
参数 NLS_LENGTH_SEMANTICS;
在测试库中查询该参数如下:
可以看到数据库默认的字符串长度的度量是 BYTE。
更多 Oracle 相关信息见 Oracle 专题页面 https://www.linuxidc.com/topicnews.aspx?tid=12
: