操作系统思考第五章更多的位与字节

2016-07-14 01:34:00

第五章更多的位与字节

作者：Allen B. Downey

原文：Chapter 5 More bits and bytes

译者：飞龙

协议：CC BY-NC-SA 4.0

5.1 整数的表示

你可能知道计算机以二进制表示整数。对于正数，二进制的表示法非常直接。例如，十进制的5表示成二进制是0b101。

对于负数，最清晰的表示法使用符号位来表明一个数是正数还是负数。但是还有另一种表示法，叫做“补码”（two's complement），它更加普遍，因为它和硬件配合得更好。

为了寻找一个正数的补码，-x，需要找到x的二进制表示，将所有位反转，之后加上1。例如，要表示十进制的-5，要先从十进制的5开始，如果将其写成8位的形式它是0b0000 0101。将所有位反转并加以会得到0b1111 1011。

在补码中，最左边的位相当于符号位。正数中它是0，负数中它是1。

为了将8位的数值转换为16位，我们需要对正数添加更多的0，对负数添加更多的1。实际上，我们需要将符号位复制到新的位上，这个过程叫做“符号扩展”。

在C语言中，除非你用unsigned声明它们，所有整数类型都是有符号的（能够表示正数和负数）。它们之间的差异，以及这个声明如此重要的原因，是无符号整数上的操作不使用符号扩展。

5.2 按位运算

学习C语言的人有时会对按位运算&和|感到困惑。这些运算符将整数看做位的向量，并且在相应的位上执行逻辑运算。

例如，&执行“且”运算。如果两个操作数都为1结果为1，否则为0。下面是一个在两个4位数值上执行&运算的例子：

  1100& 1010  ----  1000

C语言中，这意味着表达式12 & 10值为8。

与之相似，|执行“或”运算，如果两个操作数至少一个为1结果为1，否则为0。

  1100| 1010  ----  1110

所以表达式12 | 10值为14。

最后，^运算符执行“异或”运算，如果两个操作数其中有一个为1，而不是全部为1，结果为1。

  1100^ 1010  ----  0110

所以表达式12 ^ 10值为6。

通常，&用于清除位向量中的一些位，|用于设置位，^用于反转位。下面是一些细节：

清除位：对于任何x，x & 0值为0，x & 1值为x。所以如果你将一个向量和3做且运算，它只会保留最右边的两位，其余位都置为0。

  xxxx& 0011  ----  00xx

在这个语境中，3叫做“掩码”，因为它选择了一些位，并屏蔽了其余的位。

设置位：与之相似，对于任何x，x | 0值为x，x | 1值为1。所以如果你将一个向量与3做或运算，它会设置右边两位，其余位不变。

  xxxx| 0011  ----  xx11

反转位：最后，如果你将一个向量与3做异或运算，它会反转右边两位，其余位不变。作为一个练习，看看你能否使用^计算出12的补码。提示：-1的补码表示是什么？

C语言同时提供了移位运算符，和>>，它可以将位向左或向右移。向左每移动一位会使数值加倍，所以5 为10，5 为20。向右每移动一位会使数值减半（向下取整），所以5 >> 1为2，2 >> 1为1。

5.3 浮点数的表示

浮点数使用科学计数法的二进制形式来表示。在十进制的形式中，较大的数字写成系数与十的指数相乘的形式。例如，光速大约是2.998 * 10 8米每秒。

大多数计算机使用IEEE标准来执行浮点数运算。C语言的float类型通常对应32位的IEEE标准，而double通常对应64位的标准。

在32位的标准中，最左边那位是符号位，s。接下来的8位是指数q，最后的23位是系数c。浮点数的值为：

(-1)   s * c * 2   q

这几乎是正确的，但是有一点例外。浮点数通常为规格化的，所以小数点前方有一个数字。例如在10进制中，我们通常使用2.998 10 8而不是2998 10 5，或者任何其它等价的表示。在二进制中，规格化的浮点数通常在二进制小数点前有一个数字1。由于这个位置上的数字永远是1，我们可以将其从表示中去掉以节省空间。

例如，十进制的13表示为0b1101，在浮点数中，它就是1.011 * 2 3。所以指数为3，系数储存为101（加上20个零）。

这几乎是正确的，但是指数以“偏移”储存。在32位的标准中，偏移是127，所以指数3应该储存为130。

为了在C中对浮点数打包和解包，我们可以使用联合体和按位运算，下面是一个例子：

union {
float f;
unsigned int u;
} p;

p.f = -13.0;
unsigned int sign = (p.u >> 31) & 1;
unsigned int exp = (p.u >> 23) & 0xff;

unsigned int coef_mask = (1
这段代码位于这本书的仓库的float.c中。

联合体可以让我们使用p.f储存浮点数，之后将使用p.u当做无符号整数来读取。

为了获取符号位，我们需要将其右移31位，之后使用1位的掩码选择最右边的位。

为了获取指数，我们需要将其右移23位，之后选择最右边的8位（十六进制值0xff含有8个1）。

为了获取系数，我们需要解压最右边的23位，并且忽略掉其余位，通过构造右边23位是1并且其余位是0的掩码。最简单的方式是将1左移23位之后减1。

程序的输出如下：

11300x500000

就像预期的那样，负数的符号位为1。指数是130，包含了偏移。而且系数是101带有20个零，我用十六进制将其打印了出来。

作为一个练习，尝试组装或分解double，它使用了64位的标准。请见IEEE浮点数的维基百科。

5.4 联合体和内存错误

C的联合体有两个常见的用处。一个是就是在上一节看到的那样，用于访问数据的二进制表示。另一个是储存不同形式的数据。例如，你可以使用联合体来表示一个可能为整数、浮点、复数或有理数的数值。

然而，联合体是易于出错的，这完全取决于你，作为一个程序员，需要跟踪联合体中的数据类型。如果你写入了浮点数然后将其读取为整数，结果通常是无意义的。

实际上，如果你错误地读取内存的某个位置，也会发生相同的事情。其中一种可能的方式是越过数组的尾部来读取。

我会以这个函数作为开始来观察所发生的事情。这个函数在栈上分配了一个数组，并且以0到99填充它。

void f1() {
int i;
int array[100];

for (i=0; i

接下来我会定义一个创建小型数组的函数，并且故意访问在开头之前和末尾之后的元素：

void f2() {
int x = 17;
int array[10];
int y = 123;

printf("%d\n", array[-2]);printf("%d\n", array[-1]);printf("%d\n", array[10]);printf("%d\n", array[11]);

}
如果我一次调用f1和f2，结果如下：

171239899

这里的细节取决于编译器，它会在栈上排列变量。从这些结果中我们可以推断，编译器将x和y放置到一起，并位于数组“下方”（低地址处）。当我们越过数组的边界读取时，似乎我们获得了上一个函数调用遗留在栈上的数据。

这个例子中，所有变量都是整数，所以比较容易弄清楚其原理。但是通常当你对数组越界读取时，你可能会读到任何类型的值。例如，如果我修改f1来创建浮点数组，结果就是：

1712311201413121120272384

最后两个数值就是你将浮点数解释为整数的结果。如果你在调试时遇到这种输出，你就很难弄清楚发生了什么。

5.5 字符串的表示

字符串有时也会有相关的问题。首先，要记住C的字符串是以空字符结尾的。当你为字符串分配空间时，不要忘了末尾额外的字节。

同样，要记住C字符串中的字母和数字都编码为ASCII码。数字0~9的ASCII码是48~57，而不是0~9。ASCII码的0是NUL字符，用于标记字符串的末尾。ASCII码的1~9是用于一些通信协议的特殊字符。ASCII码的7是响铃，在一些终端中，打印它们会发出声音。

'A'的ASCII码是65，'a'是97，下面是它们的二进制形式：

65 = b0100 000197 = b0110 0001

细心的读者会发现，它们只有一位的不同。这个规律对于其余所有字符都适用。从右数第六位起到“大小写”位的作用，0表示大写字母，1表示小写字母。

作为一个练习，编写一个函数，接收字符串并通过反转第六位将小写字符转换成大写字母。作为一个挑战，你可以通过一次读取字符串的32位或64位而不是一个字符使它更快。如果字符串的长度是4或8字节的倍数，这个优化会容易实现一些。

如果你越过字符串的末尾来读取，你可能会看到奇怪的字符。反之，如果你创建了一个字符串，之后无意中将其作为整数或浮点读取，结果也难以解释。

例如，如果你运行：

char array[] = "allen";
float p = array;
printf("%f\n", p);
你会发现我的名字的前8个字符的ASCII表示，可以解释为一个双精度的浮点，它是69779713878800585457664。

关键字：c, 操作系统, #think-os#

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：业界 c 操作系统 think-os

上一篇 > 容器部署 .NET Core API
下一篇 > npm（一）：npm常用命令

华为鸿蒙与谷歌差不多同时做物联网操作系统，结果为何截然不同？

鸿蒙进入“无人区”：该如何闯关？

工业软件如何产品化?—— 以操作系统为例的经验分享

微软电脑管家来了，用新产品解决旧问题？

从炒菜到编程：升级“操作系统”

鸿蒙“底座”打好了，2024年关键在“生态”

华为鸿蒙系统，能成功吗？

华为“纯血鸿蒙”，机会和挑战都是成为苹果

鸿蒙蜕变与进击：一个国产操作系统的4年成长路

互联网大厂招兵买马，投入开发，鸿蒙操作系统的拐点，要到了

mbedTLS（PolarSSL）简单思路和函数笔记（Client端）

Wireshark EtherCAT解析插件开发日志

笨办法学C 练习28：Makefile 进阶

操作系统思考 第五章 更多的位与字节

第五章 更多的位与字节

5.1 整数的表示

5.2 按位运算

5.3 浮点数的表示

5.4 联合体和内存错误

5.5 字符串的表示

相关文章

操作系统思考第五章更多的位与字节

第五章更多的位与字节