float有效数字位的问题
# float
有效数字位的问题
想要搞清楚问题,还是要先搞明白相关的概念
wiki: 有效数字 (opens new window)
wiki: Floating-point_arithmetic (opens new window)
# float.h
中的计算公式是怎么来的
- C 在
float.h
中定义了FLT_DIG
来表示float
的有效数字位,另外还有DBL_DIG
和LDBL_DIG
分别表示double
和long double
的有效数字位数, 其中的注释具体如下:
Number of decimal digits, q, such that any floating-point number with q
decimal digits can be rounded into a floating-point number with p radix b
digits and back again without change to the q decimal digits,/* Number of decimal digits, q, such that any floating-point number with q decimal digits can be rounded into a floating-point number with p radix b digits and back again without change to the q decimal digits, p * log10(b) if b is a power of 10 floor((p - 1) * log10(b)) otherwise */
1
2
3
4
5
6
7
可以用下面的程序来查看各个变量对应的值
Ubuntu 20.04.3
下gcc 9.3.0
和clang 12.0.0
的输出是相同的,可以看到float
输出的有效数字位数是6
,而不是有些地方说的7
。下面也会说明为何是6
,而不是7
代码
#include <stdio.h>
#include <stdlib.h>
#include <float.h>
int main(void)
{
printf("FLT_DIG = %d\n", FLT_DIG);
printf("DBL_DIG = %d\n", DBL_DIG);
printf("LDBL_DIG = %d\n", LDBL_DIG);
return EXIT_SUCCESS;
}
2
3
4
5
6
7
8
9
10
11
- 输出
FLT_DIG = 6
DBL_DIG = 15
LDBL_DIG = 18
2
3
个人理解
- 十进制下有效数字位
q
的计算公式如下:为相应的基底 - 对于二进制,
- 对于二进制,
为尾数对应的位数 - 此公式中
的情况比较明显,后续讨论默认
- 看描述,应该是
位有效数字 的十进制数能够 rounded into
用位尾数表示 进制数 ,而 又可以 rounded into
- Rounding wiki (opens new window)
- 中文 wiki 显示的页面的是数值修约
- Rounding wiki (opens new window)
思考过程
- 刚开始想不明白这个公式是怎么来的,后来由 stackoverflow 中这个问题的回答
number-of-significant-digits-for-a-floating-point-type (opens new window)
- 意识有效数字位与误差有关
- 再结合 wiki 有效数字 (opens new window) 中的描述
In computing
Computer representations of floating-point numbers use a form of rounding to significant figures, in general with binary numbers. The number of correct significant figures is closely related to the notion of relative error (which has the advantage of being a more accurate measure of precision, and is independent of the radix, also known as the base, of the number system used).
从精度的角度计算有效数字位
rounding to nearest
相当于四舍五入吧,因此以认为浮点表示的机器精度为- 理解上就是误差是由尾数的最后一位引入的
- 假设十进制数
转换为 位尾数的 进制浮点数表示后,再转换为十进制的对应的数为 ,则由上面引入的 wiki 中关于相对误差限的公式可得 - 假设
具有 位有效数字,则 的规范化表示形式为 - 则为了让
能四舍五入到 位有效数字的 ,要求- 此式变换可得:
- 则为了确保公式 (3) 成立,结合公式 (2) 可得
- 由公式 (4) 即可得
- 由于
为整数,可得
由 (5) 可得 (1) 式成立
# 为何有些地方说 float
的有效数字位为 7
位
问题
- 由 IEEE754(opens new window) 标准,
float
的尾数有24
位(其中有 1 位为首位隐藏位), 则由公式 (1) 可以计算得到 ,即有效数字位数为6
,那为何许多地方说有效数字位为7
呢?
从鸽笼原理的角度考虑问题
- 主要是是从下面的回答中获得的思路
why-floating-points-numbers-significant-numbers-is-7-or-6(opens new window)
进制浮点数表示的数字形式为(后续无特殊说明的情况下,认为 )- 符号:
- 尾数:
,是一个位于区间 [1, 2.0) 内的小数 - 阶码:
- 符号:
- 阶码的作用相当于是在移动小数点,对于每一个特定的阶码
, 在尾数 中二进制位(设为 )一定的前提下,其能表示的 进制的个数为 (首位不能是 ),对于二进制,也就是 。对于float
, ,即有 个不同的数字。- 当
时,表示范围在 之间, 有 个不同的二进制浮点数, 之前拥有 位有效数字的十进制数的个数为 (首位被固定为 ),可以与此范围内的二进制数一一对应。即此时,可认为float
有 位有效数字 - 当
变化时,其表示的区间为 ,但是其中的二进制个数只与尾数有关,仍只有 个。由于 的变化速度明显小于 ,可以预期有可能存在某个最差的范围,使其不能再与 位有效数字的情况的一一对应 - 当
时,就是这个最差情况的特例- 此时表示的区间范围是
, 即 ,但是其中的二进制数的个数仍为 , 即每两个二进制数之间相差为- 可以计算得到在
中的二进制数个数为 - 而在区间
中的有效数字为 位十进数(去掉未位的数字),仍有 个,此时便不能再与二进制数一一对应,而有效数字为 位的数有 个,仍能与二进制数一一对应,所以此时的有效数字位数为6
- 可以计算得到在
- 此时表示的区间范围是
- 当
由上面的分析可得:
公式 (1) 得到的结果,可以认为是最差情况下的结果
talk is cheap, show me the code
code
#include <stdio.h> #include <stdlib.h> #include <float.h> int main(void) { int a = 1; float b = 9000043000; float c = 9000042000; printf("%.f\n", b); printf("%.f\n", c); if (b == c) printf("True\n"); }
1
2
3
4
5
6
7
8
9
10
11
12
13
14output
9000042496 9000042496 True
1
2
3
# 参考
wiki: 有效数字(opens new window)
wiki: Floating-point_arithmetic(opens new window)
why-floating-points-numbers-significant-numbers-is-7-or-6(opens new window)
number-of-significant-digits-for-a-floating-point-type(opens new window) 计算机中浮点数的二进制表示