Unix 版本 5 使用什么校验和算法？

Question

一开始我以为是简单的字节模2^16之和

它是一个sum mod 2^16，只是每次溢出时都会加1。此外，在添加到总和之前，字节将被符号扩展。这是程序集中的“注释”片段：

# r2 is the pointer into the data
# r0 is the length of the data
# r5 is the sum
2:
        movb    (r2)+,r4    # r4 = sign_extend(*r2++)
        add     r4,r5       # r5 += r4
        adc     r5          # if(r5 overflowed) r5++
        sob     r0,2b       # if(--r0) goto 2 above

将同样的内容放入一个小型 C 程序中（使用 as ./v5sum < file）：

#include <stdio.h>
int main(void){
        int c, s = 0;
        while((c = getchar()) != EOF){
                s += c & 0x80 ? c | 0xff00 : c; // alternative: s += (unsigned short)(signed char)c
                if(s & 0x10000){ s++; s &= 0xffff; };
        }
        printf("%d\n", s);
        return 0;
}

更具体地说， cksum -o 2 和 Unix V5 的 sum 为模拟器中的大多数二进制文件（例如，在文件夹 /bin 中）产生不同的输出，尽管它们在大多数文本文件上是一致的。

这是因为原始的 unix v5sum会对字符进行符号扩展，并且只有二进制文件包含 >= 0x80 的字节。否则，算法应该是相似的，仅在非常大的文件上有所不同（其中字符的总和将溢出 32 位无符号整数）。

Answer 1