Posted on 2008-03-04 22:13
Wang Jinbo 阅读(4454)
评论(11) 编辑 收藏 引用 所属分类:
算法与数学
Hash Table(哈希表)就是根据对象的特征进行定位的一种数据结构。一个简单的实现方法是将对象通过某种运算得到一个整数,再让这个整数除以哈希表的大小,取其余数,以此作为对象的存储位置。
很多的书上认为,哈希表的大小最好是选择一个大的质数,并且最好不要和2的整数幂接近。《算法导论》上还认为,最不好的选择是哈希表的大小恰好是2的整数幂,对此的解释是(只记得大意):因为计算机是用二进制存储的,当一个二进制数除以一个2的整数幂的时候,结果就是这个二进制数的后几位,前面的位都丢失了,也就意味着丢失了一部分信息,进而导致哈希表中的元素分布不均匀。
这个解释看似合理,但我不认同。不光是我,Java开发小组的人也不认同。Java里的HashSet类偏偏就把哈希表的大小设置成2的整数幂。可以设想一下,对于自然数集合中的任意一个数x,对于一个正整数M,难道x mod M为某些值的概率会大些吗?显然不是,因为x是在自然数集合里任选的,当选取的次数非常多时,x mod M的结果应该是平均分布在[0,M-1]中。我认为《算法导论》的错误在于先引入了二进制,其实二进制和哈希表的“碰撞”根本没有什么关系;然后说对除以2^n的余数会丢失位,丢失信息,这显然也不对,因为只要x>=M,x mod M的结果总是要“丢失一些信息的”。照《算法导论》的说法,如果计算机采用十进制,那哈希表的容量是10^n的话岂不是很糟?这种解释显然站不住脚。
我认为对于x mod M这样的哈希函数来说,好坏应该取决于x的生成方式和M的值。比如一个字符串“ABC”,如果我让x("ABC")=65*128^2+66*128+67,即把字符串当成一个128进制的整数,那么若M=128,那就很糟糕了。因为这样无论是什么字符串,最终结果只取决于最后一个字符,这才会造成分布不均匀。
以上只是我个人的见解,有不妥之处欢迎指出。
Feedback
# re: 关于哈希表——一个常见的谬误 回复 更多评论
2008-03-04 23:15 by
吹毛求疵一下:hash应该译为散列。
哈希这个译法显然是当年初译者误以为人名了。
# re: 关于哈希表——一个常见的谬误 回复 更多评论
2008-03-05 00:27 by
楼主理解很正确,假如10进制的话, 10^n 次方就不好,任意非素数都可以表示为 m1^n1 * m2^n2 * m3^n3 .... 所以说素数比其他的数字更加适合啊。
不过对于计算机,2^n 次方的确是很糟的hash size, 想想你对ip地址,对内存地址求hash吧...
不过MOD的hash方法的确有缺陷,linux kernel里面用的乘以一个大素数然后取高位的方法比这个好多了
# re: 关于哈希表——一个常见的谬误 回复 更多评论
2008-03-05 00:29 by
BTW 我敢肯定java里面HashSet类没有使用单纯求余的方法来算hash
# re: 关于哈希表——一个常见的谬误[未登录] 回复 更多评论
2008-03-05 08:46 by
java里的hash是乘以31的:hash=hash<<5-hash+ch。
据说就英文而言,乘以33的是最优的:hash=hash<<5+hash+ch,这个也是apache stl等一大堆著名项目或库的hash方式。
特定应用而言,还是要根据特定的数据,设计最优的hash函数。
# re: 关于哈希表——一个常见的谬误 回复 更多评论
2008-03-05 08:56 by
上面的语句外面都是foreach(ch in str){}。
hash表的数量 应该不是影响hash的因素吧 想不出来原因。貌似一般都把hash表的桶数量设置的很大,是实际使用到的3倍多。
# re: 关于哈希表——一个常见的谬误 回复 更多评论
2008-03-05 11:25 by
同意楼主的见解。
# re: 关于哈希表——一个常见的谬误 回复 更多评论
2008-03-05 17:11 by
说的有一些道理,感觉hash表的大小还是要根据实际情况来选取。
# re: 关于哈希表——一个常见的谬误 回复 更多评论
2008-04-18 15:12 by
有理, 对于mod的方法,确实与素数无关。
大于mod值的所谓信息只能“丢失”,只保留小于mod值的那些“位”。
要降低这个影响,在散列函数的计算过程中,这些低位所代表的信息也要能体现输入。比如对于字符串的散列函数, 最好能够把高位的字符串折回到低位去,这样即使取余,也会保证均匀性,只不过,有一个元素对于桶的密度会增大。
能力有限, 太形式化的描述,不会。
# re: 关于哈希表——一个常见的谬误 回复 更多评论
2008-08-18 19:46 by
关于这个,我也认为和2的幂数无关。但是这可能跟哈希函数的设计有关,怎么说呢,很多哈希函数的设计本身是根据二进制进行的,所以《算法导论》才会得出丢失信息的结论。
不过最好还是用大数据测试比较下。
# re: 关于哈希表——一个常见的谬误 回复 更多评论
2008-10-19 18:23 by
哎,楼主的思维还不够严谨……
“如果计算机采用十进制,那哈希表的容量是10^n的话岂不是很糟?”
给1234,容量是10,求余得4,仅由最后一位得出,前面的数直接被无视了,而对9求余就不是这样了。
“不光是我,Java开发小组的人也不认同。”
你知道他们用的散列函数仅仅是求余?他们二者的思想没有矛盾,是你纠结的这个矛盾。
楼主的质疑态度还是很好的。
欢迎批评我:phoenix.0220@gmail.com
# re: 关于哈希表——一个常见的谬误 回复 更多评论
2009-03-25 16:33 by
正好看到《算法导论》中的hash table部分
我想《算法导论》中说表的大小不应为2的整数次方,应该是有针对性的,不是普遍的规律。