C++博客-elva-随笔分类-数据结构

QuickSort

叶子 — Tue, 02 Nov 2010 08:24:00 GMT

快速排序(QuickSort)

1、算法思想
　快速排序是C.R.A.Hoare于1962年提出的一种划分交换排序。它采用了一种分治的策略，通常称其为分治法(Divide-and-ConquerMethod)。

（1）分治法的基本思想
　分治法的基本思想是：将原问题分解为若干个规模更小但结构与原问题相似的子问题。递归地解这些子问题，然后将这些子问题的解组合为原问题的解。

（2）快速排序的基本思想
        　设当前待排序的无序区为R[low..high]，利用分治法可将快速排序的基本思想描述为：
①分解：
        　在R[low..high]中任选一个记录作为基准(Pivot)，以此基准将当前无序区划分为左、右两个较小的子区间R[low..pivotpos-1)和R[pivotpos+1..high]，并使左边子区间中所有记录的关键字均小于等于基准记录(不妨记为pivot)的关键字pivot.key，右边的子区间中所有记录的关键字均大于等于pivot.key，而基准记录pivot则位于正确的位置(pivotpos)上，它无须参加后续的排序。
    注意：
        　划分的关键是要求出基准记录所在的位置pivotpos。划分的结果可以简单地表示为(注意pivot=R[pivotpos])：
        　R[low..pivotpos-1].keys≤R[pivotpos].key≤R[pivotpos+1..high].keys
                                    其中low≤pivotpos≤high。
②求解：
      　   通过递归调用快速排序对左、右子区间R[low..pivotpos-1]和R[pivotpos+1..high]快速排序。
③组合：
        　因为当 "求解 "步骤中的两个递归调用结束时，其左、右两个子区间已有序。对快速排序而言， "组合 "步骤无须做什么，可看作是空操作。

2、快速排序算法QuickSort
    void   QuickSort(SeqList   R，int   low，int   high)
      {   //对R[low..high]快速排序
          int   pivotpos；   //划分后的基准记录的位置
          if(low                 pivotpos=Partition(R，low，high)；   //对R[low..high]做划分
                QuickSort(R，low，pivotpos-1)；   //对左区间递归排序
                QuickSort(R，pivotpos+1，high)；   //对右区间递归排序
            }
        }   //QuickSort

注意：
　为排序整个文件，只须调用QuickSort(R，1，n)即可完成对R[l..n]的排序。

3、划分算法Partition
（1）简单的划分方法
① 具体做法
　　第一步：(初始化)设置两个指针i和j，它们的初值分别为区间的下界和上界，即i=low，i=high；选取无序区的第一个记录R[i](即R[low])作为基准记录，并将它保存在变量pivot中；
　　第二步：令j自high起向左扫描，直到找到第1个关键字小于pivot.key的记录R[j]，将R[j])移至i所指的位置上，这相当于R[j]和基准R[i](即pivot)进行了交换，使关键字小于基准关键字pivot.key的记录移到了基准的左边，交换后R[j]中相当于是pivot；然后，令i指针自i+1位置开始向右扫描，直至找到第1个关键字大于pivot.key的记录R[i]，将R[i]移到i所指的位置上，这相当于交换了R[i]和基准R[j]，使关键字大于基准关键字的记录移到了基准的右边，交换后R[i]中又相当于存放了pivot；接着令指针j自位置j-1开始向左扫描，如此交替改变扫描方向，从两端各自往中间靠拢，直至i=j时，i便是基准pivot最终的位置，将pivot放在此位置上就完成了一次划分。

②一次划分过程
　一次划分过程中，具体变化情况【参见动画演示】

③划分算法：
    int   Partition(SeqList   R，int   i，int   j)
        {//调用Partition(R，low，high)时，对R[low..high]做划分，
          //并返回基准记录的位置
            ReceType   pivot=R[i]；   //用区间的第1个记录作为基准   '
            while(i                 while(i =pivot.key)   //pivot相当于在位置i上
                    j--；   //从右向左扫描，查找第1个关键字小于pivot.key的记录R[j]
                if(i                         R[i++]=R[j]；   //相当于交换R[i]和R[j]，交换后i指针加1
                while(i                         i++；   //从左向右扫描，查找第1个关键字大于pivot.key的记录R[i]
                if(i pivot.key
                        R[j--]=R[i];   //相当于交换R[i]和R[j]，交换后j指针减1
              }   //endwhile
            R[i]=pivot；   //基准记录已被最后定位
            return   i；
        }   //partition

4、快速排序执行过程
        　快速排序执行的全过程可用递归树来描述。
（图省略）
分析：
        　（1）递归执行的路线如图中带箭头的包络线所示。
　         （2）   递归树上每一结点左旁方括号表示当前待排序的区间，结点内的关键字是划分的基准关键字
    注意：
　         叶结点对应的子区间只有一个关键字，无须划分，故叶结点内没有基准关键字
　　（3）   划分后得到的左、右两个子区间分别标在该结点的左、右两个孩子结点的左边方括号内。
【例】根结点左旁方括号[49，38，65，97，76，13，27，49]表示初始待排序的关键字，根内的49表示所选的划分基准记录的关键字，划分结果是[27，28，13]49[76，97，65，49_]，其左右子区间分别标在根结点的两个孩子的左边。
　         （4）   每个分支结点右旁圆括号中的内容表示对该结点左旁区间的排序过程结束之后返回的结果。它是其左右孩子对应的区间排序完成之后，将左右孩子对应的排序结果分别放在该分支结点的关键字前后所得到的关键字序列。
【例】分支结点76的左右孩子对应的区间排序后的结果分别是(49_，65)和(97)，将它们分别放在76的前后即得(49，65，76，97)，这是对结点76左旁区间[76，97，，65，49]排序的结果。
　         （5）   算法的执行顺序是递归树中的箭头顺序，实际上当把划分操作视为访问结点的操作时，快速排序的执行过程相当于是先序遍历其递归树。
    注意：
        　任何递归算法均可用递归树来描述其执行过程。

5、快速排序各次划分后的状态变化
[49   38   65   97   76   13   27   49]   //初始关键字
[27   38   13]   49   [76   97   65   49]   //第1次划分完成之后，对应递归树第2层
[13]   27   [38]   49   [49   65]   76   [97]   //对上一层各无序区划分完成后，对应递归树第3层
13   27   38   49   49   [65]   76   97   //对上一层各无序区划分完成后，对应递归树第4层
13   27   38   49   49   65   76   97   //最后的排序结果

6、算法分析
　快速排序的时间主要耗费在划分操作上，对长度为k的区间进行划分，共需k-1次关键字的比较。

（1）最坏时间复杂度
        　最坏情况是每次划分选取的基准都是当前无序区中关键字最小(或最大)的记录，划分的结果是基准左边的子区间为空(或右边的子区间为空)，而划分所得的另一个非空的子区间中记录数目，仅仅比划分前的无序区中记录个数减少一个。
        　因此，快速排序必须做n-1次划分，第i次划分开始时区间长度为n-i+1，所需的比较次数为n-i(1≤i≤n-1)，故总的比较次数达到最大值：
                              Cmax   =   n(n-1)/2=O(n2)
        　如果按上面给出的划分算法，每次取当前无序区的第1个记录为基准，那么当文件的记录已按递增序(或递减序)排列时，每次划分所取的基准就是当前无序区中关键字最小(或最大)的记录，则快速排序所需的比较次数反而最多。

（2）   最好时间复杂度
        　在最好情况下，每次划分所取的基准都是当前无序区的 "中值 "记录，划分的结果是基准的左、右两个无序子区间的长度大致相等。总的关键字比较次数：
                0(nlgn)
注意：
        　用递归树来分析最好情况下的比较次数更简单。因为每次划分后左、右子区间长度大致相等，故递归树的高度为O(lgn)，而递归树每一层上各结点所对应的划分过程中所需要的关键字比较次数总和不超过n，故整个排序过程所需要的关键字比较总次数C(n)=O(nlgn)。
        　因为快速排序的记录移动次数不大于比较的次数，所以快速排序的最坏时间复杂度应为0(n2)，最好时间复杂度为O(nlgn)。

（3）基准关键字的选取
　在当前无序区中选取划分的基准关键字是决定算法性能的关键。
　　① "三者取中 "的规则
　 "三者取中 "规则，即在当前区间里，将该区间首、尾和中间位置上的关键字比较，取三者之中值所对应的记录作为基准，在划分开始前将该基准记录和该区伺的第1个记录进行交换，此后的划分过程与上面所给的Partition算法完全相同。

　　②取位于low和high之间的随机数k(low≤k≤high)，用R[k]作为基准
　选取基准最好的方法是用一个随机函数产生一个取位于low和high之间的随机数k(low≤k≤high)，用R[k]作为基准，这相当于强迫R[low..high]中的记录是随机分布的。用此方法所得到的快速排序一般称为随机的快速排序。具体算法【参见教材】
注意：
　随机化的快速排序与一般的快速排序算法差别很小。但随机化后，算法的性能大大地提高了，尤其是对初始有序的文件，一般不可能导致最坏情况的发生。算法的随机化不仅仅适用于快速排序，也适用于其它需要数据随机分布的算法。

（4）平均时间复杂度
　尽管快速排序的最坏时间为O(n2)，但就平均性能而言，它是基于关键字比较的内部排序算法中速度最快者，快速排序亦因此而得名。它的平均时间复杂度为O(nlgn)。

（5）空间复杂度
　快速排序在系统内部需要一个栈来实现递归。若每次划分较为均匀，则其递归树的高度为O(lgn)，故递归后需栈空间为O(lgn)。最坏情况下，递归树的高度为O(n)，所需的栈空间为O(n)。

（6）稳定性
　快速排序是非稳定的，例如[2，2，1]。

转自：
http://www.360doc.com/content/10/1025/15/4161063_63868950.shtml

叶子 2010-11-02 16:24 发表评论

shellsort之二

叶子 — Mon, 01 Nov 2010 10:08:00 GMT

转自：
http://blog.sina.com.cn/s/blog_61e439e50100mfe8.html

希尔排序(shellsort)又叫增量递减(diminishing increment)排序，是由D.L. Shell发明的，这个算法是通过一个逐渐减小的增量使一个数组逐渐趋近于有序从而达到排序的目的，该算法由1959年公布。

最差时间复杂度：根据步长序列的不同而不同。已知最好的: O(nlog²n)

最优时间复杂度：O(n)

平均时间复杂度：根据步长序列的不同而不同。

原始的算法实现在最坏的情况下需要进行O(n2)的比较和交换。V. Pratt的书[1] 对算法进行了少量修改，可以使得性能提升至O(n log2 n)。这比最好的比较算法的O(n log n)要差一些。

希尔排序通过将比较的全部元素分为几个区域来提升插入排序的性能。这样可以让一个元素可以一次性地朝最终位置前进一大步。然后算法再取越来越大的步长进行排序，算法的最后一步就是普通的插入排序，但是到了这步，需排序的数据几乎是已排好的了（此时插入排序较快）。

假设有一个很小的数据在一个已按升序排好序的数组的末端。如果用复杂度为O(n2)的排序（冒泡排序或插入排序），可能会进行n次的比较和交换才能将该数据移至正确位置。而希尔排序会用较大的步长移动数据，所以小数据只需进行少数比较和交换即可到正确位置。

一个更好理解的希尔排序实现：将数组列在一个表中并对列排序（用插入排序）。重复这过程，不过每次用更长的列来进行。最后整个表就只有一列了。将数组转换至表是为了更好地理解这算法，算法本身仅仅对原数组进行排序（通过增加索引的步长，例如是用i += step_size而不是i++）。

例如，假设有这样一组数[ 13 14 94 33 82 25 59 94 65 23 45 27 73 25 39 10 ]，如果我们以步长为5开始进行排序，我们可以通过将这列表放在有5行的表中来更好地描述算法，这样他们就应该看起来是这样：

13 14 94 33 82

25 59 94 65 23

45 27 73 25 39

然后我们对每行进行排序：

10 14 73 25 23

13 27 94 33 39

25 59 94 65 82

当我们以单行来读取数据时我们得到：[ 10 14 73 25 23 13 27 94 33 39 25 59 94 65 82 45 ].这时10已经移至正确位置了，然后再以3为步长进行排序：

10 14 73

25 23 13

27 94 33

39 25 59

94 65 82

排序之后变为：

10 14 13

25 23 33

27 25 59

39 65 73

45 94 82

最后以1步长进行排序（此时就是简单的插入排序了）。

步长的选择是希尔排序的重要部分。只要最终步长为1任何步长序列都可以工作。算法最开始以一定的步长进行排序。然后会继续以一定步长进行排序，最终算法以步长为1进行排序。当步长为1时，算法变为插入排序，这就保证了数据一定会被排序。

算法如下

#include

void output_array(int data[], int n)

{

int i;

for(i = 0; i < n; i++)

printf("%d ", data[i]);

printf("\n");

}

void swap(int *a, int *b)

{

int x;

x = *a;

*a = *b;

*b = x;

}

void insertion_sort(int data[], int n, int increment)

{

int i, j;

for(i = increment; i < n; i += increment)

for(j = i; j >= increment && data[j] > data[j - increment]; j -= increment)

swap(&data[j], &data[j - increment]);

}

void shellsort(int data[], int n)

{

int i, j;

for(i = n / 2; i > 2; i /= 2)

for(j = 0; j < i; j++)

insertion_sort(data + j, n - j, i);

insertion_sort(data, n, 1);

}

int main()

{

int data[] = {5, 3, 1, 665, 77, 66, 44, 11, 10, 9, 8, 6};

output_array(data, 12);

shellsort(data, 12);

output_array(data, 12);

return 0;

}

叶子 2010-11-01 18:08 发表评论

shellsort之三

叶子 — Mon, 01 Nov 2010 10:08:00 GMT

网站: JavaEye 作者: shenyu 链接： http://shenyu.javaeye.com/blog/189563 发表时间: 2008年05月05日

声明：本文系JavaEye网站发布的原创博客文章，未经作者书面许可，严禁任何网站转载本文，否则必将追究法律责任！

插入排序对基本有序的数组效果非常好，但是对于通常情况则表现一般。假设最小的数字在最右边，升序排序时，这个数则要经过n次交换比较换到最左边。希尔排序则是对插入排序的很好的修正。而且在希尔排序很少出现最坏状况。

希尔排序通过对数组以一定间隔相隔的位置进行插入排序，以达到让数据快速出现在它应该出现的位置的周围，使数组逐步接近基本有序。随着间隔的减少，数组越来越接近基本有序，最后间隔为1时，变成标准的插入排序。

数据的间隔有多种算法，一般要求间隔序列之间互质，此处使用Kunth序列：h = h * 3 + 1

希尔排序的时间效率很难从理论上证明，实验表明大约是O(n^(3/2)) ~ O(n^(7/6))之间。

代码如下：

class Shell {
public static void main(String[] args) {
int[] a = {9,8,7,6,5,4,3,2,1};
sort(a);
println(a);
}
private static void println(int[] a) {
for(int i: a) System.out.print(i + " ");
System.out.println();
}
private static void sort(int[] a) {
int h = 1;
while(h <= a.length/3) h = h * 3 + 1;	//产成Kunth序列
while(h > 0) {
for(int i = h; i < a.length; i++) {	//对每个数据进行间隔为h的插入排序
int pos = i;
int temp = a[i];
while(pos >= h && a[pos - h] > temp) {
a[pos] = a[pos-h];
pos -= h;
}
a[pos] = temp;
}
h = (h - 1) / 3;	//减小间隔值
}
}
}

叶子 2010-11-01 18:08 发表评论

shellsort之一

叶子 — Mon, 01 Nov 2010 10:06:00 GMT

转自：
http://apps.hi.baidu.com/share/detail/15570437

基本思想

先取一个小于n的整数d1作为第一个增量，把文件的全部记录分成d1个组。所有距离为dl的倍数的记录放在同一个组中。先在各组内进行直接插人排序；然后，取第二个增量d2

算法实现(Java语言)

package org.shirdrn.internal.sort;

/**
*

希尔排序算法类
*

基本思想：
*

先取一个小于n的整数d1作为第一个增量，把文件的全部记录分成d1个组。所有距离为dl的
* 倍数的记录放在同一个组中。先在各组内进行直接插人排序；然后，取第二个增量d2* 述的分组和排序，直至所取的增量dt=1(dt* 直接插入排序为止。
*

该方法实质上是一种分组插入方法。
*
* @author shirdrn
*
*/
public class ShellSort {

private Integer[] array;

public ShellSort(Integer[] array) {
   this.array = array;
}

public void sort() {
   int d = array.length;
   do {
    d /= 2;
    shellPass(d); // 根据逐渐减小的间隔增量，循环调用一趟排序
   }while(d>1);
}

/**
* 希尔一趟排序
*
* @param d 间隔增量
*/
private void shellPass(int d) {
   Integer tmp;
   for(int i=d; i    tmp = array[i]; // array[i]的拷贝
    // 如果待处理的无序区第一个元素array[i] < 有序区最大的元素array[i-d]
    // 需要将有序区比array[i]大的元素向后移动
    if(array[i]     int j=i-d;
     while(j>=0 && tmp      array[j+d] = array[j]; // 将左侧有序区中元素比array[i]大的array[j+d]后移
      j -= d;
     }
     // 如果array[i] >= 左侧有序区最大的array[i-d]，或者经过扫描移动后，找到一个比array[i]小的元素
     // 将右侧无序区第一个元素tmp = array[i]放到正确的位置上
     array[j+d] = tmp;
    }
   }
}

/**
* 输出数组元素
*/
public String print() {
   StringBuffer sb = new StringBuffer();
   for(int i=0; i    sb.append(array[i]);
    if(i != array.length-1) {
     sb.append(", ");
    }
   }
   return sb.toString();
}
}

排序过程

希尔排序的过程如下：

首先初始化间隔d为待排序数组的长度，无需排序。

减小d，对于每次得到的间隔d，执行多组排序，使得原始数组间隔为d的一个子数组为有序，该数组通过类似直接插入排序的算法来执行排序。

直到，d减小为1的时候，整个数组为有序。这里，采用二分的策略来得到间隔d。

执行希尔排序的过程示例如下：

假设待排序数组为array = {94,12,34,76,26,9,0,37,55,76,37,5,68,83,90,37,12,65,76,49}，数组大小为20。

首先，初始化d = 20。在循环中反复得到间隔d，根据d执行一趟希尔排序。

对于d = 20/2 = 10：

根据d = 10来对数组排序，将原始数组分成2块： {94,12,34,76,26,9,0,37,55,76}与{37,5,68,83,90,37,12,65,76,49}，也就是对如下数组分别进行直接插入排序：

{array[0],array[10]} = {94,37}

{array[1],array[11]} = {12,5}

{array[2],array[12]} = {34,68}

{array[3],array[13]} = {76,83}

{array[4],array[14]} = {26,90}

{array[5],array[15]} = {9,37}

{array[6],array[16]} = {0,12}

{array[7],array[17]} = {37,65}

{array[8],array[18]} = {55,76}

{array[9],array[19]} = {76,49}

第一趟希尔排序后，各个子数组变为：

{37,5,34,76,26,9,0,37,55,49}与{94,12,68,83,90,37,12,65,76,76}，

即：array = {37,5,34,76,26,9,0,37,55,49,94,12,68,83,90,37,12,65,76,76}，

对于d = 10/2 = 5：

根据d = 5来对数组排序，将第一趟希尔排序后的数组分成4块：{37,5,34,76,26}、{9,0,37,55,49}、{94,12,68,83,90}与{37,12,65,76,76}，也就是对如下数组分别进行直接插入排序：

{array[0],array[5],array[10],array[15]} = {37,9,94,37}

{array[1],array[6],array[11],array[16]} = {5,0,12,12}

{array[2],array[7],array[12],array[17]} = {34,37,68,65}

{array[3],array[8],array[13],array[18]} = {76,55,83,76}

{array[4],array[9],array[14],array[19]} = {26,49,90,76}

第二趟希尔排序后，各个子数组变为：

{9,0,34,55,26}、{37,5,37,76,49}、{37,12,65,76,76}与{94,12,68,83,90}，

即：array = {9,0,34,55,26,37,5,37,76,49,37,12,65,76,76,94,12,68,83,90}。

对于d = 5/2 = 2：

根据d = 2来对数组排序，将第二趟希尔排序后的数组分成10块： {9,0}、{34,55}、{26,37}、{5,37}、{76,49}、{37,12}、{65,76}、{76,94}、{12,68}与{83,90}，也就是对如下数组分别进行直接插入排序：

{array[0],array[2],array[4],array[6],array[8],array[10],array[12],array[14],array[16],array[18]} = {9,34,26,5,76,37,65,76,12,83}

{array[1],array[3],array[5],array[7],array[9],array[11],array[13],array[15],array[17],array[19]} = {0,55,37,37,49,12,76,94,68,90}

第三趟希尔排序后，各个子数组变为：{5,0}、{9,12}、{12,37}、{26,37}、{34,49}、{37,55}、{65,68}、{76,76}、{76,90}与{83,94}，

即：array = ：{5,0,9,12,12,37,26,37,34,49,37,55,65,68,76,76,76,90,83,94}。

对于d = 2/2 = 1：

根据d = 1来对数组排序，将第二趟希尔排序后的数组分成20块：{5}、{0}、{9}、{12}、{12}、{37}、{26}、{37}、{34}、{49}、{37}、{55}、{65}、{68}、{76}、{76}、{76}、{90}、{83}、{94}，也就是对如下数组分别进行直接插入排序：

{5,0,9,12,12,37,26,37,34,49,37,55,65,68,76,76,76,90,83,94}

第四趟希尔排序以后，数组已经有序：

array = {0,5,9,12,12,26,34,37,37,37,49,55,65,68,76,76,76,83,90,94}。

因为 d= 1，希尔排序结束。

测试用例

package org.shirdrn.internal.sort;

import junit.framework.TestCase;

public class TestShellSort extends TestCase {

private ShellSort sort;
private Integer[] array;

@Override
protected void setUp() throws Exception {
   array = new Integer[]{
     94,12,34,76,26,9,0,37,55,76,37,5,68,83,90,37,12,65,76,49
   };
   sort = new ShellSort(array);
}

public void testSort() {
   // B(Before),A(After)
   System.out.println("(B)Sorting : " + this.sort.print());
   this.sort.sort();
   System.out.println("(A)Sorting : " + this.sort.print());
}
}

测试结果：

(B)Sorting : 94, 12, 34, 76, 26, 9, 0, 37, 55, 76, 37, 5, 68, 83, 90, 37, 12, 65, 76, 49
(A)Sorting : 0, 5, 9, 12, 12, 26, 34, 37, 37, 37, 49, 55, 65, 68, 76, 76, 76, 83, 90, 94

算法分析

（一）时间复杂度

Shell排序的执行时间依赖于增量序列。

好的增量序列的共同特征：

① 最后一个增量必须为1；

② 应该尽量避免序列中的值(尤其是相邻的值)互为倍数的情况。

有人通过大量的实验，给出了目前较好的结果：当n较大时，比较和移动的次数约在n^l.25到1.6n^1.25之间。

（二）空间复杂度

因为希尔排序依赖于增量序列，从而导致排序的趟数不固定，对于不同的增量执行一趟希尔排序，只用到一个辅助变量。

（三）排序稳定性

通过上述元素76可以看到，希尔排序不稳定。

因此，希尔排序是不稳定的。

叶子 2010-11-01 18:06 发表评论

谈谈 Hash Table

叶子 — Mon, 25 Oct 2010 04:57:00 GMT

转自：
http://geeklu.com/2010/07/hash-table/

一.数据结构

在我们编程的世界里数据的基本组织可以说有三种形式。

结构体(或对象)
数组
链表

其他任何的数据组织形式都可以看作是这三种数据组织形式的组合变体。

结构体(或对象)可以是基本数据类型或者其他结构体(或对象)的组合。结构体或对象一般用来描述一个复杂数据实体。

数组一般是一组同类型的变量的集合，在内存中表现为一片连续的空间，因为空间是连续的，且每一个数据单元占的内存空间的大小是相等的，所以可以根据地址的偏移对数据元素实现快速访问，但是当需要插入或者删除一个元素的时候，则需要对目标元素的之后的所有元素进行移动了。

链表的单个节点一般为结构体或者对象，因为链表的单个节点除了需要保存数据之外还需要维护它的相邻节点的关系，如果想获得链表中的某个节点的值，需要从链表的头结点开始遍历，直到找到需要的东西，而插入或者删除某个节点的话，需要找到相应的节点，修改其以及其相邻节点的相关指针的引用即可。

像其他的数据结构，比如队列，栈，树，都可以通过数组或者链表来组织，并实现相应的操作功能。

二.Hash Table

这个世界上没有十全十美的东西，所以我们要学会取舍。任何技术的实现都没有最好的只要最合适的，也就说实现的最佳方案是和应用场景息息相关的。
很多时候，我们想对数据进行快速的存取（比如缓存的实现），并用一个key来标记自己存取的数据。我们可以把它叫做key-value的结构。
说到“快速”我们很快想到数组，因为数组可以在O(1)的时间复杂内完成指定位置元素的读写操作。
所以在理想状态，如果一个数组足够长，且存在一个函数可以将每一个key映射到唯一的一个数组下标，那么我们就可以很完美的解决问题。但往往资源都是有限的，我们没有那么大的空间，也不能设计一个无比负责的映射算法保证每一个key对应到一个唯一的数组下标。所以我们会选择一些折中的方案。

hash table便是为解决这类问题而存在的。

1.哈希函数

Hash或者你可以翻译成散列或者杂凑，hash操作其本质上就是将一个数据映射成另一个数据，通常情况下原数据的长度比hash后的数据容量大。
这种映射的关系我们叫做哈希函数。

一般情况下哈希函数的输入可能的总数要远远多于哈希值所能表示的总数，所以就有可能两个不同的输入对应同一个哈希值，通常把具有不同关键码而具有相同哈希值的记录称作“同义词”。
在信息安全领域中也经常使用到哈希函数，不过需要使用的是单向哈希函数，就是无法通过哈希的结果反推出输入，所以经常应用于密码的加密，传输内容的完整性检查，在安全领域常用的哈希算法有 MD5，SHA1等。
在哈希表的应用中，哈希函数常用余数法进行，也就是通过求模的方式算出哈希值。

2.哈希表

哈希表是一种数据结构，实现key-value的快速存取。之前说过数组可以实现快速存取，所以哈希表肯定会使用到数组。在这里，我们把每一个数组的单元叫做一个bucket（桶）。

构造哈希函数

这里哈希函数的作用就是将key映射到一个存储地址。所以构造一个哈希表我们得先构造哈希函数。
如果一个key哈希后对应地址中已经存放了值了，这种情况我们叫做哈希冲突（Hash collisions）。
如果存在一个哈希函数，使得每一个输入都能对应到唯一的一个存储单元中（没有冲突），那么这样的哈希函数我们可以叫它完美哈希函数（Perfect Hash Function，简称PHF)。
但为了哈希函数简单，运行速度快，往往不会使用完美哈希函数。所以冲突肯定会存在的，为了减少冲突，我们希望哈希函数的结果均匀的分布在地址单元的空间中。这样可以有效的减少冲突。

装填因子Load factor a=哈希表的实际元素数目(n)/ 哈希表的容量(m) a越大，哈希表冲突的概率越大，但是a越接近0，那么哈希表的空间就越浪费。
一般情况下建议Load factor的值为0-0.7，Java实现的HashMap默认的Load factor的值为0.75，当装载因子大于这个值的时候，HashMap会对数组进行扩张至原来两倍大。

冲突解决

既然冲突不可避免，那么我们就必须对冲突进行解决(总不能把之前的内容覆盖掉把),
解决冲突的方式主要分两类
开放定址法(Open addressing)这种方法就是在计算一个key的哈希的时候，发现目标地址已经有值了，即发生冲突了，这个时候通过相应的函数在此地址后面的地址去找，直到没有冲突为止。这个方法常用的有线性探测，二次探测，再哈希。
这种解决方法有个不好的地方就是，当发生冲突之后，会在之后的地址空间中找一个放进去，这样就有可能后来出现一个key哈希出来的结果也正好是它放进去的这个地址空间，这样就会出现非同义词的两个key发生冲突。

链接法(Separate chaining)链接法是通过数组和链表组合而成的。当发生冲突的时候只要将其加到对应的链表中即可。

与开放定址法相比，链接法有如下几个优点：
①链接法处理冲突简单，且无堆积现象，即非同义词决不会发生冲突，因此平均查找长度较短；
②由于链接法中各链表上的结点空间是动态申请的，故它更适合于造表前无法确定表长的情况；
③开放定址法为减少冲突，要求装填因子α较小，故当结点规模较大时会浪费很多空间。而链接法中可取α≥1，且结点较大时，拉链法中增加的指针域可忽略不计，因此节省空间；
④在用链接法构造的散列表中，删除结点的操作易于实现。只要简单地删去链表上相应的结点即可。而对开放地址法构造的散列表，删除结点不能简单地将被删结点的空间置为空，否则将截断在它之后填人散列表的同义词结点的查找路径。这是因为各种开放地址法中，空地址单元(即开放地址)都是查找失败的条件。因此在用开放地址法处理冲突的散列表上执行删除操作，只能在被删结点上做删除标记，而不能真正删除结点。

当然链接法也有其缺点，拉链法的缺点是：指针需要额外的空间，故当结点规模较小时，开放定址法较为节省空间，而若将节省的指针空间用来扩大散列表的规模，可使装填因子变小，这又减少了开放定址法中的冲突，从而提高平均查找速度。

注:部分图片来自Wikipedia

叶子 2010-10-25 12:57 发表评论