larbin源码分析(五) hashDup类对象的实现

一类的成员变量及主要功能
      (1) 成员变量
      ssize_t size; //表示hash 表的大小
      char *table; //表示hash存储区域
      char *file;   //表示存储的文件，内存中的hash表可以保存在外部磁盘中
      (2) 主要功能
         该类和hashTable代码比较相似，但是hashTable处理的是url去重，而hashDup处理的是网页内容的去重，
        不会对完全相同的网页进行爬取，但是不保证相似网页的排重。改进的一个方向。
  二具体的成员函数
       构造函数
       hashDup (ssize_t size, char *init, bool scratch); size表示hash表的大小，单位为bit。
                   init参数表示 hash表存储在磁盘的文件名称。scratch若为true表示重新构建hash表，
                   若为false，则表示需要从磁盘文件中读取hash表。
    ~hashDup()函数具体操作为情况table内存。
    下面主要讲解网页内容去重的函数
     bool hashDup::testSet (char *doc) { //doc应该为网页的具体内容，依次顺序遍历网页内容，对其中A与z之间的字符进行验证
      unsigned int code = 0;
       char c;
     for (uint i=0; (c=doc[i])!=0; i++) {
         if (c>'A' && c<'z')
        code = (code*23 + c) % size;
      }
        unsigned int pos = code / 8; //具体的判断函数，若是执行插入返回true，否则返回false
       unsigned int bits = 1 << (code % 8);
        int res = table[pos] & bits;
        table[pos] |= bits;
       return !res;
     }

    save()函数
    主要的作用就是，将table区域中的数据，存储在外部磁盘中，进行持久化操作。

   三总结
       该类为网页内容去重hash函数的具体实现。

posted on 2011-06-13 16:16 kahn 阅读(463) 评论(0) 编辑收藏引用

只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理

jake1036

My Links

Blog Stats

常用链接

留言簿(1)

随笔分类

随笔档案

搜索

最新评论

阅读排行榜

评论排行榜

larbin源码分析(五) hashDup类对象的实现

larbin源码分析(五) hashDup类对象的实现