一个关键字过滤算法

      经常某些论坛，或者软件中对某些字符串进行了关键字过滤, 一般代替为*号，一般的算法是利用strstr算法，即使是string的find子串算法复杂度也是(N*log(n))，并非kmp算法，也非bm查找子串算法。
     对于一组关键字过滤，特别是对于一组字符串多，且长度不规律的字符串过滤算法完全是有必要的。

    网上对于关键字过滤算法较多，且实现方法较多，本文主要介绍基于一种把关键字转换为Unicode，然后对关键字的字符或者单个关键字hash求值。算法复杂度为O(n).
   对于汉字的hash值的求法，因为是Unicode编码是16位，哈希求值:

/// 求汉字的哈希值

long HashFun(wchar_t word)

{

BYTE l = LOBYTE(word);

int h = HIBYTE(word);

long num = h << 8 ;

num +=l;

return num;

}

    基本算法思想;
   1.建立2个过滤关键字数组:数组1：为单个字符数组2：为2个或者多个字符
   2.求出数组1，2的hash值，数组2的hash值只求出前2个字符的hash值即可。
   3.扫描待检测的文本，然后每次取2个字符，查找数组2是否有匹配，如果没有则查找数组1。。。。查找为O(1)

主要代码如下:

File : WordFilter.cpp

brief: 关键字过滤程序，复杂度为O(n)，线性

Author: Expter

Data : 2009/06/30

对汉字或者字符进行哈希算法，先转换为unicode编码，然后求其hash值。

主要算法为:

1.建立2个过滤关键字数组:数组1：为单个字符数组2：为2个或者多个字符

2.求出数组1，2的hash值，数组2的hash值只求出前2个字符的hash值即可。

3.扫描待检测的文本，然后每次取2个字符，查找数组2是否有匹配，如果没有则查找数组1。。。。查找为O(1)

不足:

不能很好的分词。过滤不是很准确，每次只能1，2个词的过滤。

#include <stdlib.h>

#include <iostream>

#include <map>

#include <vector>

#include <string>

#include <windows.h>

#include <wchar.h>

#include <iosfwd>

using namespace std;

wchar_t des1 [5][2] = { L"汉",L"字",L"测",L"试",L"个"};

wchar_t des2 [3][5] = { L"用汉", L"的啥" ,L"测试啊"};

wchar_t src[] = { L"这个原来是打算的啥子东西用汉字只是一个是不是测试"};

/// 求汉字的哈希值

long HashFun(wchar_t word)

{

BYTE l = LOBYTE(word);

int h = HIBYTE(word);

long num = h << 8 ;

num +=l;

return num;

}

long HashFun(wchar_t * word)

{

return HashFun(word[0])*10 + HashFun(word[1]);

}

void ParamVer(map<long,int> hashmp , wchar_t *src , int i)

{

long val = HashFun(src[i+1]);

if(hashmp[val] == 1)

{

src[i+1] = L'*';

}

void VmAlorgthm(map<long,int> hashmp,wchar_t *src)

{

long val = 0;

int m = wcslen(src) ;

// O(n);

for(int i = 0 ; i < m-1 ; i ++)

{

if( HashFun(src[i]) != L'*')

{

val = HashFun(src[i]) + HashFun(src[i+1]);

if( hashmp[val] == 1)

{

src[i] = L'*';

src[i+1] =L'*';

}

else

{

val = HashFun(src[i]);

if(hashmp[val] == 1)

{

src[i] = L'*';

}

else

{

ParamVer(hashmp,src,i);

}

else

{

ParamVer(hashmp,src,i+1);

}

ParamVer(hashmp,src,m-1);

}

int _tmain(int argc, _TCHAR* argv[])

{

wcout.imbue(locale("chs"));

typedef map<long,int> HASHMAP;

cout <<" 需要过滤文本: ";

wcout<< src <<endl;

cout <<" 过滤关键字 : " ;

for(int i = 0 ;i < 5; i++)

wcout << des1[i][0] <<" ";

wcout <<endl;

cout <<" 过滤关键词 : " ;

for(int i = 0 ;i < 3; i++)

wcout << des2[i] <<" ";

wcout <<endl;

long val = 0;

HASHMAP hash_map;

/// 字 hash

for(int i = 0 ; i < 5 ; i++)

{

val = HashFun(des1[i][0]);

hash_map[val] = 1;

}

/// 词 hash

for(int i =0 ; i < 3 ; i++)

{

val = HashFun(des2[i]);

hash_map[val] = 1;

}

VmAlorgthm(hash_map,src);

cout <<"\n-------------------------------------------------------------\n"

<<" 过滤后的文本: ";

wcout<< src <<endl;

return 0;

}

posted on 2009-07-12 22:07 expter 阅读(4217) 评论(4) 编辑收藏引用所属分类: 其他学习笔记、算法与数据结构

# re: 一个关键字过滤算法[未登录] 2009-07-13 11:33 megax

用hash，对于词组来说本身就有不确定性回复更多评论

# re: 一个关键字过滤算法 2009-07-14 00:42 XXOO

我一般是先把词组排序，然后对每个字进行二分法这样。或者也可以HASH
回复更多评论

# re: 一个关键字过滤算法 2009-07-14 12:37 戴尔电脑

看了有点帮助！！回复更多评论

# re: 一个关键字过滤算法[未登录] 2009-07-20 09:10 cc

你这个hashfun有干活吗？传进去的值没有变化啊回复更多评论

刷新评论列表

只有注册用户登录后才能发表评论。


相关文章: 根据子类类型访问其特有操作针对一个内存池测试相关介绍一个关于容器选取的删除问题。在CEGUI显示GIF图像，简单的聊天窗口实现方式. 基于CEGUI的StaticText的超级链接实现一个基于足球AI仿真机的模拟实现基于策略的一种高效内存池的实现一个小型的IOCP网络库一个字典生成算法几种解法: 一个问题，如何优化？是否有高效的算法

网站导航: 博客园博客园最新博文博问管理

# re: 一个关键字过滤算法[未登录] 2009-07-13 11:33 megax

# re: 一个关键字过滤算法 2009-07-14 00:42 XXOO

# re: 一个关键字过滤算法 2009-07-14 12:37 戴尔电脑

# re: 一个关键字过滤算法[未登录] 2009-07-20 09:10 cc

勤能补拙，Expter

导航

统计

留言簿(18)

随笔分类

随笔档案

文章档案

收藏夹

程序人生

经常去的论坛

曾经ACM

积分与排名

最新评论

阅读排行榜

评论排行榜

一个关键字过滤算法

评论