ThinkphpBlog 安装 trie_filter扩展过滤关键词

2018年08月25日 425 次阅读 2 条评论 5 人点赞

关键词过滤扩展,用于检查一段文本中是否出现敏感词,基于Double-Array Trie 树实现;废话不多数,直接开始,由于百度很多博文都写了怎么安装以及安装某依赖包时出现问题的解决办法,但您也可以尝试一些是否能够正确并成功安装,以下安装过程是本人亲自试验过没有问题

在项目中需要对用户传递过来的文字进行过滤敏感词,用到这个,由于评论审核关键词考虑到词组过多,如果通过PHP循环处理可能会导致时间过长,影响用户体验,所以作者就趁此研究了一下trie_filter扩展;

后台评论审核关键词设置项:

QQ图片20180826170122.png

关键词过滤扩展,用于检查一段文本中是否出现敏感词,基于Double-Array Trie 树实现;

废话不多数,直接开始,由于百度很多博文都写了怎么安装以及安装某依赖包时出现问题的解决办法,但您也可以尝试一些是否能够正确并成功安装,以下安装过程是本人亲自试验过没有问题;

第一步:依赖 libiconv

wget http://ftp.gnu.org/pub/gnu/libiconv/libiconv-1.14.tar.gz
tar -zxf libiconv-1.14.tar.gz
cd libiconv-1.14
./configure
make && make install

第二步:安装 libdatrie

安装 libdatrie , 需要 libdatrie-0.2.4 或更新的版本(官网 https://linux.thai.net/~thep/datrie/datrie.html#Download,似乎0.2.5以上的版本无法下载,不知是否是我这里网络问题)

这里我安装的0.2.4版本

wget ftp://linux.thai.net/pub/ThaiLinux/software/libthai/libdatrie-0.2.4.tar.gz
tar -zxf libdatrie-0.2.4.tar.gz
cd libdatrie-0.2.4

./configure --prefix=/usr/local/libdatrie/
make ICONV_LIBS='/usr/local/lib/libiconv.so'
make install

我这里没有出现下面这个错误,如你按照第二步安装仍出现这个错误,那请您继续百度寻找办法解决吧

编译出现错误 trietool.c:125: undefined reference to `libiconv'
解决办法为:./configure LDFLAGS=-L/usr/local/lib LIBS=-liconv

第三步:安装trie_filter扩展

wget https://github.com/wulijun/php-ext-trie-filter/archive/master.zip
unzip master.zip
cd php-ext-trie-filter-master/
phpize
./configure --with-php-config=/usr/local/php/bin/php-config --with-trie_filter=/usr/local/libdatrie/
make && make install

值得注意的是  --with-php-config  后面的路径是您服务器上php安装的路径,可以通过  whereis php-config 查找目录所在

通过运行 php --ini查找php.ini文件位置,然后在文件中添加extension=trie_filter.so

保存配置并重启php

安装完后,在 phpinfo 里可以看到 trie_filter 扩展(如图)

微信图片_20180825133821.png

这样就安装成功了。

使用示例:

/**
* 关键字检测
* $arrWord 是您的关键词内容 数组格式
* @param $strContent
* @return bool
*/
public function checkWordKeys($strContent)
{
//如果未开启trie_filter 扩展则返回false
if (!in_array('trie_filter', get_loaded_extensions())) {
return false;
}
if (Cache::get('arrWordKeys')) {
$arrWord = json_decode(Cache::get('arrWordKeys'));
} else {
//trie_filter_new
$arrWord = explode(PHP_EOL, $this->config['comment_key_words']);
Cache::set('arrWordKeys', json_encode($arrWord));
}
$resTrie = trie_filter_new(); //create an empty trie tree
foreach ($arrWord as $k => $v) {
trie_filter_store($resTrie, $v);
}
// 生成关键词词典.
trie_filter_save($resTrie, __DIR__ . '/blackword.tree');

// 加载关键词词典,成功返回一个Trie_Filter 资源句柄,失败返回NULL
$resTrie = trie_filter_load(__DIR__ . '/blackword.tree');

// 查找关键词
$arrRet = trie_filter_search($resTrie, $strContent);//每次只检测一个敏感词

// 获得查找结果树
trie_filter_free($resTrie);

if (is_array($arrRet) && isset($arrRet[0]) && isset($arrRet[1])) {
return true;
} else {
return false;
}
}


这里我所采用的环境是PHP5.6,在PHP7上未测试,不知道是否可用


作为一个真正的程序员,首先应该尊重编程,热爱你所写下的程序,他是你的伙伴,而不是工具。

文章评论(2

  • IT码农Lv 1

    来支持一下博主,这是我刚注册的账号,(*^▽^*)嘿嘿

    #12018-08-25 17:22
  • 接收回复邮件通知