zhparser是什么


zhparser是一个PostgreSQL中文分词的插件,通过它,可以使PostgreSQL支持中文的全文检索(Full Text Search)。

为什么需要zhparser


一般英语等语言分词比较简单,按照标点、空格切分语句即可获得有含义的词语,PostgreSQL自带的parser就是按照这个原理来分词的,比较简单。而中文就比较复杂,词语之间没有空格分割,长度也不固定,怎么分词有时还跟语句的语义有关,因此PG自带的parser不能用来做中文分词。使用zhparser这个插件,便可以使PG支持中文分词,继而可以使用PG做中文全文检索。

zhparser原理是什么


zhparser用C语言实现了PostgreSQL TEXT SEARCH PARSER需要的接口,这些接口会调用SCWS中文分词引擎进行分词。

zhparser使用手册

安装zhparser插件


1.安装SCWS

wget -q -O - http:www.xunsearch.com/scws/downscws-1.2.1.tar.bz2 | tar xjf - cd scws-1.2.1 ;./configure ; make install

2.下载zhparser源码

git clone https:github.com/amutu/zhparser.git

3.编译和安装zhparser

SCWS_HOME=usr/local make && make install

注意:如果在*BSD系统上进行编译安装,请使用gmake代替make

5.创建extension

psql dbname superuser -c 'CREATE EXTENSION zhparser'

使用zhparser进行中文分词


TODO

使用PostgreSQL进行中文全文检索


TODO

Media WiKi中文全文检索配置


TODO

zhparser高级用法


查看SCWS的用法:SCWS官网

zhparser相关链接


阿弟的文章:postgreql实现中文全文搜索的方法之---zhparser

zhparser源代码github:https:github.com/amutu

zhparser pgxn主页:http:pgxn.org/dist/zhparser