`
hipeace87
  • 浏览: 170487 次
  • 性别: Icon_minigender_1
  • 来自: 山东菏泽
社区版块
存档分类
最新评论

ubuntu910下安装coreseek中文全文索引

阅读更多

先下载(**表示版本号)

csft**.tar.gz

mmseg**.tar.gz

放到/root目录下

解压

tar -xzvf csft**.tar.gz
tar -xzvf mmseg**.tar.gz


编译mmseg 安装

cd mmseg*
sudo ./configure --prefix=/usr/local/mmseg
sudo make
sudo make install             

 

错误提示为:css/UnigramCorpusReader.cpp:89: error: 'strncmp' was not declared in this scope
手动修改了src/css/UnigramCorpusReader.cpp
在上面添加了一句

#include <string.h>

cd csf*
sudo ./configure --prefix=/usr/local/coreseek --with-python --with-mysql --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib/

 

没找到mysql
原来是没装mysql dev

sudo apt-get install libmysqlclient15-dev

修改/usr/local/mmseg/include/mmseg/freelist.h这个文件,在上面添加

#include <string.h>

安装完成

cd /usr/local/coreseek/etc
sudo cp sphinx.conf.dist csft.conf
sudo gedit csft.conf

 

现在加入中文搜索的设置

首先,复制mmseg中的data文件夹到你的mmseg的安装目录中,当然,可以不这么做,但是我希望是将有联系的东西放在一起便于查找

sudo cp /root/mmseg**/data/  /usr/local/mmseg/ -R
这里可以根据你的情况设定具体的路径

然后进入刚才的路径,生成字典文件。

cd /usr/local/mmseg/data
运行以下命令生成字典
sudo /usr/local/mmseg/bin/mmseg -u unigram.txt
会生成一个unigram.txt.uni文件,将这个文件改名或者复制为uni.lib在当前文件夹
sudo cp unigram.txt.uni uni.lib

ok,字典弄好了

现在修改csft.conf文件

sudo gedit /usr/local/coreseek/etc/csft.conf
  查找charset_type并修改为charset_type   = zh_cn.utf-8同时添加一行charset_dictpath  = /usr/local/mmseg/data
保存退出,现在向默认的mysql数据库中插入一条中文信息。注意需要utf8_general_ci编码
重建索引
sudo /usr/local/coreseek/bin/indexer --all
好了,现在可以正常查询了,并且返回的也是正常的中文信息。测试一下
sudo /usr/local/coreseek/bin/search 中文测试
呵呵,ok了。。

 

分享到:
评论
1 楼 kqy929 2010-03-23  
Hi,非常感谢你这篇文章,照你说的,我也部署好coreseek.
测试发现,soreseek对词分得还可以。
但是,
例如:“中文测试” 2 hits
但使用“中”进行测试时, 0 hits
怎么整合单个字呢?

相关推荐

    coreseek中文全文索引解决方案

    mysql全文索引解决方案的最佳选择,coreseek是针对中文分词专门开发结合sphinx全文索引的数据库第三方工具。

    centos 6.5安装coreseek,亲测ok

    centos 6.5安装coreseek,亲测ok coreseek-3.2.14

    Coreseek3.2.14(Ubuntu14.04以上版本可用)

    由于Ubuntu14.04以上版本的gcc太新了,导致coreseek编译通不过,本人在网络寻找到了一个补丁可用,成功修复了这个问题。这个压缩包是补丁后的。 (严重鄙视那些要分才能下载东西的人,一点贡献精神都没有)

    coreseek4.1 编译安装和实时索引配置

    coreseek编译安装的错误处理 操作实例 和实时索引 亲自测试 无误

    coreseek4.1 支持拼音索引 win32

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

    Coreseek 全文搜索服务器2.5

    Coreseek 全文搜索服务器2.5 是在开源的全文搜索引擎Sphinx上修改增强而来的;并在GPL协议下重新发行。

    sphinx+coreseek安装配置

    详细说明sphinx+coreseek安装、配置、php很用

    coreseek mysql 索引配置文件 包含增量索引

    coreseek mysql 索引配置文件 增量索引

    wordpress使用coreseek(sphinx)全文索引

    今天wordpress教程网跟大家分享下如何在wordpress中使用高效的全文索引组件coreseek。Coreseek开源中文检索引擎,可以说是Sphinx中文版,因为coreseek加入了中文分词库,大家可以到官网去查看具体介绍:...

    coreseek4.1 支持多音字拼音索引第三版

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

    coreseek-4.1-win64支持多拼音全文搜索索引

    全文搜索coreseek+sphinx支持拼音搜索,Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索...

    coreseek4.1 支持多音字拼音索引 win64

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

    coreseek-4.1

    coreseek下载, coreseek安装包, coreseek源码。全文索引,coreseek-4.1-win32

    sphinx-coreseek中文手册

    sphinx-coreseek中文手册 sphinx-coreseek中文手册 sphinx-coreseek中文手册 sphinx-coreseek中文手册

    coreseek安装

    Coreseek 是一款可供企业使用的、基于Sphinx(可独立于Sphinx原始版本运行)中文全文检索/搜索软件,以GPLv2许可协议开源发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/...

    coreseek4.1.zip

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

    站内全文搜索引擎 coreseek

    coreseek是在sphinx的基础上,增加了中文分词功能,换句话说,就是支持了中文。 Coreseek发布了3.2.14版本和4.1版本,其中的3.2.14版本是2010年发布的,它是基于Sphinx0.9.9搜索引擎的。而4.1版本是2011年发布的,...

    Coreseek在ubuntu系统上补丁

    此补丁可以解决Coreseek在ubuntu系统编译时通不过的问题

    coreseek(sphinx + 中文分词)

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

    CoreseekDocker:Coreseek 中文全文检索服务的 Dockerfile

    Coreseek DockerfileCoreseek 是一款中文全文检索/搜索软件,以 GPLv2 许可协议开源发布,基于 Sphinx 研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献...

Global site tag (gtag.js) - Google Analytics