主页 > Drupal | 数据库技术 | 服务器技术 > Apache Solr 快速启动包以及中文分词集成

Apache Solr 快速启动包以及中文分词集成

PDF版本

Solr一键启动包,Apache Solr中文支持包。

apachesolr 作为一款全文搜索引擎大家都很了解,不过说到中文的支持,(4.0版本之前),总是不能让人满意。首先,我们感谢一下IKAnalyzer的作者,开发了Lucene的中文分词包。

不过集成到solr里面,以及于drupal(6.x)的安装总是让很多PHPer和Drupaler比较茫然。由于好多网友的咨询,本人闲暇之余将apachesolr-3.6.1和IKAnalyzer2012u5以及默认包含了Drupal6的schema文件,在Drupal6下测试通过,不过有两个小问题,
1. 建立索引比较慢,一般通过Drupal6 index操作,需要等几分钟才能索引完毕(pending状态时间比较长)。
2. 用Drupal6 schema的情况下,Solr启动有warnning,这些是由于Drupal6提供的schema是基于Solr 1.4版本。
以上两个问题,如果大家有答案,请回复一下,谢谢支持!

【Solr4Z Beta1】
包含:ApacheSolr 3.6.1,IKAnalyzer2012u5,Drupal6 Schema and solrconfig。
同时提供:schema-with_IK.xml,如果复制为schema.xml则为一个带有中文支持的schema。

【使用方法】
下载解压,solr4z_3.6.1_ik2012,里面包含一个solrd脚本(linux脚步)。

  ./solrd start #启动solr
  ./solrd stop  #停止solr
  ./solrd startx #以前台进程启动solr,用于bug、错误检查。

默认的log位于 log/console.log.
如果没有错误,键入http://localhost:8993/solr
如果不是localhost,请替换(注意端口号,默认修改成了8993,以便区别默认的8983是以防本机已经有了一个Jetty实例)。

注意:当前版本仅在Linux/MacOS测试成功,如果要用于Windows,
1. 请用替换solr/conf里面的2个软连接文件。
2. 启动方法,在命令行(CMD)cd到当前目录下,然后里面键入

java -Dsolr.solr.home=solr -jar start.jar

【Solr配置文件】

 solr/      #solr home
 solr/conf/ #solr configure files
 webapps/solr/WEB-INF/classes/IKAnalyzer.cfg.xml  #IKAnalyzer configure file
 webapps/solr/WEB-INF/classes/stopword.dic #stop word for IKAnalyzer

具体的下载包放到的googlecode,请按照连接下载。
Solr4Z http://code.google.com/p/solr4z/

如果要用之前的solr版本,请参考前文:Drupal集成ApacheSolr-3.x以及中文分词处理


声明: 本站所有文章欢迎转载,所有文章未说明,均属于原创,转载均请注明出处。
本文有效链接: http://www.drupal001.com/2012/08/apachesolr-package-cjk-support/
版权所有: Drupal与高性能网站架构 http://www.drupal001.com


, , , ,

评论:2

发表评论
  1. avatar
    回复 cindy
    12/08/07

    发现IKAnalyser有个问题:如果搜索数字+中文或者英文+中文的就搜索不到

  2. avatar
    回复 robbin
    12/08/07

    这种情况还没有测试,可能是分词的问题。

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注


− 7 = 一

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

引用:0

下面所列的是引用到本博客的链接
Apache Solr 快速启动包以及中文分词集成 来自 Drupal与高性能网站架构
顶部