solr 查詢單一中文字使用測試問題討論[未完]

solr 查詢單一中文字使用測試問題討論[未完]

- 1月 09, 2009

[本文持續建構中]

使用solr建立之索引庫，測試文字資料查詢功能，發生單一中文字斷詞問題。

例如：

以陳找出2筆，但陳水扁查出499筆。

測試發現可以加星號* 就讓單一中文字搜尋出結果。
這分明就是把搜尋引擎當作SQL 來用，還是應該要教育USER學會SQL語法呢? 這麼想就很KUSO。

加星號* 的舉例：

陳* 可以查出兩千多筆。

馬* AND 英九 == 馬英九的筆數 (這應該只是巧合)

但，目前solr 中文斷詞問題，還在研究當中。

相關資源：

Lucene全文檢索

Search Engine - Apache Lucene 入手指南

Lucene @ wiki

George Lee's blog: Solr - Enterprise search 的「黑盒子」

中文分詞技術

solr 中文切詞

solr schema.xml 的介紹

留言