solr 查詢單一中文字使用測試問題討論[未完]

[本文持續建構中]

使用solr建立之索引庫,測試文字資料查詢功能,發生單一中文字斷詞問題。

例如:

以陳找出2筆,但陳水扁查出499筆。

測試發現可以加星號* 就讓單一中文字搜尋出結果。
這分明就是把搜尋引擎當作SQL 來用,還是應該要教育USER學會SQL語法呢? 這麼想就很KUSO。

加星號* 的舉例:

陳* 可以查出兩千多筆。

馬* AND 英九 == 馬英九的筆數 (這應該只是巧合)

但,目前solr 中文斷詞問題,還在研究當中。


相關資源:

Lucene全文檢索

Search Engine - Apache Lucene 入手指南

Lucene @ wiki

George Lee's blog: Solr - Enterprise search 的「黑盒子」

中文分詞技術

solr 中文切詞

solr schema.xml 的介紹

留言

這個網誌中的熱門文章

地震般的暈眩

違反道路交通管理處罰條例第53條

Who ever Finds This I Love You