[本文持續建構中]
使用solr建立之索引庫,測試文字資料查詢功能,發生單一中文字斷詞問題。
例如:
以陳找出2筆,但陳水扁查出499筆。
測試發現可以加星號* 就讓單一中文字搜尋出結果。
這分明就是把搜尋引擎當作SQL 來用,還是應該要教育USER學會SQL語法呢? 這麼想就很KUSO。
加星號* 的舉例:
陳* 可以查出兩千多筆。
馬* AND 英九 == 馬英九的筆數 (這應該只是巧合)
但,目前solr 中文斷詞問題,還在研究當中。
相關資源:
Lucene全文檢索
Search Engine - Apache Lucene 入手指南
Lucene @ wiki
George Lee's blog: Solr - Enterprise search 的「黑盒子」
中文分詞技術
solr 中文切詞
solr schema.xml 的介紹
使用solr建立之索引庫,測試文字資料查詢功能,發生單一中文字斷詞問題。
例如:
以陳找出2筆,但陳水扁查出499筆。
測試發現可以加星號* 就讓單一中文字搜尋出結果。
這分明就是把搜尋引擎當作SQL 來用,還是應該要教育USER學會SQL語法呢? 這麼想就很KUSO。
加星號* 的舉例:
陳* 可以查出兩千多筆。
馬* AND 英九 == 馬英九的筆數 (這應該只是巧合)
但,目前solr 中文斷詞問題,還在研究當中。
相關資源:
Lucene全文檢索
Search Engine - Apache Lucene 入手指南
Lucene @ wiki
George Lee's blog: Solr - Enterprise search 的「黑盒子」
中文分詞技術
solr 中文切詞
solr schema.xml 的介紹
留言