全文検索

 全文検索エンジンって研究テーマとしては面白いので学生の時に知ってればまじめに研究したのに、とか思ったり。
 インデックスを作らないSIGUMA検索アルゴリズム*1はなるほどー、と思いましたね。確かにインデックスは必要悪だもんなぁ。
 ちなみにビレッジセンターSearchXは「n-gram」や「形態素解析」などという高度な方法は使わず、単純に「カタカナ」「漢字」「アルファベット」をインデックスにしてるためインデックスの生成が速かったりするのですが*2、それでもヒット率はそんなに悪くないですからコストパフォーマンスを考えると良い選択だと思います。
 Namazuはいまいち使い勝手が悪いので*3、SearchX的な全文検索エンジン(というよりインデクサ)を自分で作るのも悪くないかなぁ、と思ったりもします。

*1:ちなみに記事中にあるGoogle全文検索の弱さですが、Web情報の検索でGoogleのヒット率が高いのはあくまでリレーション(関連)データのおかげであって、単純な全文検索の効率はよろしくないのはあたりまえ、だったりします。

*2:あくまで僕の予想ですが。ちなみにSearchXの良い点はインデックス作成の速さだけではないですので、誤解なきように。

*3:SearchXよりヒット率が悪いように感じるし。