全文検索
全文検索エンジンって研究テーマとしては面白いので学生の時に知ってればまじめに研究したのに、とか思ったり。
インデックスを作らないSIGUMA検索アルゴリズム*1はなるほどー、と思いましたね。確かにインデックスは必要悪だもんなぁ。
ちなみにビレッジセンターのSearchXは「n-gram」や「形態素解析」などという高度な方法は使わず、単純に「カタカナ」「漢字」「アルファベット」をインデックスにしてるためインデックスの生成が速かったりするのですが*2、それでもヒット率はそんなに悪くないですからコストパフォーマンスを考えると良い選択だと思います。
Namazuはいまいち使い勝手が悪いので*3、SearchX的な全文検索エンジン(というよりインデクサ)を自分で作るのも悪くないかなぁ、と思ったりもします。