はてなダイアリーキーワード

 ある程度のミスヒットは仕方ないけど、SN比が良い方がいろいろ便利だと思います。
 ノイズさえ減れば名詞かどうかにこだわる必要はない気もしますし(もちろん「活用形がない」という大前提がありますけど)。


 そもそもの問題はインデクサの性能が悪いことだと思いますが、以下のような簡単な対処をするだけでかなり改善されるはずです*1

・検索対象は「英数字が連続しているもの」「漢字が連続しているもの」「カタカナが連続しているもの」「ひらがなが連続しているもの」で分ける。
・「英数字ワード」は完全一致にする。固有名詞は大文字/小文字を区別する。
・「漢字ワード」は前方一致/後方一致にする。
・「カタカナワード」は前方一致/後方一致にする。このとき一致しなかった部分が1文字(または2文字以下)の時はヒットさせない。また、2文字(3文字)以下のワードは完全一致にする。
・「ひらがなワード」は、文字数が少ない場合(3〜4文字以下)は前方一致/後方一致にする。文字数が多いの場合は中間一致にする。
・「混合ワード」は全体に対する中間一致で良いが、可能なら上記の規則を組み合わせる。

 これだけで形態素解析なんてしなくてもそれなりにヒット率が上がるのですけどね。Namazuを使うより良かったし*2


 現状のシステムの場合は、「固有名詞」「一般」登録されているキーワードが「ひらがな/カタカナ」だけで構成されていている場合は「3文字以上」に制限したほうが良いんじゃないのかな?

*1:ちゃんと論文にしないと相手にされないですか?

*2:もちろんNamazu代わりに使うには自動的にワードを取得する必要があるわけですけど。それも上記の応用でなんとかなります。