今、全文検索ってどうなんだろう?
とふと思ったりして。
一時期はNamazuからHyperEstraierやSennaなどの全文検索ソフトが流行ったが、GoogleやYahoo、そしてMSNまでもがデスクトップ検索を出してからあまり見なくなった気がする。
HyperEstraierは2007年が最新。Sennaは2010/4/14に2年ぶりのマイナーアップしているが、Windowsバイナリは公開されておらず、ビルドしなくてはいけない。
そして、一時公共機関系のサイトおよび基幹システムに使われていたNamazuにいたっては2009/9/23に2.0.20を公開されたきり。どうしたNamazu Project!
しかし、企業における文書はどんどん増えるばかりなので全文検索システムは需要があるように思えるのだが・・・・
それともセキュリティ上の問題があるのだろうか。
たとえばドメインごとに検索対象を変えるとか人ごとにアクセス権限を変えるとか、複雑化しているがために、なんでもクロールしてしまう全文検索は嫌がられるのだろうか・・・・。
ゆえにグループウェアのオプションで出ている全文検索システムは結構な値段がする。
[0回]
まぁ確かになぁ・・・・。
WordやExcelも新しいフォーマットが出て対応しなくてはいけないし、PDFだってバージョンが上がっている。
そんなバイナリデータのテキストをうまく抽出させるのも難しくなっているのだろうか。
幸い、私の勤めているところはそんなにアクセス権限にうるさくないのと、xdoc2txtがdoxやxlsxに対応しているので、2年前に導入したHyperEstraierが順調に稼働している。
indexが壊れやすいとの話もあったが、そんなこともなく毎日2回indexを作り続けている。
が、、2008サーバーでも動くのかどうかは検証していない。
むしろ今後バージョンアップが見込めないならできるだけ新しいシステムを入れた方がいいのかもしれない。
でも、未だに開発を続けている全文検索はあるのだろうか。
オープンソース(もしくはフリー)の全文検索システムは廃れてしまったのだろうか。
そんな中、Fessという全文検索システムが見つかった。
うたい文句が
5 分で簡単に構築可能な全文検索サーバー
本当か?
でも、最新リリースが2010/12/19
ロードマップでもまだ開発が続いている。
どうだろう、どうなんだろう。
全文検索の灯はまだ消えていなかった。
さて、実験だっ!
PR