全文検索作りたくて、三日からずーっと namazu と格闘してたんだけど、超メモリ食らいでボツ。
で昨日から試してる SGSE。wgetを呼ぶ付属のスクリプトを使うからいかんのだな。 ちゃんと愛する うこぴを使ってミラーリングすれば良かった。浮気しちゃいかんす。ただ、 gentei.orgではvirtualdomainを使いまくりなので、www.gentei.org以下だけを まるごとコピーって訳にはいかず、各ユーザとvirtualdomainを切ってる ディレクトリ毎に分けてWWWcp。一覧ファイルをSGSEの indexing スクリプトに 渡してはい完成。おー、SGSE速えー。mknmzで1時間くらいかけて Out of memory してたのが、10分くらいで終わる。二回目以降は3分くらいだ。しかも使用メモ リに関しては、一番大きくなる mk_word.pl が3MBくらい。えらすぎ。
最後に検索用の入口ページを書いておしまい。