中身
私ようの日記、
読んでも理解なんて出来るわけがない..っと
今日したこと
青空文庫に掲載されている夢野久作のテキストのインディックスを作成する。
テキストごと と 夢野久作についてのインデックスを作成する
圧縮
簡易ではあるのだけれども NGram用のインディックスを作成しました
これです
もう少しハッシュを用いるとか、他の indexerの性能だとか、
を調べた上で使用したかったが、思うように情報を探し出すことが出来なかった。
取れあえずは、現状のものを使用することにした。
ちなみにZIPで圧縮すると 元のテキストの10倍程度のデータとなります。
(自分用
ZIP圧縮がファイル単位で圧縮することを考えると、どこできるのかが
結構難しい たしか、数kbyteごとハフマン木更新しているはずだから
あまり、小さいデータを1ノードとしてみても返って圧縮されることは難しいだろう。
しかし、20kのテキスト× 4000冊として、 80000kbyteとして
圧縮後そうインデイッスクスは最悪800MByteとなり、メモリーがすごいことに成っている。
もちろんステレージ上でほとんどの処理は扱うが、...
それとも スライド辞書の部分で圧縮されているのだろうか
)