はいかい日記


　関連研究を探してネット上を徘徊していると
　思いついたアイデアなどは既存のものがオオイノダナァーっと
　関心してしまいます。
　
　
http://sary.sourceforge.net/
http://cl.naist.jp/
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html#free_jp
http://namazu.org/~satoru/unimag/9/
http://pitecan.com/
http://sary.sourceforge.net/docs/suffix-array.html
http://nais.to/~yto/tools/sufary/
http://namazu.org/~satoru/unimag/6/

Suffix Array

結論
　　Suffix Arrayはとても大きい辞書データ
　　単語を分解して漏れのない検索ができる
　
　作成アルゴリズム
　 "真夏のコンサート"という単語があるとする
    　　　|
　　　　　|
　　これを以下のように分解する
    　　　|
　　　　　↓
    真夏のコンサート、夏のコンサート
　　、のコンサート、コンサート、
　　ンサート、サート、－ト、ト
　　　　　|
    　　　|
　　辞書順にソート
　　　　　|
    　　　↓
　　のコンサート
　　コンサート
　　サート
　　ト
　　－ト
　　．．．
　 
　Ｓｕｆｆｉｘ　Ａｙｙａｙ
　　のコンサート
　　コンサート
　　サート
　　ト
　　－ト
　　．．．
　 が"真夏のコンサート"のＳｕｆｆｉｘ　Ａｒｒａｙです
　気がついたこと
　　単語が特定できれば

　　真
　　真夏
　　真夏の
　　真夏のコンサート
　　の検索データーとして不要なことが理解できるだろう

TRIE

以前紹介した

上の構造の名前はＴＲＩＥというそうです。


結論
　　とてもメモリーを食う
　　一定の速度で検索できる
　（もちろん単語が増えると遅くなる、工夫すればたいしたことはなくなる）

ストレージについて

　Ｎ－Ｇｒａｍを使うと、必然的に
辞書データは大きくなってしまう。
　テキストが増えると、必ずメモリーに乗らない量に
陥る。　

　私の推論では良く使う部分は辞書を圧縮してしまえば
メモリ-にのる。

　ＺＩＰ圧縮をかけると元テキストの１０倍程度のデータに
収まることに注目したい。
（
ただし、ｚｉｐ圧縮はノードごとに
圧縮して連結したものではないのだが
）
　
　今週はは　ストレージへの退避する部分と　
　メモリーに載せる部分を作成考察することにしよう。

　そして、次は連想検索部分のインディックスのアイデアを絞って　
　作成して
　文献やｐａｐｅｒ等を調べて　

　最後に　私の卒論の目的である
　使用者の探したい文書を推測して、検索を効率化する
　まで 、いく　っと

　できるのだろうか？ぜんぜん分らないことだらけだ
　
　あと、文書共有のための分散技術とか
　できるか？

Gポイントポイ活　 Amazon Yahoo 楽天

無料ホームページ楽天モバイル[UNLIMITが今なら1円] 海外格安航空券海外旅行保険が無料！

目次

Suffix Array

結論

作成アルゴリズム

Ｓｕｆｆｉｘ Ａｙｙａｙ

気がついたこと

TRIE

結論

ストレージについて

Ｓｕｆｆｉｘ　Ａｙｙａｙ