Head>
私の卒論担当の先生であるスチュート先生は 外国人ですが、とても日本語が堪能なの方です。 ですから、打ち合わせ等は日本語で出来ます。 私はついつい 日本語で打ち合わせに望んでし まいます。 英語で話しかれたら、これは 英会話の能力が上昇するチャンスなのですが 日本語で打つ合わせに望んでいます いつも 勿体無いなぁ〜。 英会話も学べると考えて外国人の方を 選んだのですが、実現できていません。 今度の発表はなんとかAll Englishで実現した いものですが、::
Search System Requirement about performance Index Perforamace about N-gram about TRIE about hash about Suffix Array about Double Array Compress about huffman about LZ77 JAVA's GC about GC's Architecture
Association Search System Action Problem
My Graduation Tema about Search Soft about Conventional Search System about My Search System about Text Sharring System about P2P System about association Association about Association about history about simple Computer Search System about Index Index Perforamace about N-gram about TRIE about hash about Suffix Array about Double Array Compress about huffman about LZ77 JAVA's GC about GC's Architecture About linkage text index about index A Number of Computer Search Alogorhim about Performance
BackGround 規模の大きいデータベースの中から ”あいまい”な条件を元に任意の文書を探し出す方法が私の研究です。 例えば、私が以前、探していた詩があります。 『批判ばかりされた 子どもは 非難することを おぼえる 殴られて大きくなった 子どもは 力にたよることを おぼえる 笑いものにされた 子どもは ものを言わずにいることを おぼえる 皮肉にさらされた 子どもは 鈍い良心の もちぬしとなる しかし,激励をうけた 子どもは 自信を おぼえる 寛容にであった 子どもは 忍耐を おぼえる 賞賛をうけた 子どもは 評価することを おぼえる フェアプレーを経験した 子どもは 公正を おぼえる 友情を知る 子どもは 親切を おぼえる 安心を経験した 子どもは 信頼を おぼえる 可愛がられ 抱きしめられた 子どもは 世界中の愛情を 感じとることを おぼえる』 みなさんはご存知でしょうか。 皇太子殿下のお誕生日に際しての記者会見 で紹介された詩です。 ドロシー・ロー・ノルトによって書かれた詩であることを知りました。 そして、彼女はアメリカの家庭教育学者であり この詩はスウェーデンの中学校の社会科の教科書に収録されていることなどが分ります (参考) この詩は、皇太子様が記者会見で紹介されたこともあり。実は調べるのに苦労はしませんで したがGoogleが「皇太子 記者会見 誕生 愛子様」などのキーワードを拾うようにな るまで待つ結果となりました。 これは、google当のweb上での検索がうまくいった例です、、 もしも、この詩を紹介した人が 著名な人でなく話題性がなかったら 私はどのようなアプローチで、この詩を発見できたでしょうか。 私がしっいたのは "子育てについての詩である。" "詩のある部分は覚えている" という部分です。 "子育て 詩" と"アマゾン"などで検索すると ドロシーなどの本を見つけることが出来ます しかしねこの詩が含まれているかは分らないでしょう。 ここはですね、詩に詳しい友人や子育て中の奥様方などに 聞くと案外出てくるものです この世の中には誰かが多分、子の詩を知っていて、 この詩を知っている人にうまく質問すれば、ほとんどの 場合、答えを得ることが出来るのでは無いだろうか? これを、私の研究の最終到達点は、コンピュータで実現することです。 研究 では何が必要か考えて見ましょう。 _まずは、知っているコンピュータを特定する _あいまいなキーワードから検索できるようにするです 私はこれらの問題を実験するために あいまいなキーワードから文書を特定する記述を 実際に検索ソフトに導入して、観測することにし ました。 そして、どのような要素が検索にとって重要になってくる のかを調べ、新たな方法論を提案します。 似た文書を発見するシステムについて 汎用であるということ コンピュータにプレイヤーが読みたい本を紹介して もらう、システムを作成するわけですが、ここでは 汎用的な部分の説明を行います。 まず多くのテキストがいったいどのような内容を持っている のかを紹介します。文やキーワードを人の手作業で行うのは難しい 理由です。 人の知識を用いない方法 そこで、コンピュータに自動化させてあげられる部分を特定して あげます。 コンピュータが獲得できる知識 コンピュータは文字を扱えます。連続した文字を集めたものを 単語として認識できます。テキストが収められているファイルを テキストとして認識することが出来ます。 コンピュータは単語を知りません、茶々などの優れた形態素解析の ソフトを使うなりすれば、単語を認識できますが、裏では辞書という人の 労力の塊が動いています。 汎用の部分ではn-Gramを用いることにしました。 N-Gramはコンピュータが 単語を獲得する手段です。N-Gramは後述します 単語の数を知ることが出来ます。 テキストの特徴を単語から 単語の特徴をテキストから得ることが出来ます。 テキストとテキストの関係は各々の単語から得ることが出来ます。 これらが、人の労力を用いずにコンピュータが知りえる汎用的な部分 ではないでしょうか? テキストの単語の類似性 単語からのテキストの類似性 近いテキストまたは単語の分類 パフォーマンスについて 人に教えてあげるにはパフォーマンスも大事です。 そして出来ることなら 考えているときは、ちょっとまって今考えているから。すぐ終わるから などといってあげないと、質問している当人は呆然と待ち続けるという く苦難を強いられます。 私は思うに1秒前後で3秒立つと、待たされいる気がするのではないでしょうか。 ひとつのコンピューターでの処理 知識の獲得プログラム 単語について 単語はN-Gramいう方法で抽出します。 例えば、 "ぼくは宇宙人です" という単語があるとします。 私達は経験的に "ぼく","は","宇宙人","です"と4つの単語に別けることが出来ます n-Gramでは単語を ぼ ぼく ぼくは ぼくは宇 ぼくは宇宙 ぼくは宇宙人 ぼくは宇宙人で ぼくは宇宙人です く くは くは宇 くは宇宙 くは宇宙人 くは宇宙人で くは宇宙人です は は宇 は宇宙 は宇宙じ は宇宙じん は宇宙じんで は宇宙人です 宇 宇宙 宇宙人 宇宙人で 宇宙人です 宙 宙人 宙人で 宙人てせす 人 人で 人です と何でもかんでも単語として捕らえます。 インディックス テキストが保持する単語の数と場所を保持する。かつ高速に 取り出しことができるようする必要があります。 7月23日の日記より 上は あし,あしあと、いちご、いちじく を 保存した場合のデータの中身です 文の情報 文は単語 メモリーとハードディスクの関係 い ろ は に ほ テキスト 今回は青空文庫で公開されているテキストを使用する予定です、 もちろん、限られた内容 複数のこんぴゅーたーでの処理 _まずは、知っているコンピュータを特定する _あいまいなキーワードから検索できるようにするです の上の部分 他のコンピュータにも、問い合わせるという処理を行います。 すぐに思いつく方法としてバケツリレーのような方法が考えられるの ではないでしょうか? 例えば名前上の図のパソコンに以下のように名前をケマス。JXTA関連 いろはA B C D E似た単語 Aは BC を知っていて Bは A D を知っていて Cは A D を知っていて Dは BC Eを知っていて Eは D を知っています Aが"子育ての詩"について知りたいとしたら AはBとCに"子育ての詩"について聞きます。 BはDに聞きます DはEに聞きます EはDに説明します DはBに説明します BはAに説明します かくして Aはネットワーク全体のコンピュータに質問できるわけです 複数のコンピュータ間での情報の共有方法はトテモ複雑です。 バケツリレーでは、解決で解決できることは少ないです。 P2PなどについてP2Pとは何か?〜基礎から研究紹介まで〜 が参考になります about Search Soft about Conventional Search System ディレクトリー型検索エンジン キーワード型検索エンジン about recentry Search Sstem 連想検索エンジン about My Search System about Text Sharring System about P2P System about association