< Head> 今週の卒論報告プレゼン用ファイル
 私の卒論担当の先生であるスチュート先生は
外国人ですが、とても日本語が堪能なの方です。
 
 ですから、打ち合わせ等は日本語で出来ます。

 私はついつい 日本語で打ち合わせに望んでし
 まいます。
 
 
 英語で話しかれたら、これは
 英会話の能力が上昇するチャンスなのですが
 日本語で打つ合わせに望んでいます
 いつも 勿体無いなぁ〜。
 
 英会話も学べると考えて外国人の方を
 選んだのですが、実現できていません。
 

 今度の発表はなんとかAll Englishで実現した
 いものですが、::
 
 

Today Contents 01


 Search System Requirement
   about performance
   
 Index Perforamace
   about N-gram
   about TRIE
   about hash
   about Suffix Array
   about Double Array 

 Compress
   about huffman
   about LZ77
   
 JAVA's GC
   about GC's Architecture

Today Contents 02


 Association Search System
     
 Action Problem
   

Today Contents 01

新しい研究生(卒論の移動)が見に来るので変更

My Graduation Tema
   about Search Soft
     about Conventional Search System
     about My Search System
   about Text Sharring System
      about P2P System
      about association
   
Association 
   
      about Association 
      
      about history
      
      about 

simple Computer Search System
  
  about Index
     Index Perforamace
       about N-gram
       about TRIE
       about hash
       about Suffix Array
       about Double Array 
    
     Compress
        about huffman
        about LZ77
     JAVA's GC
        about GC's Architecture
    
  About linkage text index
        about index 


A Number of Computer Search Alogorhim
    
    about Performance
    
    
    





My Graduation Theme

BackGround
   規模の大きいデータベースの中から
   ”あいまい”な条件を元に任意の文書を探し出す方法が私の研究です。
  

   例えば、私が以前、探していた詩があります。

    『批判ばかりされた 子どもは
     非難することを おぼえる
      殴られて大きくなった 子どもは
     力にたよることを おぼえる

     笑いものにされた 子どもは
     ものを言わずにいることを おぼえる

     皮肉にさらされた 子どもは
     鈍い良心の もちぬしとなる

     しかし,激励をうけた 子どもは
     自信を おぼえる

     寛容にであった 子どもは
     忍耐を おぼえる

      賞賛をうけた 子どもは
     評価することを おぼえる

     フェアプレーを経験した 子どもは
     公正を おぼえる

     友情を知る 子どもは
     親切を おぼえる

     安心を経験した 子どもは
     信頼を おぼえる

      可愛がられ 抱きしめられた 子どもは
     世界中の愛情を 感じとることを おぼえる』
   
   みなさんはご存知でしょうか。
   
   皇太子殿下のお誕生日に際しての記者会見
  で紹介された詩です。
  ドロシー・ロー・ノルトによって書かれた詩であることを知りました。
  そして、彼女はアメリカの家庭教育学者であり
  この詩はスウェーデンの中学校の社会科の教科書に収録されていることなどが分ります
  (参考)
    
    
     この詩は、皇太子様が記者会見で紹介されたこともあり。実は調べるのに苦労はしませんで
  したがGoogleが「皇太子 記者会見 誕生 愛子様」などのキーワードを拾うようにな
  るまで待つ結果となりました。
   
   これは、google当のweb上での検索がうまくいった例です、、
  もしも、この詩を紹介した人が 著名な人でなく話題性がなかったら
  私はどのようなアプローチで、この詩を発見できたでしょうか。
  

  私がしっいたのは
   "子育てについての詩である。"
   "詩のある部分は覚えている"
  という部分です。
  
  
   "子育て 詩" と"アマゾン"などで検索すると
  ドロシーなどの本を見つけることが出来ます
   しかしねこの詩が含まれているかは分らないでしょう。
  
  
   ここはですね、詩に詳しい友人や子育て中の奥様方などに
  聞くと案外出てくるものです
  
   この世の中には誰かが多分、子の詩を知っていて、
  この詩を知っている人にうまく質問すれば、ほとんどの
  場合、答えを得ることが出来るのでは無いだろうか?
  
  
   これを、私の研究の最終到達点は、コンピュータで実現することです。

研究
  
  では何が必要か考えて見ましょう。
  
   _まずは、知っているコンピュータを特定する
   _あいまいなキーワードから検索できるようにするです
 
   私はこれらの問題を実験するために
   あいまいなキーワードから文書を特定する記述を
   実際に検索ソフトに導入して、観測することにし
   ました。
   
   そして、どのような要素が検索にとって重要になってくる
   のかを調べ、新たな方法論を提案します。
   
  
  

似た文書を発見するシステムについて
   
   汎用であるということ
   
    コンピュータにプレイヤーが読みたい本を紹介して
   もらう、システムを作成するわけですが、ここでは
   汎用的な部分の説明を行います。
    まず多くのテキストがいったいどのような内容を持っている
   のかを紹介します。文やキーワードを人の手作業で行うのは難しい
   理由です。
    
   人の知識を用いない方法
    そこで、コンピュータに自動化させてあげられる部分を特定して
   あげます。
    
     コンピュータが獲得できる知識
      コンピュータは文字を扱えます。連続した文字を集めたものを
     単語として認識できます。テキストが収められているファイルを
     テキストとして認識することが出来ます。
      
      コンピュータは単語を知りません、茶々などの優れた形態素解析の
     ソフトを使うなりすれば、単語を認識できますが、裏では辞書という人の
     労力の塊が動いています。
      汎用の部分ではn-Gramを用いることにしました。 N-Gramはコンピュータが
     単語を獲得する手段です。N-Gramは後述します
      
      単語の数を知ることが出来ます。 テキストの特徴を単語から
     単語の特徴をテキストから得ることが出来ます。
     テキストとテキストの関係は各々の単語から得ることが出来ます。
     
      これらが、人の労力を用いずにコンピュータが知りえる汎用的な部分
     ではないでしょうか?
     
          テキストの単語の類似性
     
     
     
     
          
     単語からのテキストの類似性
     
     
     
     
     
     近いテキストまたは単語の分類
     
     
     
     
     
     
     
     
   
パフォーマンスについて
  
   人に教えてあげるにはパフォーマンスも大事です。 そして出来ることなら
  考えているときは、ちょっとまって今考えているから。すぐ終わるから
  などといってあげないと、質問している当人は呆然と待ち続けるという
  く苦難を強いられます。
   
   私は思うに1秒前後で3秒立つと、待たされいる気がするのではないでしょうか。
  
   
ひとつのコンピューターでの処理
    
   知識の獲得プログラム
    
      単語について
       単語はN-Gramいう方法で抽出します。
       例えば、 
        "ぼくは宇宙人です"
             という単語があるとします。 
       私達は経験的に 
       "ぼく","は","宇宙人","です"と4つの単語に別けることが出来ます
       n-Gramでは単語を
       ぼ ぼく ぼくは ぼくは宇 ぼくは宇宙 ぼくは宇宙人 ぼくは宇宙人で 
       ぼくは宇宙人です く くは くは宇 くは宇宙 くは宇宙人 くは宇宙人で
       くは宇宙人です は は宇 は宇宙 は宇宙じ は宇宙じん は宇宙じんで
       は宇宙人です 宇 宇宙 宇宙人 宇宙人で 宇宙人です 宙 宙人 宙人で
       宙人てせす 人 人で 人です 
       
       と何でもかんでも単語として捕らえます。
      インディックス
         テキストが保持する単語の数と場所を保持する。かつ高速に
          取り出しことができるようする必要があります。
       
       
       7月23日の日記より
        上は あし,あしあと、いちご、いちじく を
        保存した場合のデータの中身です
   
   
      文の情報
	    文は単語
        
        
        
        
      メモリーとハードディスクの関係
      
      
      
	
    
    
    テキスト
    今回は青空文庫で公開されているテキストを使用する予定です、
   もちろん、限られた内容

複数のこんぴゅーたーでの処理
   _まずは、知っているコンピュータを特定する
   _あいまいなキーワードから検索できるようにするです
   の上の部分
  
   
   他のコンピュータにも、問い合わせるという処理を行います。
   
    すぐに思いつく方法としてバケツリレーのような方法が考えられるの
   ではないでしょうか?
    
      例えば名前上の図のパソコンに以下のように名前をケマス。
    
    
           A
        
          B                  C
                   D
  
                 E
    
    
     似た単語        Aは  BC  を知っていて    Bは A  D を知っていて    Cは A D を知っていて    Dは  BC Eを知っていて    Eは    D を知っています   Aが"子育ての詩"について知りたいとしたら   AはBとCに"子育ての詩"について聞きます。   BはDに聞きます   DはEに聞きます      EはDに説明します   DはBに説明します   BはAに説明します       かくして Aはネットワーク全体のコンピュータに質問できるわけです                複数のコンピュータ間での情報の共有方法はトテモ複雑です。    バケツリレーでは、解決で解決できることは少ないです。        P2PなどについてP2Pとは何か?〜基礎から研究紹介まで〜    が参考になります about Search Soft about Conventional Search System       ディレクトリー型検索エンジン       キーワード型検索エンジン    about recentry Search Sstem 連想検索エンジン about My Search System                     about Text Sharring System about P2P System about association
JXTA関連 いろは

PC用眼鏡【管理人も使ってますがマジで疲れません】 解約手数料0円【あしたでんき】 Yahoo 楽天 NTT-X Store

無料ホームページ 無料のクレジットカード 海外格安航空券 ふるさと納税 海外旅行保険が無料! 海外ホテル