(卒論)本の紹介をするソフトの製作
__
BackGround
 It became a convenient world. When I get hitch want to know , I can retrieves in enumerouse Data.
 this Enviroments is borned by developed World Wide Web. WWW have Search Engine. if I am used Search Engine I can be getted informntion that I want to know  and I can send out information too.

 I want to give an eye to Sharring Inforation in WWW. WWW have providing People and receiving People. providing people difintly hope for introduceing to corrlelate people with this information.  receiving People difanitly want to know corrlelate information.  

 I get suspicious to that someone can know information that want to know. WWW 's search system depends keyword. Receiving People must know suitable keyword. but,
__
ContentsList
  • Introduction
    • Background
  • 基礎となること
    • 検索エンジンについて
    • 膨大なデータを扱うことについて
      • 効率について
      • ハードとメモリーについて
      • データベースについて
      • HSQLDBについて
      • 用いた方法について
    • インディックスについて
      • 単語について
      • 形態素解析とn−Gram
      • TRIEについて
      • ハッシュについて
      • SuffixArray
      • ダブル配列
    • 複数のコンピュータを用いることについて
      • P2Pについて
      • 繋ぐ方法について
      • 他のアプケーションについて
      • 導入した方法について
    • パターン認識について
      • 似たテキストについて
      • 似た単語について
      • 分類について
      • 共起について
      • 機械学習について
      • 似たテキストを検索する方法について
      • インディックスの構造について
      • どのように分散するかについて
  • 実験環境の構築
    • 似たテキストを検索する方法について
    • indexの構成について
    • 分散について
    • 作意をもちせるためのオプションについて
  • 文の類似せいの研究
    • 全体を操作する
  • 作者ごとの類似性
  • 考察
_
イディックスについて
1−2−1 単語について
 コンピュータはデータを0と1の集まりとして表現している。文字や単語も データである以上0と1の集まりとして表現されるわけである。  日本語等は16個の1と0で表現することができる。同じく単語は文字の集まりとして 表現することができる。

1−2−1 n-Gramと形態素解析
 日本語の場合、文の中から単語を知ることができないことに注意したい 英語などのテキストは単語ごとに間がスペースが入っており、コンピュータは スペースからスペースまでの間が単語であることが分る。  しかし、日本語は単語と単語を別けるスペースは存在しない。コンピュータは 文がどのような単語を含むかを知りたい時は、初めから単語を知っっている必要がある。  ...

 しかし、この方法では辞書に収録されている単語と形態素解析の精度に依存するわけである。 N−Gramは ...

   
1−2−2 インディックスの構造について
 ここでは実際にソフトとして膨大な量のテキストから特定のキーワ−ドを持つ 単語を探す場合には、どれだけ速くテキスト特定することが出来るかが重要に なってくる。100万件のテキストがあったとしてひとつのテキストを0.01秒で 調べることが出来たとしても、1万秒も要してしまうことになる。
 このままでは1日に検索できる量は8単語と極めて少ない。
 そこで、前もってすべて文字の検索を行っておくのである。 辞書から単語データを探す。単語データから単語を含むテキストを特定する。 ...

   
1−2−3 TRIE
 ここでは実際にソフトとして膨大な量のテキストから特定のキーワ−ドを持つ 単語を探す場合には、どれだけ速くテキスト特定することが出来るかが重要に なってくる。100万件のテキストがあったとしてひとつのテキストを0.01秒で 調べることが出来たとしても、1万秒も要してしまうことになる。
 このままでは1日に検索できる量は8単語と極めて少ない。
 そこで、前もってすべて文字の検索を行っておくのである。 辞書から単語データを探す。単語データから単語を含むテキストを特定する。 ...

__
パターン認識について
 この章では、検索する機能を利用する人をサポートするために、  コンピュータがどのような情報を提供できるのかを説明します。  
1−4−1 似ているテキストを紹介する
 コンピュターは近い内容のテキストを紹介することができる。  もちろん、人間が行うような文や文体の雰囲気や意味合いを理解して  似たテキストを提供することができるわけではない。  そこで、**のとおり、テキストは単語の集まりをもちいて  同じ単語が含まれている割合をもとに  似ているテキストは同じ単語の数によって表現する。
1−4−1 すべてを走査する方法
 すべての単語の比較を行い同じ単語が**で示した方法をもちいるとしても問題が 生じる。 **にてn−Gramをもちいた場合、少なく取るとノイズが多くなり、 nを大きくとり過ぎると、共通の単語が少なくなる。  ノイズを含むことを考慮した上で、共通の単語を探す方法を考慮しなくてはならない。   
1−4−1 アルゴリズム
 Aテキストの単語N * Bテキストの単語N /全体の単語N**2  として、ノイズをはじく。

1−2−1 n-Gramと形態素解析
 日本語の場合、文の中から単語を知ることができないことに注意したい 英語などのテキストは単語ごとに間がスペースが入っており、コンピュータは スペースからスペースまでの間が単語であることが分る。  しかし、日本語は単語と単語を別けるスペースは存在しない。コンピュータは 文がどのような単語を含むかを知りたい時は、初めから単語を知っっている必要がある。  ...

 しかし、この方法では辞書に収録されている単語と形態素解析の精度に依存するわけである。 N−Gramは ...

   
1−2−2 インディックスの構造について
 ここでは実際にソフトとして膨大な量のテキストから特定のキーワ−ドを持つ 単語を探す場合には、どれだけ速くテキスト特定することが出来るかが重要に なってくる。100万件のテキストがあったとしてひとつのテキストを0.01秒で 調べることが出来たとしても、1万秒も要してしまうことになる。
 このままでは1日に検索できる量は8単語と極めて少ない。
 そこで、前もってすべて文字の検索を行っておくのである。 辞書から単語データを探す。単語データから単語を含むテキストを特定する。 ...

   
__

テレワークならECナビ Yahoo 楽天 LINEがデータ消費ゼロで月額500円〜!
無料ホームページ 無料のクレジットカード 海外格安航空券 海外旅行保険が無料! 海外ホテル