検索エンジンを実装 (1)転置インデックス作成


今回はN-gramでテキストを分解します。N-gram法とは対象の文字列を一定のN文字単位で分解し、それの出現頻度を求める方法です。これによって、検索エンジンに使われる転置インデックスを作成したいと思います。転置インデックスの作成方法にはN-gramの他に形態素解析があります。両者の性能の長短は全文検索 – Wikipediaに詳しく載っています。

Javaソースコード(Make2gram.java)

さて、まずは文字列を2単語に切り分けるプログラムを作成しました。データ構造は単純にArrayListで、出現頻度も求めていません。

入力ファイル(text.txt)

実行結果

関連記事 (Related Articles):


検索エンジンを実装 (1)転置インデックス作成」への1件のフィードバック

  1. ピンバック: techlog

コメントを残す