Tag Archives: Search Engine

検索エンジンを実装 (6)NOT演算

今回は集合演算のNOT演算ついて紹介します。この処理は、例として検索の際に「sky NOT rain」と指定すると、”sky”というキーワードを含むページから”rain”を … Continue reading

Posted in Java | Tagged , , , | Leave a comment

検索エンジンを実装 (5)OR演算

前回がAND演算でしたので今回はOR演算ついて紹介します。今記事で紹介している演算アルゴリズムよりも高効率なものは存在するようですが、今回は割愛します。 OR演算処理の概要 上の図から、ある2つの語の転置インデックスリス … Continue reading

Posted in Java | Tagged , , , | Leave a comment

検索エンジンを実装 (4)AND演算

AND演算処理の概要 上の図から、ある2つの語の転置インデックスリストをA, Bとします。ここで、要素をそれぞれa, b(整数)とし演算結果を格納するリストをCとするとき、AND演算は主に以下の処理内容を繰り返します。 … Continue reading

Posted in Java | Tagged , , , , , | Leave a comment

検索エンジンを実装 (3)文書内の検索語を特定

今回実装したことは、 IndexRecordクラスにフィールド更新用のメソッドやハッシュフィールドを追加(今後改善の必要大)。 検索語を含んでいるファイルをピックアップする(色々と無駄な部分あり)。 辺りです。 後述に現 … Continue reading

Posted in Java | Tagged , , | Leave a comment

検索エンジンを実装 (2)出現位置とその文書ID

id:d-kamiさんから改良版Make2Gram付きトラックバックを頂きました(連絡方法がわからんのでトラックバックで – マイペースなプログラミング日記)(はてなダイヤリーから移転前)。d-kamiさん、 … Continue reading

Posted in Java | Tagged , , | Leave a comment

検索エンジンを実装 (1)転置インデックス作成

今回はN-gramでテキストを分解します。N-gram法とは対象の文字列を一定のN文字単位で分解し、それの出現頻度を求める方法です。これによって、検索エンジンに使われる転置インデックスを作成したいと思います。転置インデッ … Continue reading

Posted in Java | Tagged , , , | 1 Comment