Japanese IR Baselines 日本語情報検索ベースライン

NTCIR Data Search 1 (日本語，test)

データセットの準備

$ poetry run python -m baselines.prepare_dataset \
  ntcir_data_search_j \
  datasets/ntcir_data_search_j

索引付け

$ poetry run python -m pyserini.index.lucene \
  --collection JsonCollection \
  --input datasets/ntcir_data_search_j/docs \
  --language ja \
  --index indexes/ntcir_data_search_j \
  --generator DefaultLuceneDocumentGenerator \
  --threads 10 \
  --storePositions --storeDocvectors --storeRaw

検索

$ poetry run python -m pyserini.search.lucene \
  --index indexes/ntcir_data_search_j \
  --topics datasets/ntcir_data_search_j/test_topics.tsv \
  --output results/ntcir_data_search_j_bm25.trec \
  --language ja \
  --bm25

評価

$ poetry run ir_measures datasets/ntcir_data_search_j/test_qrels.txt results/ntcir_data_search_j_bm25.trec nDCG@10

MIRACL (日本語，dev)

データセットの準備

$ poetry run python -m baselines.prepare_dataset \
  miracl_j \
  datasets/miracl_j

索引付け

$ poetry run python -m pyserini.index.lucene \
  --collection JsonCollection \
  --input datasets/miracl_j/docs \
  --language ja \
  --index indexes/miracl_j \
  --generator DefaultLuceneDocumentGenerator \
  --threads 10 \
  --storePositions --storeDocvectors --storeRaw

検索

$ poetry run python -m pyserini.search.lucene \
  --index indexes/miracl_j \
  --topics datasets/miracl_j/test_topics.tsv \
  --output results/miracl_j_bm25.trec \
  --language ja \
  --bm25

評価

$ poetry run ir_measures datasets/miracl_j/test_qrels.txt results/miracl_j_bm25.trec nDCG@10

NTCIR-1 単言語検索（日本語，test）

データセットの入手

NTCIR-1: 情報検索／用語抽出研究用テストコレクションから「テストコレクション利用申込書」にしたがって利用申込を行う
得られたZipファイルを解凍してMLIR.TGZとTOPICS.TGZをoriginal_data/NTCIR-1/以下などに展開しておく
以下のファイルを読み込めることをlessコマンドなどで確認しておく（違う場所に展開されている場合にはconfig.yamlファイルの設定を変更しても良い）

original_data/NTCIR-1/topics/topic0031-0083
original_data/NTCIR-1/mlir/rel2_ntc1-j1_0031-0083
original_data/NTCIR-1/mlir/ntc1-j1

データセットの準備

$ poetry run python -m baselines.prepare_dataset \
  ntcir_1_j \
  datasets/ntcir_1_j

索引付け

$ poetry run python -m pyserini.index.lucene \
  --collection JsonCollection \
  --input datasets/ntcir_1_j/docs \
  --language ja \
  --index indexes/ntcir_1_j \
  --generator DefaultLuceneDocumentGenerator \
  --threads 10 \
  --storePositions --storeDocvectors --storeRaw

検索

$ poetry run python -m pyserini.search.lucene \
  --index indexes/ntcir_1_j \
  --topics datasets/ntcir_1_j/test_topics.tsv \
  --output results/ntcir_1_j_bm25.trec \
  --language ja \
  --bm25

評価

$ poetry run ir_measures datasets/ntcir_1_j/test_qrels.txt results/ntcir_1_j_bm25.trec nDCG@10

NTCIR-2 単言語検索（日本語，test）

データセットの入手

NTCIR-2はNTCIR-1の文書コレクションを含むためNTCIR-1の利用申込も必要となる．

NTCIR-1: 情報検索／用語抽出研究用テストコレクション，および，NTCIR-2: 情報検索用テストコレクションから「テストコレクション利用申込書」にしたがって利用申込を行う
NTCIR-1のZipファイルを解凍してMLIR.TGZをoriginal_data/NTCIR-1/以下などに展開しておく．
NTCIR-2のZipファイルを解凍してj-docs.tgz，topics.tgz，rels.tgzをoriginal_data/NTCIR-2/以下などに展開しておく．
以下のファイルを読み込めることをlessコマンドなどで確認しておく（違う場所に展開されている場合にはconfig.yamlファイルの設定を変更しても良い）

original_data/NTCIR-1/mlir/ntc1-j1
original_data/NTCIR-2/j-docs/ntc2-j1g
original_data/NTCIR-2/j-docs/ntc2-j1k
original_data/NTCIR-2/topics/topic-j0101-0149
original_data/NTCIR-2/rels/rel2_ntc2-j2_0101-0149

データセットの準備

$ poetry run python -m baselines.prepare_dataset \
  ntcir_2_j \
  datasets/ntcir_2_j

索引付け

$ poetry run python -m pyserini.index.lucene \
  --collection JsonCollection \
  --input datasets/ntcir_2_j/docs \
  --language ja \
  --index indexes/ntcir_2_j \
  --generator DefaultLuceneDocumentGenerator \
  --threads 10 \
  --storePositions --storeDocvectors --storeRaw

検索

$ poetry run python -m pyserini.search.lucene \
  --index indexes/ntcir_2_j \
  --topics datasets/ntcir_2_j/test_topics.tsv \
  --output results/ntcir_2_j_bm25.trec \
  --language ja \
  --bm25

評価

$ poetry run ir_measures datasets/ntcir_2_j/test_qrels.txt results/ntcir_2_j_bm25.trec nDCG@10

mpkato / japanese-ir-baselines Goto Github PK

japanese-ir-baselines's Introduction

Japanese IR Baselines 日本語情報検索ベースライン

NTCIR Data Search 1 (日本語，test)

データセットの準備

索引付け

検索

評価

MIRACL (日本語，dev)

データセットの準備

索引付け

検索

評価

NTCIR-1 単言語検索（日本語，test）

データセットの入手

データセットの準備

索引付け

検索

評価

NTCIR-2 単言語検索（日本語，test）

データセットの入手

データセットの準備

索引付け

検索

評価

japanese-ir-baselines's People

Contributors

Watchers

Recommend Projects

Recommend Topics

Recommend Org