CLuPes

手がかり表現自動獲得プログラム(CLue Phrases Extraction Software)

CEES(Causal expression extraction system)で使用した手がかり表現を自動抽出するプログラムです。

  1. プログラム本体: clupes.pl
  2. CaboCha解析: bnstCabo.pm

インストール

本プログラムの動作には、Linuxにおいて以下のプログラムがインストールされている必要があります。 本プログラムはUbuntu 12.04にて動作確認をしています。
  1. MeCab 0.994 以降、および、MeCab の perlバインド
  2. CaboCha 0.64 以降、および、CaboCha の perlバインド
  3. Perl の Encode、XML::Simple、Parallel::ForkManager モジュール

インストール手順

Ubuntu 12.04のインストール直後から,本プログラムが動作するまでの手順を示します。

・ C++コンパイラ

・ 必要なPerlモジュールのインストール

・ MeCab

・ mecab-ipadic(UTF-8)

・ MeCabのperlバインド

・ CRF++

・ CaboCha

・ CaboChaのPerlバインド

 

使用方法

clupes.pl と bnstCabo.pm を同一ディレクトリに置き、入力文ファイル(sentence.txt)、初期表現リスト(posi.list)、拒否表現リスト(nega.list)を用意したうえで、以下のように実行

perl clupes.pl -s sentence.txt -p posi.list -n nega.list -b 0.5 -t 5

 

入力文ファイル(sentence.txt)

「文ID 文」(間は半角スペース)のように記述します。文IDは必ず文ごとに固有のものにして下さい。


 

初期表現リスト(posi.list)

初期手がかり表現と共通頻出表現のリストです。以下のようなフォーマットのファイルを用意します。タグ([Particle], [Common], [Clue])と表現の間は半角スペース。また、#はコメントです。


 
初期手がかり表現は「格助詞リスト+[Clue]タグの表現」となります。上記の例では、「が好調」「が不振」「で好調」「で不振」が初期手がかり表現となります。

拒否表現リスト(nega.list)

ノイズとして除去する手がかり表現、共通頻出表現のリストです。以下のようなフォーマットのファイルを用意します。タグ([Particle], [Common], [Clue])と表現の間は半角スペース。また、#はコメントです。


 
[Particle]タグで指定された格助詞を先頭にもつ手がかり表現は全て除去されます。 また、「全ての格助詞+[Clue]タグで指定された表現」の手がかり表現を除去します。 拒否リストを増やすことで、劇的に精度が向上します。

実行結果

cause.list というファイルが実行結果として生成されます。


 
ファイルのフォーマットは以下のようになります。(核文節とは、共通頻出表現を構成する文節の最後尾の文節です。)


 

関連文献

  1. Hiroyuki Sakai, Shigeru Masuyama, Cause Information Extraction from Financial Articles Concerning Business Performance, IEICE Trans. Information and Systems, ED, 4, pp.959-968, 2008. [PDF]
  2. 酒井 浩之, 野中 尋史, 増山 繁, 特許明細書からの技術課題情報の抽出, 人工知能学会論文誌, 24, 6, pp.531-540, 2009. [PDF]
  3. 酒井 浩之, 梅村 祥之, 増山 繁, 交通事故事例に含まれる事故原因表現の新聞記事からの抽出, 自然言語処理, 13, 2, pp.99-123, 2006. [PDF]
Language Information Laboratory
SEIKEI University