研究紹介
研究紹介用デモ
企業のWebサイトで公開されている決算短信のPDFファイルから業績要因を含む文(例えば「スマートフォンの売り上げは引き続き拡大しました.」等)を自動的に抽出し、その抽出した業績要因を対象にした決算短信PDF検索システムです。3,821社の企業Webページから収集した106,885個の決算短信PDFを対象としています。例えば「エアコン」で検索すると、エアコンを業績要因にもつ文を検索し、その文が記載されている決算短信PDFとその企業を表示します。それにより、エアコンが業績要因である企業(エアコンと関連のある企業)を検索する企業検索としても利用が可能です。
URL: http://hawk.st.seikei.ac.jp/cees/
■ 入力
- ・企業名(例:「ソニー」「日立製作所」など。「日立」のような略称にも対応)
- ・製品等のキーワード(例:「太陽電池」「建設機械」など)
■ 出力
- ・入力が企業名であれば、その企業の決算短信を新しい順に出力し、決算短信から抽出した業績要因を、その業績要因に含まれているキーワードの重要度の順に表示
- ・入力が製品であれば、その製品を含む業績要因を含む決算短信と、その企業名を表示。企業の表示順は、入力キーワードのその企業における重要度順。
- ・検索結果の赤字は入力したキーワード。入力が企業名であった場合は、その企業にとって重要なキーワード
- ・上、下の矢印は、決算短信、もしくは業績要因文単位の極性(ポジティブ・ネガティブ)。↑がポジティブ、↓がネガティブ
「太陽電池」で検索した結果
■ 関連文献
-
酒井浩之,西沢裕子,松並祥吾,坂地泰紀,
企業の決算短信PDFからの業績要因の抽出,
人工知能学会論文誌,
vol.30,
no.1,
pp.172-182,
2015.
-
北森詩織,酒井浩之,坂地泰紀,
決算短信PDFからの業績予測文の抽出,
電子情報通信学会論文誌D,
vol.J100-D,
no.2,
pp.150$2013161,
2017.
決算短信PDFから因果関係を抽出し,それを用いて過去の因果関係を表示することができるシステムです。例えば,企業名をシステムに入力すると,その企業に関連する過去の因果関係を表示します.また、例えば原因として「猛暑」,結果として「エアコン」を入力すると,原因が「猛暑」で結果が「エアコン」を含む因果関係を情報として記述している決算短信PDFとその企業を検索することができます。それにより、「猛暑」であれば「エアコン」と関連のある企業を見つけることができ、その企業に投資するためのポジティブな判断材料として役立つことができます.
URL: http://hawk.st.seikei.ac.jp/CS/
■ 入力
- ・企業名(例:「ソニー」「日立製作所」など。)
- ・原因表現(例:「猛暑」)
- ・結果表現(例:「エアコン」)
■ 出力
- ・企業名のみの入力であれば、その企業の決算短信から抽出した因果関係を表示
- ・原因表現、結果表現を入力すれば、入力したキーワードを含む原因と結果を表示。例えば原因表現が「猛暑」、結果表現が「エアコン」であれば、決算短信PDFから抽出した「原因表現→猛暑の影響、結果表現→エアコンが好調」の記述とその決算短信PDF、企業を表示
原因表現を「猛暑」、結果表現を「エアコン」で検索した結果
■ 関連文献
-
坂地泰紀,酒井浩之,増山繁,
決算短信PDFからの原因・結果表現の抽出,
電子情報通信学会論文誌D,
vol.J98-D,
no.5,
pp.811$2013822,
2015.
-
坂地泰紀, 酒井浩之, 増山繁,
企業業績発表記事からの因果関係抽出,
第11回 人工知能学会 金融情報学研究会(SIG-FIN),
pp.37-43,
2013.
大学WEBサイトから抽出した研究室Webサイトを検索対象とした研究室検索システムです。例えば「テキストマイニング」で検索すると「テキストマイニング」を研究している研究室のトップページと、その所属大学を検索することができます。
URL: http://hawk.st.seikei.ac.jp/Lilas/
■ 入力
- ・キーワード(例:「テキストマイニング」「核融合」など)
■ 出力
「テキストマイニング」で検索した結果
■ 関連文献
-
宮崎敦也, 酒井浩之, 坂地泰紀,
大学Webページからの研究室トップページの抽出,
第7回 テキストマイニング・シンポジウム,
pp.37-41,
2015.
-
Hiroki Sakaji, Atsuya Miyazaki, Hiroyuki Sakai, Kiyoshi Izumi,
Extracting Laboratory Front Pages from University Websites,
The 6th International Workshop on Web Services and Social Media (WSSM-2017) In conjunction with The 20th International Conference on NBiS-2017,
2017.
非上場企業も含めた16,461社の企業WEBページから重要なキーワードを抽出し,抽出した重要なキーワードを検索対象とした企業検索システムです。例えば「太陽電池」と検索することで、太陽電池に関連のある企業を検索できます。さらに、検索クエリに関連したタグを推定し、検索結果の絞り込みが可能です。また、企業名を入力すると、その企業と関連のある企業を検索することができます。例えば「エプソン」で検索すると「ブラザー工業」が検索されます。上場企業に限定した企業検索システム(Lics-β)もあります。
LicsPlus: http://hawk.st.seikei.ac.jp/LicsPlus/
Lics-β: http://hawk.st.seikei.ac.jp/Lics/
■ 入力
- ・製品等のキーワード(例:「太陽電池」「建設機械」など)
- ・企業名(例:「エプソン」など。)
■ 出力
- ・キーワードと関連のある企業(例:「太陽電池」であれば「京セラ」「ダイトエレクトロン」など)
- ・入力した企業と関連のある企業(例:「エプソン」であれば「ブラザー工業」「富士ゼロックス」)
- ・キーワードに関連したタグ(例:「太陽電池」であれば「開発」「発電」など)
- ・タグをクリックすれば、そのタグが付与された企業のみを表示
「太陽電池」で検索した結果
■ 関連文献
-
本間友実子, 酒井浩之, 坂地泰紀,
企業Webページを用いた関連企業の抽出,
第7回 Webインテリジェンスとインタラクション研究会,
pp.13-14,
2015.
-
酒井浩之, 坂地泰紀,
企業Webページを対象とした企業検索システムのための検索クエリに関連するタグの推定,
第5回 テキストマイニング・シンポジウム ,
pp.41-45 ,
2014.
企業の業績発表記事に含まれる業績要因表現(例えば「主力の半導体製造装置の受注が好調」)を抽出し、その業績要因表現を対象にした検索システムです。 さらに、業績発表記事、および、業績要因表現に対して極性(positive、negative)、重要度(★)を付与します。
(青文字がポジティブ、赤文字がネガティブが付与された業績要因。また、重要度は★の数で表します。)
現在は研究室限定公開です。
URL: http://hawk.st.seikei.ac.jp/CEES/
「太陽電池」での業績発表記事の検索結果
業績要因抽出・極性付与・重要度付与
■ 関連文献
-
酒井浩之,増山繁,
企業の業績発表記事からの重要業績要因の抽出 ,
電子情報通信学会論文誌D,
vol.J96-D,
no.11,
pp.2866-2870,
2013.
[PDF]
-
Hiroyuki Sakai, Shigeru Masuyama,
Assigning Polarity to Causal Information in Financ
ial Articles on Business Performance of Companies,
IEICE Trans. Information and Systems,
E92-D,
12,
pp.2341- 2350,
2009.
[PDF]
-
Hiroyuki Sakai, Shigeru Masuyama,
Cause Information Extraction from Financial Articles Concerning Business Performance,
IEICE Trans. Information and Systems,
ED,
4,
pp.959-968,
2008.
[PDF]
公開プログラム
CEES(Causal expression extraction system)で使用した手がかり表現(「が好調」等)の自動抽出プログラムです。OSはLinuxで、Ubuntu 12.04にて動作確認をしています。
■ 関連文献
-
酒井浩之,西沢裕子,松並祥吾,坂地泰紀,
企業の決算短信PDFからの業績要因の抽出,
人工知能学会論文誌,
30,
1,
pp.172-182,
2015.
[PDF]
-
酒井 浩之, 野中 尋史, 増山 繁,
特許明細書からの技術課題情報の抽出,
人工知能学会論文誌,
24,
6,
pp.531-540,
2009.
[PDF]
-
酒井 浩之, 梅村 祥之, 増山 繁,
交通事故事例に含まれる事故原因表現の新聞記事からの抽出,
自然言語処理,
vol.13,
no.2,
pp.99-123,
2006.
[PDF]
自然言語処理
統計的手法を用いた文書自動要約
文書自動要約の研究として,文中の不要な連用修飾節,動詞連体修飾節,多重連体修飾節を認定し,削除することにより文圧縮を行う技術を研究しています.これらの技術を適用して要約生成時における重要文の文字数を削減することで,より高い圧縮率の要約生成が可能となります.これらの技術は,統計的手法を主に用いることで,従来の人手で作成した要約規則を用いる手法よりも高い精度,再現率を達成しているのに加え,削除可能な修飾節認定箇所のほとんどの場合をカバーしております.
例えば、文献[PDF]の研究は,削除可能な動詞連体修飾節を,被修飾名詞の修飾多様性に着目して認定する研究です.具体的には,修飾される頻度が低い,もしくは,修飾する動詞の種類が限定されている名詞を修飾する動詞連体修飾節を削除可能と認定します.そして,一般的な名詞を修飾している動詞連体修飾節を削除可能と認定しないことで,高い精度,再現率を達成しています(下記の図を参照).下記の図の例では,「膜生成速度」を修飾している動詞連体修飾節である「量産化のネックになっていた」を削除可能と認定し,「技術」を修飾している動詞連体修飾節である「量産化のネックになっていた太陽電池の膜生成速度を飛躍的に高める」を削除不可と認定できます.
削除可能な動詞連体修飾節の認定
また,複数文書要約に関する研究をしており、その一環として、ユーザとのインタラクションを導入した複数文書要約システムを開発いたしました(
文献[PDF]).本システムはユーザとのインタラクションを行うことで,ユーザにとって必要な情報を含む複数文書要約が自動的に生成されることが特徴であり,国立情報学研究所が主催する検索と要約のためのワークショップNTCIR4の要約タスクに参加したところ,良好な成績を達成いたしました.本システムでは文書集合から関連したキーワードを自動的に抽出し,ユーザがそれを選択することで,ユーザにとって必要な情報を含む複数文書要約が生成されます
テキストマイニング
Language Information Laboratory