研究分野
公開システム
- ■ CEES : http://hawk.st.seikei.ac.jp/cees/
-
企業のWebサイトで公開されている決算短信PDFファイルから業績要因を含む文を自動的に抽出し、その抽出した業績要因を対象にした決算短信PDF検索システムです。例えば「太陽電池」で検索すると、太陽電池を業績要因にもつ業績要因文を検索し、その文が記載されている決算短信PDFとその企業を表示します。それにより、「太陽電池」が業績要因である企業=「太陽電池」と関連のある企業を検索する企業検索としても利用が可能です。↑、↓の矢印は、決算短信、もしくは業績要因の極性(ポジティブ・ネガティブ)を表します。
- ■ E-CEES : http://hawk.st.seikei.ac.jp/cees2/
-
企業のWebサイトから環境活動等のESG情報を自動的に抽出して分類し、検索対象としたESG情報検索システムです。例えば「太陽電池」で検索すると、太陽電池を使った「GHG排出量削減の取り組み」についての情報と実施している企業を検索できます。企業WebサイトからESG情報を抽出するための学習用データとして、日経NEEDS様が提供している
日経ESGデータを使用しています。
- ■ U-CEES : http://hawk.st.seikei.ac.jp/u-cees/
-
EDINET閲覧(提出)サイト(
http://disclosure.edinet-fsa.go.jp/)にて公開されている有価証券報告書から業績要因を含む文を自動的に抽出し、その抽出した業績要因を対象にした有価証券報告書検索システムです。例えば「アルミニウム」で検索すると、アルミニウムを業績要因にもつ業績要因文を検索し、その文が記載されている有価証券報告書と該当の企業名,その企業における事業セグメント、おそび、当該事業セグメントの業績文を表示します。さらに、企業名で検索すると、その企業における事業セグメントごとの業績要因文、業績結果文を、重要な事業セグメント順に表示します。また、検索された有価証券報告書をクリックすると、その有価証券報告書の内容を要約して表示します。
- ■ CS : http://hawk.st.seikei.ac.jp/CS/
-
決算短信PDFから因果関係を抽出し,それを用いて因果関係を検索することができるシステムです。例えば原因として「猛暑」,結果として「エアコン」を入力すると,原因が「猛暑」で結果が「エアコン」を含む因果関係を情報として記述している決算短信PDFとその企業を検索することができます。それにより、「猛暑」であれば「エアコン」が好調な企業=「猛暑」で業績が変動する企業を見つけることができ、その企業に投資するための判断材料として役立つことができます.
- ■ RECS : http://hawk.st.seikei.ac.jp/RECS/
-
決算短信から抽出した業績要因文を使用し、入力した複数企業における共通要素を推定して、共通要素と関連のある企業(新規の顧客となりうる企業)を自動的に検索できるシステムです。例えば「キヤノン」「セイコーエプソン」「ブラザー工業」といった複数の企業における共通要素(「プリンタ」「インクジェット」など)を推定し,新規関連企業(「リコー」「ローランド ディー.ジー.」など)を自動的に検索できます。さらに,抽出した新規関連企業は事業内容別に分類されます。
- ■ LiLas : http://hawk.st.seikei.ac.jp/Lilas/
-
大学WEBサイトから抽出した研究室Webサイトを検索対象とした研究室検索システムです。例えば「テキストマイニング」で検索すると「テキストマイニング」を研究している研究室のトップページと、その所属大学を検索することができます。
- ■ Lics-Plus : http://hawk.st.seikei.ac.jp/LicsPlus/
-
非上場企業も含めた16,461社の企業WEBサイトから重要なキーワードを抽出し,抽出した重要なキーワードを検索対象とした企業検索システムです。例えば「太陽電池」と検索することで、太陽電池に関連のある企業を検索できます。また、企業名を入力すると、その企業と関連のある企業を検索することができます。例えば「エプソン」で検索すると「ブラザー工業」が検索されます。
テキストマイニング
情報洪水の時代と言われるようにWeb上に溢れている情報に溺れることなく積極的に活用するための情報技術として、自然言語処理を基に、テキストマイニング、テキスト自動要約、質問・応答システム、Webマイニング等を重点的に研究しています。具体的には、新聞記事から交通事故事例記事を抽出し、さらに、事故原因表現を抽出する技術、経済新聞記事から企業の業績発表記事を抽出し、さらに、その記事における業績要因(なぜ、業績が回復したのか、その要因を表している表現)を抽出する技術、抽出した業績要因に対して極性(ポジティブ、ネガティブ)を付与する技術、複数文書要約技術、略語とその元となった語との対応関係の自動抽出といった技術を開発してきました。
自然言語処理について
自然言語処理とは、人間が日常的に使っている自然言語やテキスト情報をコンピュータに処理させる一連の技術です。例えば、ひらがなを漢字に変換する技術も自然言語処理です。また、情報検索も自然言語処理の分野に入ります。なぜなら、検索サイトが対象にしている情報はWeb上のテキスト情報であり、それらを収集し、高速に検索できるように変換する処理が必要になるからです。その他にも、企業のコールセンターに寄せられる大量の質問事項を自動的に分析して商品開発に役立てたり、企業のプレスリリースや新聞記事を自動的に分析して株式投資判断の支援に使ったりといった事例があります。
自然言語処理の面白さ(+大変さ)
自然言語処理の根本にあることは、「人間がやれば膨大な時間がかかることを計算機を使って自動的に行う。」です。情報検索でも(実際は不可能ですが)すべてのWebページを人間が記憶して、頭の中で検索すればいいわけです。これを計算機が自動で行ってくれれば便利です。人間は楽できます。
しかし、言語という複雑なものを計算機に処理させることは大変なことでもあります。そもそも、計算機は単語の意味を理解できず、データとしてしか認識できません。例えば「大学」という単語も、計算機は「学術研究および教育の最高機関」という意味を認識できず、文字コード(UTF-8やSJIS)の集合としか分からないのです。しかし、計算能力と記憶能力だけは人間とは比較にならないくらい強力です。このようなアンバランスな能力で、いかに人間と同じような自然言語の処理ができるか(そして人間が楽ができるか)。それが自然言語処理の面白さであり、大変さだと言えるでしょう。