NL194-4

長岡技科大 電気系 自然言語処理研究室

文献情報
著者柴木 優美, 永田 昌明, 山本 和英
タイトル 日本語語彙大系を用いたWikipediaからの汎用オントロジー構築
学会情報処理学会 研究会報告
IDNL194-4 ページ 2009
URL

目次

[編集] 概要

Wikipediaからis-a関係の部分だけを抽出し、is-a関係のオントロジーを構築する。

[編集] 手法の概要

Wikipedia単体ではなく、上位階層に既存のオントロジー「日本語語彙大系」を利用した。
日本語語彙大系の末端のクラスにWikipediaのカテゴリをつなげ、
つなげた部分より下位にさらにWikipediaのカテゴリ階層を伸ばしていくという手法。
さらにカテゴリに分類されている記事ページからインスタンスを抽出する。

[編集] 結果

Wikipediaの約半分のカテゴリと記事ページをオントロジー化することができた。

[編集] 質問

Q. Wikipediaを約半分しか利用できていないのはなぜか?
A. 末端の語彙大系のクラスにしかWikipediaを接続していないことが問題だと思います。末端でないところに接続されることによって、捨てられてしまうWikipediaのカテゴリがたくさんあります(発表資料の補足資料を参照)。ただ、確認はしていません。今後検討していきます。
Q. 従来手法の再現率は?
A. 従来手法では再現率は出していません。そもそも何を正解とするのか、正解データがとてもつくりにくいので再現率が出せないのだと思います。Wikipediaをどれくらい利用したかという点から見れば、カテゴリの利用率は桜井らは全体の15〜20%(くらいだと思うが分母は定かでない)、小林らは全体の45%、本手法は47%です。記事ページの利用率は、小林らは45%で本手法は55%です(桜井らは記事ページは利用していない)。いずれにせよ利用できていないものはかなりたくさんあります。
Q. 海外の研究はどんなものがあるか?
A. 桜井らと小林らの手法は海外の手法を参考につくられたものです。海外でも同じような研究がされています。本手法は、Wikipediaのカテゴリをただ既存シソーラスに対応づけるのではなく、対応づけたWikipediaからさらに階層構造をつくっていくという手法をとっています。このような研究は今までにされていません。
個人用ツール