NL194-4
長岡技科大 電気系 自然言語処理研究室
| 文献情報 | |||||
|---|---|---|---|---|---|
| 著者 | 柴木 優美, 永田 昌明, 山本 和英 | ||||
| タイトル | 日本語語彙大系を用いたWikipediaからの汎用オントロジー構築 | ||||
| 学会 | 情報処理学会 研究会報告 | ||||
| ID | NL194-4 | ページ | 年 | 2009 | |
| URL | |||||
目次 |
[編集] 概要
Wikipediaからis-a関係の部分だけを抽出し、is-a関係のオントロジーを構築する。
[編集] 手法の概要
Wikipedia単体ではなく、上位階層に既存のオントロジー「日本語語彙大系」を利用した。
日本語語彙大系の末端のクラスにWikipediaのカテゴリをつなげ、
つなげた部分より下位にさらにWikipediaのカテゴリ階層を伸ばしていくという手法。
さらにカテゴリに分類されている記事ページからインスタンスを抽出する。
[編集] 結果
Wikipediaの約半分のカテゴリと記事ページをオントロジー化することができた。
[編集] 質問
- Q. Wikipediaを約半分しか利用できていないのはなぜか?
- A. 末端の語彙大系のクラスにしかWikipediaを接続していないことが問題だと思います。末端でないところに接続されることによって、捨てられてしまうWikipediaのカテゴリがたくさんあります(発表資料の補足資料を参照)。ただ、確認はしていません。今後検討していきます。
- Q. 従来手法の再現率は?
- A. 従来手法では再現率は出していません。そもそも何を正解とするのか、正解データがとてもつくりにくいので再現率が出せないのだと思います。Wikipediaをどれくらい利用したかという点から見れば、カテゴリの利用率は桜井らは全体の15〜20%(くらいだと思うが分母は定かでない)、小林らは全体の45%、本手法は47%です。記事ページの利用率は、小林らは45%で本手法は55%です(桜井らは記事ページは利用していない)。いずれにせよ利用できていないものはかなりたくさんあります。
- Q. 海外の研究はどんなものがあるか?
- A. 桜井らと小林らの手法は海外の手法を参考につくられたものです。海外でも同じような研究がされています。本手法は、Wikipediaのカテゴリをただ既存シソーラスに対応づけるのではなく、対応づけたWikipediaからさらに階層構造をつくっていくという手法をとっています。このような研究は今までにされていません。
