言い換え/パラフレーズの自動化に向けて
言い換え処理に関する日本初(おそらく世界初)のワークショップが、 言語処理学会年次大会併設ワークショップとして2001年3月末に開催されました。 当日は非常に多数ご参加いただき、ありがとうございました。
概要
- 開催日時
- 2001年3月30日
- 開催場所
- 東京大学駒場キャンパス
- 発表件数
- ロング 8件
- ショート 14件
- 発表時間
- ロング 20分+ 5分
- ショート12分+3分
開催の趣旨/スコープ/提案者 (論文募集のメールより) 時間割
- [09:10 - 09:25] 開催趣旨
- [09:25 - 11:05] セッション1:コーパス(4件)
(休憩10分)- [11:15 - 12:15] セッション2:言語学/認知科学的(4件、ショート)
(昼食55分)- [13:10 - 14:25] セッション3:基礎研究的(5件、ショート)
(休憩15分)- [14:40 - 16:20] セッション4:規則/辞典(4件)
(休憩10分)- [16:30 - 17:30] セッション5:目的指向的+まとめ(4件、ショート)
- [17:30 - 17:45] まとめの時間
- 問い合わせ先
- 全体について: 佐藤理史(京都大学)
- 資料請求について 学会センター関西 言語処理学会係
- このページについて: 山本和英(長岡技術科学大学)
プログラム
[ 9:10 - 9:25] 開催趣旨(ショート1件)
- なぜ言い換え/パラフレーズを研究するのか
佐藤 理史(京都大学)本ワークショップの開催趣旨説明として、表題についての筆者に意見を述べる。 要点は以下の通り。(1) 多くの応用において、異形式同内容の表現を扱うこと が必要となってきている。これを解決する技術は、意味的マッチング、ないし は、言い換え/パラフレーズ技術であり、これらは、これからの言語情報処理 技術の中核技術となる。(2) 言い換え/パラフレーズは、テキストそれ自身の 処理から、テキストが表現している意味内容(情報)の処理へのステップアッ プの足掛かりとなる。
[ 9:25 - 11:05] セッション1: コーパス(4件)
- 換言事例の収集 −機械翻訳における多様性確保の観点から−
白井 諭、山本 和英(ATR音声言語通信研究所)英対訳文を元に日本語または英語の同義表現集を作成する方法について報告す る。日本語語彙大系により14,000件あまりの日英基本構文の対応付けが可能と なり、網羅性を高めるための検討が継続されている。この対応付けは1対1に 限定されるが、単語に対する類語集(シソーラス)があるように、構文に対す る類義集があれば便利であると考えられる。そこで、日英基本構文の網羅性向 上の一環として収集された日英対訳用例文を題材に、日本文に対して英文との 意味的対応を制約とする別の言い方の収集を試みたところ、十分実行できるこ とが分かった。また、英文に対しても同様の結果が得られた。本稿では、検討 の概要と言い換え文の作成情況を報告する。- 複数の新聞を使用した言い替え表現の自動抽出
関根 聡(New York University)情報抽出では、ある特定の事柄に対する様々な表現パターンを作成する事が大 きな課題となっている。これを自動的に行なえれば情報抽出の技術の大きな飛 躍が期待できる。ここでは、同じイベントを報道している複数の違った新聞社 の記事から同じ事柄を表している表現を自動的に抽出する方法を提案する。同 じ日の複数の新聞記事から同一内容の記事を発見し、同一内容の文を発見し、 それらの文の構文解析結果から同一表現部分を抽出するというカスケード方式 を採用した。これらの抽出過程では組織名、人名などの固有表現が同一性を判 定する重要な鍵として使用されている。1ヶ月分の5つの英語の新聞の実験では、 200程度の言い替え表現候補が抽出できた。- 階層的句アライメントを用いた日本語翻訳文の換言
今村 賢治、秋葉 泰弘、隅田 英一郎(ATR音声言語通信研究所)機械翻訳の自動評価を行うには、人手で作成した翻訳文と、機械翻訳結果との 比較が必要である。しかし、一般的には翻訳の正解は一つではないため、複数 の人手翻訳文(以下、正解文)を用いた方が、精度は向上する。本稿では、翻 訳自動評価の精度を目指して、人手で作成した複数の日本語正解文から、意味 的に同等な他の正解文を自動生成を試みる。正解文から意味的、構文的に同等 な句を抽出し、句同士を入れ替えることにより、換言処理を行う。同等な句の 抽出には、対訳コーパスからの翻訳知識抽出手法の一つである、階層的句アラ イメントを用いた。本稿では、階層的句アライメントの概要、換言処理、換言 結果の評価、および問題点について議論する。- 言い換えの統一的モデル --- 尺度に基づく変形の利用 ---
村田 真樹、井佐原 均(総務省通信総合研究所)パラフレーズの研究は平易文生成,要約,質問応答と多岐の分野において重要 なものであるが,本稿ではパラフレーズ研究の統一的モデルとして,尺度に基 づく変形による手法を提案し,このモデルによって平易文生成,要約,質問応 答などの分野におけるパラフレーズを扱えることを示す.また,パラフレーズ の自動生成を目指すには,パラフレーズに関する知識の自動獲得が必要となる. 本稿では類似テキスト対の照合によるパラフレーズ知識の自動獲得についても 述べる.
[11:15 - 12:15] セッション2: 言語学/認知科学的(ショート4件)
- 何のための「言い換え」か 〜 読者の視点からのアプローチ
森口 稔(大阪府立大学)難解な専門用語を一般的な言葉に直し、まわりくどい言い回しをストレートな 表現に改める。「言い換え」は、概ねその方向でなされており、通常、逆の方 向を考えることはない。つまり、一見、「わかりやすく言い換える」方向に見 えるが、では、その目的は何か。もし、それが、内容についての背景知識がな い読者を慮ってのことだったとしても、果たして本当にそういった表現レベル での言い換えに効果はあるのだろうか。本発表では、表現レベルでの言い換え の問題点について、テクニカルコミュニケーションの観点から考察する。- 発話と発話機能,付随的行為との相互関連づけの試み
山崎 誠、加藤 安彦(国立国語研究所)人間が実際に行う言語運用においては,特定の発話機能を発揮させるために発 話が行われるが,その際に,それに伴って発話をサポートするための付随的行 為がなされる場合が多い。付随的行為は非言語的な身体動作が主であるが,顔 の表情や声の調子といった言語表現に近接したものも含まれよう。言語運用に おいては,これらの発話・発話機能・付随的行為が密接に連携しあって発話を 作り上げている。これらの間の相互の関連づけのパターンを記述・分類し,形 式化することが可能になれば,より人間の言語運用実態に近い言語運用システ ムの構築ができるものと思われる。発話と発話機能との関係は,直接表現とメ タ言語表現との対応とみなすことができ,言語表現レベルを異にする「言い換 え」の関係にあると考えられる。また,発話と付随的行為との関係は,言語情 報とノンバーバルな情報との対応とみなすことができ,伝達手段を異にする近 似的情報変換(ゆるい意味での「言い換え」)の関係にあると見なすことがで きる。この発表は,発話・発話機能・付随的行為との関係を小説やシナリオを 通して概観してみたものであり,どのくらいの対応パターンがあり得るか,ま た,それらの形式化の可能性などについて報告するものである。発話に関連付 けられる機能や行為表現のデータを蓄積,分析することで,次のような応用技 術への発展が期待される。 (1)人間の行動を手掛かりにその意図を推測する システムの開発。 (2)動作と発話を適切に対応させる言語運用システムの開 発。- 意味内容とモダリティを変えないための言語的手段
針持 和郎(広島修道大学)「言い換え/パラフレーズ」がおこなわれれば必ず意味が変わるということを 前提 に,どのような言い換えの場合にどのように意味が変わるかという問題 を,主として 意味論・語用論の観点から考察し,テキストの言い換えに際し て「中核となる意味内 容」及びそれに係わる発信者の態度をできるだけ保持 するためにはどのような言語的 手段が取れるかということを中心課題とした い。(キーワード:命題,モダリティ ー,認知)- 統語・形態規則を用いた日本語専門用語異形の自動認識
芳鐘 冬樹、辻 慶太(東京大学)、影浦 峡(国立情報学研究所)、 Christian Jacquemin(仏 LIMSI-CNRS)テキスト中に出現する日本語専門用語の異形を認識するルールベースのメカニ ズムについて報告する。本研究で報告するシステムでは,ある用語の言い替え (統語的・形態的に変形した「異形」)を,もとの用語にマッピングする用語 変形規則に基づいて,テキストから異形を抽出する。このようなフレームワー クは,英語やフランス語などの欧米語には,既に適用されており,その有用性 が確かめられている。本研究では,日本語の特殊な性質を考慮に入れた変形規 則を記述すれば,日本語にも上手く適用することが可能であることを示す。さ らに,このシステムの情報検索(自動索引)への応用可能性についても報告す る。
[13:10 - 14:25] セッション3: 基礎研究的(ショート5件)
- 機械翻訳の訳文改善
佐良木 昌(長崎純心大学)論説英文や科学技術英文では、名詞句に続く関係節や後置形容節が多用される。 しかも、これらの後置修飾節が長い場合が多いので、名詞句+後置修飾を、連 体修飾の構造として訳出するとたいへん読みにくい和訳文となる。和訳文では、 主部と述部が遠く離れ、両者の間に長い連体修飾を伴う名詞節が割り込むから である。また、機械翻訳では、抽象名詞を中心とする名詞句を、その構造その ままに訳文を生成するので、たいへん生硬な和文となってしまうことは否めな い。いわゆる翻訳調の和訳文ではなく、機械翻訳において自然な和文を生成す るための論理と方法とについて、しかも英語の表現構造自体から導き出しうる 妥当性のある論理に基づいて、訳文を生成する方法を検討する。- あるテキストの要約結果と捉えられる文を言い換えるには, 元のテキスト情報を使わない手はない --- 言い換えと要約/縮訳との相互関係 ---
安達 久博(宇都宮大学)従来の文の言い換えに関する研究の多くは,対象(言い換えるべき)文のみを 処理の入力とし,変換規則や文法規則、辞書などの情報を利用して、出力文を 生成するアプローチを採用している.しかし、例えば、新聞記事の表題文(ヘッ ドライン)を言い換える事例では、提供される(利用できる)情報源として、 リード文の存在がある.すなわち,ヘッドラインはこのリード文の要約/縮訳 結果と捉えることができる.そのため,このリード文も入力対象に加えること が考えられる.ヘッドラインは字数の制約により、助詞の省略や動詞の体言止 め、略字等の多用により、非常に分かりづらい日本語文となる傾向がみられる. そこで、本発表では、要約前の情報を保持するリード文の情報を利用する言い 換えのアプローチの提案、意見表明を行なう.ちょうど、ヘッドラインとリー ド文との中間に位置する文を生成する方法と捉えることもできる.- 日本語モダリティ表現とその言い換え
首藤 公昭、田辺 利文、吉村 賢治(福岡大学)日本語文では話者の判断や態度、時制、否定などの広義のモダリティ情報が文 末に表現される。典型としては助動詞、終助詞、活用語の命令形、などの形式 素が用いられるが、現実の文では「〜かも しれません」、「〜て ください」、 「〜た ほうがいい」といった複合表現でモダリティ情報が示されることも多 い。筆者らはこれらの表現を一般的に「助述表現」と呼び、その収集と意味の 整理を行った。本発表では書き言葉、話し言葉を包含した、この種の意味の分 類試案を示し、表現の意味的類似性および意味を保存した表現の言い換え規則 について報告する。- 多重修飾された名詞句からの換言事例の自動収集
大竹 清敬、児玉 充、増山 繁(豊橋技術科学大学)、 山本 和英(ATR音声言語通信研究所)複数の修飾要素が一つの被修飾要素にかかる多重修飾に着目し、多重修飾され た名詞句から換言表現を得る事を検討する。多重修飾は同一の被修飾要素にか かるものであるため、類似した関係を持つ場合が多い。たとえば、「変装した あやしい集団」は自然に感じても、「変装したまともな集団」が自然であると は言い難い。以上のことから、本研究では、2重修飾における2つの修飾要素間 の換言可能性を検討し、これを自動収集する。つまり、本研究の目的は、上に 示した例の場合、「変装した」⇔「あやしい」と換言可能ならば、これを自動 収集しようというものである。- 大量文書のイリデセント・ビュー
武田 浩一、長尾 確(日本IBM 東京基礎研究所)大量文書の効果的な組織化・サマリーの提供は、例えばテキストからテキスト へのマッピングである、翻訳・要約・言い換えといった手法、あるいはテキスト マイニングのような情報抽出/発見手法によって実現されてきた。しかし、 文書に含まれる豊富な情報と構造は、固定的な観点からの組織化では活用でき ないことも多い.例えば,大量のメールに対して、「オレの悪口言ってる奴」 という観点で、悪口の度合いや悪口を頻繁にいう相手といったメタ情報を含む 観点からの情報の組織化と提示といったことを可能とする手法について検討する.
[14:40 - 16:20] セッション4: 規則/辞典(4件)
- 多重修飾に着目した文内要約:削除型換言
大竹 清敬、増山 繁(豊橋技術科学大学)文内での要約を実現するために、連体修飾要素を削除することは自然であると 考える。しかし、連体修飾要素を削除すべきかどうかの判断は、目的とする要 約に依存しており、容易ではない。本研究では、一般的な要約を作成する場合 における多重修飾の削除に関して、できるだけ自然に削除を行う手法を提案す る。この手法に基づいたシステムを作成し、NTCIR2 のタスクのひとつである TSCのA2タスク(人間が作成した要約と比較可能な要約を目的とする)に参加し た。その結果と、TSCでのシステムの評価結果に基づく本手法の評価について 報告する。- 特許請求項の可読性向上のための自動言い換えについての考察
新森 昭宏、齋藤 豪、奥村 学(東京工業大学)特許明細書中で当該特許の権利範囲を規定する個所である特許請求項(クレー ム)は通常、一般の人にとって極めて読みにくい形で記述されている。企業活 動における特許の重要性が増している中で、特許請求項の可読性を向上するた めの言い換えを自動で行うシステムを開発することができれば、そのニーズは 大きい。特許請求項の記述スタイルとその低可読性に関する分析に基づいて、 望ましい言い換え結果を考察し、そのための手法について提案する。提案手法 の一部を実装したプロトタイプと現時点でのその評価について述べ、今後の研 究課題をまとめる。- コミュニケーション支援のための言い換え
乾 健太郎(九州工業大学)言い換えの直接的なアプリケーションの一つに,障害や学習不足が原因で言語 理解能力が十分でない人に対する文章読解支援がある.すなわち,一般の文章 をより平易で理解しやすい表現に言い換えること(テキスト簡単化)ができれ ば,文章理解の支援ができると期待できる.異言語間機械翻訳と対比させた場 合,テキスト簡単化は,構造変換の対象が多くの場合対象文のごく一部である, 問題解決的側面を持つなど,いくつか異なる側面を持っている.本発表では, それらの対比に基づいて,テキスト簡単化技術の要件,テキスト簡単化に有効 な言い換えのバリエーション,アーキテクチャ,実現への方法論について論じ, 我々の現在までの試みを報告する.- 国語辞典に基づく文章理解とパラフレーズ
黒橋 禎夫、酒井 康行、鍜治 伸裕(京都大学)我々は現在次のような研究プログラムを進めている.(1)言語のパラフレーズ を生成・認識するためのアルゴリズムの明確化とシステムの構築を行い,これ により言語の冗長性を吸収する.(2)1の成果を利用することにより,言語で表 現された知識を複合的に関連付け,その上での推論・連想の枠組みを明らかに する.このための具体的第一歩として,国語辞典を知識源とし,その知識に基 づいて文章中の語間の関連性を把握し,さらにそこからパラフレーズを生成す る研究について述べる.
[16:30 - 17:30] セッション5: 目的指向的+まとめ(ショート4件)
- オンライン文書のインタラクティブ・パラフレーズ
東中 竜一郎(慶応義塾大学)、長尾 確(日本IBM 東京基礎研究所)コンテンツに関するメタデータのような、あるドキュメントに対して、そのド キュメントに関連する情報を付加することはマークアップ言語等を利用するこ とで可能である。そこで、ドキュメントの特定の単語にメタ情報としてその単 語の意味情報を追加することで、高度な自動辞書引きを可能にし、ユーザが分 からない単語を画面上での簡単な操作で理解可能な単語に言い換えることを可 能にする。さらに、言い換え後の単語でも理解が促進されない場合、ユーザの さらなるインタラクションにより何回でも、インクリメンタルに言い換えがで きる仕組みを提案する。解決の手順は以下のようになる。1.ドキュメントへの アノテーション(メタデータなどのコンテンツの補足情報)の作成 アノテー ションには、統語構造に関するアノテーション(統語アノテーション)と語義 に関する アノテーション(語義アノテーション)がある。2.言い換え用の辞 書の作成 国語辞典などの定義文に対して、統語アノテーションと語義アノテー ションを追加する。3.ルールに基づく言い換えエンジンの構築4.ユーザのイン タラクション処理と言い換えエンジンを制御する言い換えシステムの構築 ユー ザインタラクションの手法には、3種類(クリックパラフレーズ、リストパラ フレーズ、リージョン パラフレーズ)ある。5.ユーザ操作履歴の再利用 ユー ザのプロファイル(履歴等)を作成し、以降の言い換えに利用する。- 携帯端末へのカタログ的情報の表示のための言い換え方策
渡部 聡彦、武井 純孝、中川 裕志(東京大学)i-mode のような携帯端末からの情報アクセスにおいては、文章の意味を保ち つつ文 字数を削減することが重要である。それと同時に、限られた画面を有 効に利用しかつ 内容の理解表示が容易な表示にすることが必須である。ここ では、カタログ的情報の 表示をターゲットにして、一つの文書を各項目毎に 階層的に分割を行う。その上で分 割された各文書に対してその項目やより上 位の項目の持つ情報を利用した言い換えや 省略を行う場合の表示方策につい て検討する。具体的には、東京大学の図書館案内を 対象にし、表現の簡略化 などについての実験的検討結果を報告する。- 言い換えのプログラム理解システムへの応用
川崎 治夫(国士舘大学)プログラム理解システムは、与えられたプログラムを理解した結果として、こ なれた説明文を出力することが多い。また、事前に知識を持っていないプログ ラムについては、理解できないという根本的問題を持っている。そこで我々は、 こなれた文の生成に着目して、プログラム理解システムに言い換えを応用する ことにより、システムに事前知識がないプログラムに対しても、それと類似し たプログラムに関する知識を持っていれば、理解したのと同等のこなれた説明 文の出力ができることを示すことを目的とする。こなれた説明文は、プログラ ムを理解した結果として得られた翻訳で言えば直訳的説明文が、理解され言い 換えられた結果と見なし、事例ベース推論を使うことにより生成する。- 換言処理の現状と課題 [HTML] [PDF]
山本 和英(ATR音声言語通信研究所)換言処理に関わる現状の整理を行なう。現在問題となっている本質は何か、あ るいは周辺分野(要約、機械翻訳)との関係などについて私見を述べ、今後どの ような観点からどのように研究を進めるべきかについて提案を行なう。同時に、 日本語の換言処理(周辺分野を含む)に関してこれまでに行なわれてきた研究文 献の、筆者の知る限りの列挙を試みる。
[17:30 - 17:45] まとめの時間全体のまとめとして、ワークショップの提案者、発表者、聴衆のみなさまの全員が 意見交換をする時間を作りました。当日の発表をふまえた上で、 今後の議論の活発化と研究の進展のために みなさまの建設的な意見などを是非お聞かせください。