教育・研究活動
研究開発

松原茂樹(兼任室員・助教授)

■研究開発事項

  1. 学術情報データベースへの対話的アクセス機能の実現に関する研究
  2. 学術情報デジタルドキュメントの知的変換技術の開発に関する研究

■研究開発概況(テーマごとの課題内容と成果、今後の課題等)

1. 学術情報データベースへの対話的アクセス機能の実現に関する研究

  大量の学術情報が日々生産されており、情報検索インタフェースは必要なデータを効率よく探す上で欠かせないツールとなっている。しかしながら、現状の情報検索は、文字列の一致に基づく方式がほとんどであり、その精度は必ずしも高くなく、優れたユーザインタフェースを備えた学術情報アクセス環境の実現が強く望まれている。
  本研究では、操作性に優れた新しい情報検索機能として、対話的情報検索システムの実現を目指している。ユーザがシステムとの対話を進めていく過程でユーザの検索対象が明らかになり、真に必要な情報を引き出すことが可能となる。今年度は、そのための要素技術として、自然な話し言葉理解手法に関する研究を実施した.本手法では、ユーザへの制限を極力排除するために,処理のロバスト性を重視し、大規模コーパスを利用した統計的アプローチを採用した(図1)。本手法により、文法に逸脱した現象を含む自然は発話に対して、高い精度で解析を実行可能なことが明らかになった。
  当面の課題として、効率的な情報検索を可能にするための対話戦略の検討とそれを用いた対話制御手法の実現が挙げられる。対話制御は、システムの利用可能性を左右する中核技術であり、実験的な試行を大量に実施することにより、ユーザの多様な嗜好をふまえたシステムの実現が必要となる。

図1 話し言葉解析の統計データ作成インタフェース

2. 学術情報デジタルドキュメントの知的変換技術の開発に関する研究

  学術情報の流通機構を実現するにあたり、情報を発信する生産者と情報を受信する消費者の双方にとって効果的なシステムの構築が重要となる。中でも消費者のニーズは実に多様であり、真に必要な情報を獲得可能な環境の実現が強く求められている。学術情報の多くがドキュメントとして提供されている現状において、大量のドキュメント群を様々な形式に加工する技術が重要となる。
  本研究では、学術情報ドキュメントの解析、要約、換言、分類、翻訳などの加工処理をユーザニーズにしたがって実行可能なシステムの実現を目指している。最新の言語処理技術を活用することにより、知的機能を備えた情報変換の実現が可能となる。今年度は、ドキュメントの翻訳に焦点をあて、バイリンガルコーパスの高度化に関する研究を実施した。その結果、二言語間の自動アライメント(図2)、及び、対訳情報の自動獲得のための方式を開発した。これらは、実際のデータを用いた実験を通して、その有効性を示す結果が得られている。
  今後は、ドキュメントの自動解析について研究し、その半構造化データへの変換手法を開発するともに、そのデータを活用した質問応答処理方式について検討する予定である。

図2 視覚化された講演ドキュメントの対訳アライメント

■成果のリスト

[論文等]

  1. Shigeki Matsubara, Takahisa Murase, Nobuo Kawaguchi, and Yasuyoshi Inagaki: Stochastic Dependency Parsing of Spontaneous Japanese Spoken Language, Proceedings of 17th International Conference on Computational Linguistics, Vol.1, pp.640-645 (2002).
  2. Shigeki Matsubara, Shinichi Kimura, Nobuo Kawaguchi, Yukiko Yamaguchi and Yasuyoshi Inagaki: Example-based Speech Intention Understanding and Its Application to In-Car Spoken Dialogue System, Proceedings of the 17th International Conference on Computational Linguistics, Vol.2, pp.633-639 (2002).
  3. 松原茂樹, 河口信夫, 外山勝彦, 武田一哉: 音声対話コーパスの収集と利用, 人工知能学会誌, Vol.17, No.3, pp.279-284 (2002).
  4. Nobuo Kawaguchi, Kazuya Takeda, Shigeki Matsubara, Ikuya Yokoo, Taisuke Ito, Kiyoshi Tatara, Tetsuya Shinde and Fumitada Itakura, CIAIR speech corpus for real world speech recognition, Proceedings of 5th Symposium on Natural Language Processing & Oriental COCOSDA Workshop 2002, pp.288-295 (2002).
  5. Akira Takagi, Shigeki Matsubara, Nobuo Kawaguchi, and Yasuyoshi Inagaki: A Corpus-based Analysis of Simultaneous Interpretation, Proceedings of 5th Symposium on Natural Language Processing & Oriental COCOSDA Worskshop 2002, pp.167-174 (2002).
  6. Yukiko Yamaguchi, Kazuaki Ito, Nobuo Kawaguchi, Shigeki Matsubara, and Yasuyoshi Inagaki: Design and Development Tool for Telephone-based Network Information System, Proceedings of the 6th World Multiconference on Systemics, Cybernetics and Informatics, Vol.III, pp.285-290 (2002).
  7. Shinichi Kimura, Shigeki Matsubara, Nobuo Kawaguchi, Yukiko Yamaguchi and Yasuyoshi Inagaki: An Example-based Approach to Speech Intention Understanding, Proceedings of The 6th World Multiconference on Systemics, Cybernetics and Informatics, Vol.IX, pp.348-353 (2002).
  8. 加藤 芳秀, 松原 茂樹, 外山 勝彦, 稲垣 康善: 確率文脈自由文法に基づく漸進的構文解析, 電気学会論文誌, Vol.122-C, No.12, pp.2109-2119 (2002).
  9. Shigeki Matsubara, Akira Takagi, Nobuo Kawaguchi, and Yasuyoshi Inagaki: Bilingual Spoken Language Corpus for Simultaneous Machine Interpretation Research, Proceedings of 3rd International Language Resources and Evaluation Conference, Vol.I, pp.153-159 (2002).
  10. Nobuo Kawaguchi, Shigeki Matsubara, Kazuya Takeda, Fumitada Itakura: Multi-Dimensional Data Acquisition for Integrated Acoustic Information Research, Proceedings of 3rd International Language Resources and Evaluation Conference, pp.2043-2046 (2002).
  11. 加藤 芳秀, 松原 茂樹, 外山 勝彦, 稲垣 康善: 主辞情報付き文脈自由文法に基づく漸進的な依存構造解析, 電子情報通信学会論文誌, Vol.J86-D-II, No.1, pp.84-97 (2003).

[講演等]

  1. Bilingual Spoken Language Corpus for Simultaneous Machine Interpretation Research (機械翻訳研究のための多言語コーパスの構築と分析), 言語資源と評価に関する国際会議(第3回), Las Palmas, Spain, 平成15年5月30日.
  2. An Example-based Approach to Speech Intention Understanding (事例に基づく話し言葉理解手法), システム・人工知能・情報学に関する世界会議(第6回), Florida, U.S.A, 平成15年7月16日.
  3. Stochastic Dependency Parsing of Spontaneous Japanese Spoken Language (自然な話し言葉のロバスト処理技術), 計算言語学に関する国際会議(第19回), Taipei, Taiwan, 平成15年8月29日.

戻る