教育・研究活動
研究開発

吉川 正俊(兼任室員・教授)

■研究開発事項

  1. XML文書検索システムの開発とテストコレクションの構築
  2. 更新に対して頑健なXML索引の開発

■研究開発概況(テーマごとの課題内容と成果、今後の課題等)

1. XML文書検索システムの開発とテストコレクションの構築

XQueryのような述語論理に基づく問合せモデルとは異なり、データの類似度などの連続量の概念を持つ問合せモデルを導入し、XML用サーチエンジンの検索アルゴリズムの開発と実験を行なった。利用者からの入力は、単語やタグ名の集合という単純な問合せを想定する.開発アルゴリズムの性能を評価するためには、テストコレクションが必要となるが、XML文書検索システムのためのテストコレクションの構築、評価基準および評価手法の設定を行うための国際的なプロジェクトであるINEX (Initiative for the Evaluation of XML retrieval)が開始されることを知り、このプロジェクトに我が国唯一のチームとして参加した.このプロジェクトのもとでIEEE論文誌の大量の論文(20種類6年分、論文総数 12,107件)を対象とするテストコレクション作成に協力するとともに、プロトタイプシステムの本コレクション向けの改良を行った。今後は,我々の検索システムを本テストコレクションを用いて評価しその結果を分析する予定である。

2. 更新に対して頑健なXML索引の開発

XMLデータの特徴である木構造を効率良く表現する符号化法やその符号化法を用いた、検索、更新ともに効率良く実行可能なXMLデータ索引として以下の三種類の索引の開発を行った。一つめは,動的範囲ラベル付け手法である。これは、範囲ラベル付け手法における包含定理がラベル間の順序関係のみを利用していることに着目し、部分文書挿入箇所からある閾値内の近傍のラベルを局所的に付け替えることにより大規模なラベル付け替えを防ぐ.二番目の方法である区間4分割法は、挿入箇所のリージョンを表現するために浮動小数点を用いることにより付け替えを必要とするラベルの数を削減する。実験により、検索と更新の比が9対1の場合でも、従来の静的なリージョンに比較し、性能が向上することを示した。三番目の方法は、rUID (recursive UID)であり、大規模なXML文書に対しても与えられたノード番号からその親ノードの番号を簡単に計算可能である特徴を持つ。また、これらとは別に、RDFデータを対象とするsuffix arrayを拡張した索引構造に関する基礎研究を行った。今後は、rUIDおよびRDFデータ索引の性能評価を行う予定である。

■成果のリスト

[著書]

  1. Masatoshi Yoshikawa: “XML Databases”, in Nontraditional Database Systems, The Information Processing Society of Japan and Taylor & Francis Books Ltd., ISBN 0-415-30206-4, 2002.(分担執筆)
  2. Shunsuke Uemura, Masatoshi Yoshikawa and Toshiyuki Amagasa: “Heijo -- A Video Database System for Retrieving Semantically Coherent Video Information”, in Nontraditional Database Systems, The Information Processing Society of Japan and Taylor & Francis Books Ltd., ISBN 0-415-30206-4, 2002.(分担執筆)

[国内論文誌]

  1. 兵 清弘, 天笠 俊之, 吉川 正俊, 植村俊亮: “ウェアラブルコンピューティング環境におけるMPEG-7出版を利用した映像検索システム”, 日本データベース学会 Letters, Vol. 1, No. 2, pp. 28-31, 2003年3月.
  2. 江田 毅晴, 天笠 俊之, 吉川 正俊, 植村俊亮: “XML木のための更新に強い節点ラベル付け手法”, 日本データベース学会 Letters, Vol. 1, No. 1, pp. 35-38, 2002年10月.
  3. Fatiha Sadat, Akira Maeda, Masatoshi Yoshikawa and Shunsuke Uemura: “Exploiting and Combining Multiple Resources for Query Expansion”, IPSJ Transactions on Databases, Vol. 43, No. SIG9(TOD15), pp. 39-54, September 2002.

[外国論文誌]

  1. Junko Tanoue, Masatoshi Yoshikawa and Shunsuke Uemura: “The GeneAround GO viewer”, Bioinformatics, Vol. 18, No. 12, pp. 1705-1706, Dec. 2002.
  2. Yasushi Sakurai, Masatoshi Yoshikawa, Shunsuke Uemura and Haruhiko Kojima: “Spatial Indexing of High-Dimensional Data Based on Relative Approximation”, The VLDB Journal, Vol. 11, No. 2, pp. 93-108, DOI 10.1007/s00778-002-0066-9, 2002.

[国際会議]

  1. Toshiyuki Amagasa, Masatoshi Yoshikawa, and Shunsuke Uemura: “QRS: A Robust Numbering Scheme for XML Documents” (poster), 19th International Conference on Data Engineering (ICDE 2003), Bangalore, India, March 5-8, 2003.
  2. Kenji Hatano, Hiroko Kinutani, Masahiro Watanabe, Masatoshi Yoshikawa and Shunsuke Uemura: “An Appropriate Unit of Retrieval Results for XML Document Retrieval”, INEX 2002 Workshop, pp.66-71, Wadern, Germany, December 2002.
  3. Fatiha Sadat, Masatoshi Yoshikawa, Shunsuke Uemura: “Cross-Language Information Retrieval Using Multiple Resources and Combinations for Query Expansion”, Second International Conference on Advances in Information Systems (ADVIS2002), Lecture Notes in Computer Science (LNCS), Springer-Verlag, Vol. 2457, pp.114-122, Izmir, Turkey, October 23-25, 2002.
  4. Fatiha Sadat, Masatoshi Yoshikawa, and Shunsuke Uemura, “Exploiting Thesauri and Hierarchical Categories in Cross-Language Information Retrieval”, 5th International Conference on Text, Speech and Dialogue (TSD2002), Lecture Notes in Computer Science (LNCS), Springer-Verlag, Vol. 2448, pp.139-146, Brno, Czech Republic, September 9-10, 2002.
  5. Kazunari Sugiyama, Kenji Hatano, Masatoshi Yoshikawa and Shunsuke Uemura: “A Method of Improving Feature Vector for Web Pages Reflecting the Con tents of their Out-linked Pages”, 13th International Conference on Database and Expert Systems Applications (DEXA2002), Lecture Notes in Computer Science (LNCS), Springer-Verlag, Vol. 2453, pp. 891-901, Aix-en-Provence, France, September 2-6, 2002.
  6. Takamasa Ueda, Toshiyuki Amagasa, Masatoshi Yoshikawa, and Shunsuke Uemura: “A System for Retrieval and Digest Creation of Video Data Based on Geographic Objects”, 13th International Conference on Database and Expert Systems Applications (DEXA2002), Lecture Notes in Computer Science (LNCS), Springer-Verlag, Vol. 2453, pp. 768-778, Aix-en-Provence, France, September 2-6, 2002.
  7. Kenji Hatano, Hiroko Kinutani, Masatoshi Yoshikawa and Shunsuke Uemura: “Information Retrieval System for XML Documents”, 13th International Conference on Database and Expert Systems Applications (DEXA2002), Lecture Notes in Computer Science (LNCS), Springer-Verlag, Vol. 2453, pp. 758-767, Aix-en-Provence, France, September 2-6, 2002.
  8. Dao Dinh Kha, Masatoshi Yoshikawa and Shunsuke Uemura: “Application of rUID in Processing XML Queries on Structure and Keyword”, 13th International Conference on Database and Expert Systems Applications (DEXA2002), Lecture Notes in Computer Science (LNCS), Springer-Verlag, Vol. 2453, pp. 279-289, Aix-en-Provence, France, September 2-6, 2002.
  9. Fatiha Sadat, Akira Maeda, Masatoshi Yoshikawa, and Shunsuke Uemura: “A Combined Statistical Query Term Disambiguation in Cross-Language Information Retrieval”, The Third International Workshop on Natural Language and Information Systems (NLIS2002), in conjunction with the 13th International Conference on Database and Expert Systems Applications (DEXA2002), pp. 251-255, Aix-en-Provence, France, September 2-3, 2002.
  10. Junko Tanoue, Noboru Matoba, Masatoshi Yoshikawa, and Shunsuke Uemura: “GeneAround: A Browsing System for Gene Annotation Using XML Technologies”, The Third International Conference on Web-Age Information Management (WAIM'02), regular paper, Lecture Notes in Computer Science (LNCS), Springer-Verlag, Vol. 2419, pp. 236-246, Beijing, August 11 - 13, 2002.
  11. Fatiha Sadat, Akira Maeda , Masatoshi Yoshikawa and Shunsuke Uemura: “Statistical Query Disambiguation, Translation and Expansion in Cross-Language Information Retrieval”, In Proceedings of the LREC 2002 Workshop on Using Semantics for Information Retrieval and Filtering: State of the Art and Future Research, Las Palmas, Spain,May-June 2002.

[講演等]

  1. 吉川正俊「XMLとデータベース」情報処理学会北陸支部設立10周年記念シンポジウム基調講演, 2002年10月25日.

戻る