イノベーション推進機構 産学連携・URA領域

九州工業大学の研究者 -私たちはこんな研究をしています-

情報工学研究院

教授

坂本 比呂志

さかもと ひろし

所属
情報工学研究院
知能情報工学研究系
プロフィール
1971
生まれ
1998
博士(理学)
九州大学
1998
九州大学大学院システム情報科学研究科情報理学専攻博士後期課程修了
1996
九州大学大学院総合理工学研究科情報システム学専攻修士課程修了

インターネットの利用率が増加し、研究者や一部のユーザだけではなく、一般の人々もネットワーク上にデータを蓄積するようになり、従来の情報検索では、必要なデータにうまくアクセスできなくなりつつあります。
そこでこれからは、”ゴミ”と思われるデータをうまく選別して、いかに捨てるかという技術が必要になります。
これが現在の私の主要テーマです。

情報を捨てるための技術

● 研究テーマ

  • ❖巨大テキストからの重要情報の発掘を可能にする

● 分野

① グラフの局所的構造に基づく大規模半構造データからの高速パターン発見
② データの更新に対して頑健・高速な半構造データからの情報抽出アルゴリズムの構築
③ 半構造テキストデータの一般構造を推論する高度情報抽出アルゴリズムの構築

● キーワード

ウエブマイニング、データベース、XML、索引構造

● 実施中の研究概要

❖ 巨大テキストからの重要情報の発掘(マイニング)を可能にする新しい技術の開発

データを高速に検索したりマイニングするためには、データへ索引を付ける必要があります。しかし、GBを超える巨大テキストの索引構築は、必要な作業領域が大きく容易ではありません。そこで、圧縮されたデータから検索することが有望だと考えられます。ここで重要なのは、索引を圧縮するのではなく、圧縮データそのものを索引として使うということです。両者には必要とする作業領域に決定的な違いがあります。では、どのような圧縮をすれば索引として利用できるのでしょうか?
ここで圧縮法としての性質は、圧縮率よりも、原データの性質を保存することの方が重要です。データ圧縮の実用的なアルゴリズムは多数知られていますが、この性質を満足する理想的な手法は、まだ確立されていません。これを実現することで、巨大データから埋もれた重要情報を発掘できると考えています。
現在ネットワーク上に蓄積されている巨大なXML/HTMLデータは、リンク構造で結合された不均一なデータベースと見なすことができます。しかし、単にリンクを辿るだけでは、効率よく目的のデータにアクセスすることはできません。そこで、このようなグラフ構造に隠された部分構造を圧縮索引として補助的に用いることで、必要な情報にダイレクトにアクセスできる可能性があります。
(第1図 参照)

第1図・先生の研究概要

● 今後進めたい研究

ウェブマイニング、大学など、研究機関との共同研究や受託研究を希望しています。

● 過去の共同研究、受託研究、産業界への技術移転などの実績

① 『A space-saving approximation algorithm for grammar-based compression』
  IEICE Trans. on Information and Systems E92-D (2):158-165 (2009) H.Sakamoto, S.Maruyama, T.Kida, S.Shimozono
② 『有向グラフ上の到達可能性のための索引構造と大規模XMLデータベースへの応用』
  電子情報通信学会論文誌 J91-D (9):2217-2224 (2008) 中村有作、原口新平、舞田哲  哉、坂本比呂志
③ 『有向グラフ上の最短経路問題に対する効率的な索引付け』
  日本データベース学会論文誌、7巻、1号、pp.211-214 (2008) 原口新平、中村有作、坂本  比呂志
④ 『高速な到達可能性判定のための規模耐性の高い索引付け』
  日本データベース学会Letters 6 (1):77-80 (2007) 中村有作、舞田哲哉、坂本比呂志

● 関連リンク先

❖ 研究室ホームページ

❖ より詳しい研究者データ