文字列を制する者は情報を制す
情報学基礎、知能情報学
文字列検索、索引、データ圧縮、文字列パターンマイニング
研究の対象は文字列です。文字列というと、我々が意思を伝達するために用いる、いわゆる「自然言語」を思い浮かべるかもしれませんが、ここではより一般的に「記号の列」を扱います。例えば、生命の設計図と言われる DNA の塩基配列は {A, T, G, C} の4つの記号からなる文字列ですし、音符の列も文字列です。コンピュータ上のあらゆる情報は記号の列(究極的には {0, 1} の記号からなるビット列)で表されているため、文字列を扱うことはコンピュータ科学の本質の一つです。
近年、情報化社会の進展やセンサーの高精度化を背景にコンピュータ上で処理すべき情報が爆発的に増加していることから、文字列を効率的に処理する手法の研究は重要性を増しています。例えば、「文字列検索」は2つの文字列(テキストとパターン)が与えられた時に、テキスト中のパターンの出現位置を求める処理ですが、このような基本的な処理にあっても、より効率的に行うために様々な手法が考案され続けています。特に、近年問題になっているデータの肥大化に対応するため、データを圧縮し圧縮データ上で直接処理を行うことで、蓄積と処理の効率を同時に向上させる技術(圧縮文字列処理技術)の開発に力を入れています。また、(1) 不一致を許した検索や文字の置換を許した検索などより高度な文字列処理の手法、(2) 繰り返し構造や回文構造などテキスト中の特徴的な構造を検出する手法、(3) テキスト中に頻出する文字列パターンを発見する手法などの研究も行っています。
高速な実装および様々な実データを用いた解析