STD 音声ツイッター 聞き耳インタフェース

研究内容紹介(2014.4現在)

  •  西崎研究室では,音声処理のための音響・言語・韻律に関する研究を幅広く行っています.そのいくつかについて簡単に説明します.WEB上のフリー百科事典である Wikipedia では,以下のトピックに関して簡単な説明が記載されています.音声処理や言語処理研究がどのようなものか簡単に知ることができます.  以下のような研究テーマに取り組んでいます.主に過去におこなっていた研究テーマです.現在行っているテーマにはテーマ名を青字にしています.他,共同研究などで公開できない研究テーマもあります.
  • 音声インタフェースの研究

     研究室では,音声インタフェース(音声認識を使って何かしらのシステムを操作する)研究を行なっています.最近では,Googleがスマートフォンに提供されている「Google音声検索」 などが代表的な実用化の例です.我々も世界の大勢の方に使っていただけるような音声インタフェースの開発を目指しています.
    • 聞き耳インタフェース 聞き耳インタフェース
      聞き耳インタフェースは,本研究室で開発した新しい考え方の音声インタフェースです.詳細はこちらを御覧ください.聞き耳インタフェースを利用したシステムは以下のとおりです.
      • 患者情報管理システム「聞き耳メアリ」(詳細はこちらをご覧ください)
      • 音声メモシステム「聞き耳メモリ」(詳細はこちらをご覧ください)
    • 音声でコミュニケーションをするTwitterシステムの開発 alpstweet
      音声入力→音声認識の機能を持つTwitterアプリはたくさん公開されています.我々の開発したアプリケーションは,つぶやいた音声をTwitterのタイムラインに投稿することができ,投稿者の生の声を聞くことができます.
      アプリケーションはこちら(音声つぶやき投稿支援システム「alpstweet」)で公開しています.本アプリはAndroid端末で動作するアプリとなっています.

    • 音声認識誤りの訂正インタフェース
      議事録の作成等で録音した音声を聞きながら書き起こしを行う作業をことが良くあります.これを音声認識を使って行う試みがいろいろなところで行われていますが,音声認識誤りがあるとそれを訂正しなくてはいけません.訂正作業を効率よく行うためのインタフェースの開発を行っています.デモ動画を用意しています.

    • (おまけ1)音声で二足歩行ロボットを制御している動画.本研究室ではこのような音声インタフェースの技術を学ぶことができます.

    • (おまけ2)音声でロボットアームを操作するデモ動画(本研究室で実習した高専生が作成したものです)
  • 音声認識関係の基礎研究

    • 講義音声の音声認識
      ここ数年の音声認識技術の発展により,ニュースなど原稿の読み上げ音声の認識はよくできるようになってきました.しかし,言い直しや言いよどみなどがとても多い講義音声を音声認識するのはまだまだ困難です.講義音声の音声認識技術の開発を行っています.
    • 話者認識・話者クラスタリング
      だれが喋ったのかを当てる(認識する)のが話者認識です.人間の声も,指紋と同様に声紋というものがあり,人によって異なります.これを利用します.
    • 雑音環境下での音声発話区間検出(VAD)
      発話区間を自動で検出することは,音声認識の前処理としては非常に重要です.しかし,雑音が混ざっている音声データでは,発話区間なのか雑音区間なのか区別がつきません.この問題に取り組んでいます.
    • 雑音環境中の音声ディクテーション
      音声ディクテーションとは,人間が喋った声を文字列に変換することです.いわゆる「音声ワープロ」のことです.これを一般的に『音声認識』と呼ぶこともあります.雑音環境下(乗り物の内部,人が多い場所)では,音声認識の性能が著しく劣化します.雑音環境下でも精度の高い音声認識を行うことを目標にしています.
  • 音声の韻律を応用した研究

    • 音声中の韻律情報に基づいた講義音声自動評価・教員特徴分析
      講義音声を対象に,それに含まれる様々な韻律特徴(たとえば,基本周波数)や言語的特徴(フィラーの使い方)を利用し,どんな特徴を持った講義音声が聞きやすいか,理解しやすいかなどを分析・調査し,講義音声の自動評価を行っています.
    • 音声に含まれる感情の判別
      感情判別は古くから音響的な特徴を分析し,韻律情報を用いた手法が行われてきました.本研究室では,音声に含まれている言語的な情報を利用することで感情判別を行う研究を行っています.
    • 面接音声の自動評価
      就職模擬面接のデータを利用し,印象の良し悪しを判定する研究も行っています.
  • 音声・言語処理,対話処理

    • 話し言葉中に含まれるフィラーの分析
      フィラーとは,話し言葉中に多く現れる「あー」「えーっと」等の間投詞と呼ばれている単語です.フィラーの使い方によって,聞き手が受ける印象がどうのように変わるのかを分析しています.
    • マルチメディア文書の情報検索・質問応答
      近年はコンピュータ技術の発展により,音声や動画といった大量のマルチメディアデータが簡単に扱えるようになってきました.こういった大量のデータに上手にアクセスする(検索する)技術の開発を目指しています.
    • 音声認識結果の自動/手動誤り訂正
      音声認識は100%できるものでありません.どうしても認識誤りを含んでいますが,この誤りを自動的に修正することを行っています.
    • 形態素解析誤りの自動訂正
      形態素解析とは,簡単に言えば文を単語列に分割する処理です(Wikipedia「形態素解析」参照).人名等の固有名詞を解析する場合,非常に処理が難しくなり,解析誤りをよく起こします.音声認識で用いられる言語モデル学習には,この処理が使われており,解析誤りを自動訂正することで音声認識の改善を目指しています.
  • 音声応用システム

    • 音声対話ロボット「キクラゲ」の開発
      対話ロボットの開発を行っています.(元)開発者のページはこちら.キクラゲのデモ動画
    • 音声ドキュメントの情報検索システムの開発
      大量の音声データの中から,必要な情報だけを検索する技術の開発を行っています.2009年5月から開始された裁判員制度など,今後様々な場所で利用される技術です.
    • 字幕システムの開発
      特に小学校で利用するための字幕システムの開発を行っています.

  • 連携機関

     共同研究等で,研究グループを作っている組織等は以下の通りです.