2010年10月8日 CEATECと併催された音声研究会に参加してきましてので記録メモ
音声研究会
http://www.ieice.org/iss/sp/jpn/■監視マイクロホンのための多段GMMを用いた異常音検出手法 伊藤氏(東北大)
現在主流の監視カメラに対して、音を用いた「監視マイクロホン」を提案
画像と音を比較すると、以下のメリット・デメリットがある。
【画像】
・すでに普及している
・監視は容易だが、異常検出が困難
・処理が重い
【音】
・画像の補完的用途
・新規にマイクロホンの設置が必要
・処理が軽い
本発表では、不特定な異常音を検出するため、日常的な音から逸脱する音を異常と定義し、日常音を学習している。
手法はGMMをカスケード接続した、多段GMMを用いているが、
学習データに用いる日常音は、そのほとんどが無音であり、尤度最大化によって無音部分を学習するからだという。
特徴量はMFCC16次元+対数パワーの6フレームを KL(主成分分析)展開で17次元に圧縮
GMMは2〜256で評価をしているが、実際の結果は最小で2多くて8から16とのこと。
認識結果の評価は誤検出のみで、検出もれは評価されていない。
■[招待公演]情報アクセシビリティの過去・現在・未来 浅川氏(日本IBM)
・情報アクセシビリティ
アクセシビリティから始まった技術は多い。(電話、キーボード、文字認識、音声認識など)
・デジタル点訳システム
コンサイス英和1巻を点訳すると百科事典サイズの点字文書100巻に相当する。
ノートPCにすれば、1台。デジタル化は大きな利点がある。
・IBM音声合成
何かの文章にカスタマイズされた音声は、様々な文章を読み上げるリーダには不向きである。
現在の技術であっても、パラメータを弄り倒せば、素晴らしい音声が出せる。近い将来自然な合成ができるはず。
・視覚障がい者の音声認知能力:2倍速音声で80%程度
・アクセシビリティに関する世界の法的ガイドライン
W3Cなど
法令によって決められたルールに従うだけでは、ユーザにとって十分なものとはなりえない。
・アクセシビリティの向上
音声ブラウザの見出しジャンプ
見出し情報がなければ、アクセスできない。
アクセスできないページをソーシャルネットワークに投げることで、ボランティアの人たちが修正してくれる。
アクセシビリティの情報自体は凄く簡単(タグ情報のみ)
修正しやすいように、何が問題なのかをビジュアライズする技術を開発。
・音声によるAR技術
ささやきインタフェース(券売機などで、使い方をささやいてくれる など)
ITは「自動解析」「異常データの検出」が得意
人間の知性は、「より深い分析」が出来る
高齢者の知識を生かした社会参加(EX.古い文献のテキスト化、ITを使った在宅ワーク)
元気なまま90歳になる高齢者は10%
80歳まで元気な高齢者は70%
この「元気高齢者」を支えることが重要(支えることとは、やりがいをあたえることもその一つ)
・世界の障害者は6億5000万人
高齢者は5億 600万人
非識字者は7億7000万人
キーワードは「誰もが能力を発揮できる社会をめざして」
posted by kouki at 11:18|
Comment(0)
|
セミナー/勉強会/研究会
|

|