特定領域 Kiki班 成果報告

-視覚障害者の聴覚認知の解明と音声対話への利用-

渡辺、小田(東女)、安村(SFC)、西本(東大)



特定領域「情報福祉の基礎」成果報告会
(2006年2月15日、工学院大学)

この資料の公開URL:
http://www.comm.twcu.ac.jp/~nabe/2007/Kiki/

[スライド表示 オン・オフの切り替え(アクセスキー D)]

発表内容

I. 研究概要
Kiki:「聞き」手に優しく「聞き」上手な「機器」
II. ウェブ(渡辺、東女学生)
  • II.1 ウェブアクセシビリティの構成要素
  • II.2 ウェブアクセシビリティの包括的研究
  • II.3 視覚障害者と情報システムの音声対話へ
III. 音声(西本、渡辺、東女学生、小田)
  • III.1 音声対話
  • III.2 早口合成音声
IV. 情報家電(安村、SFC学生

I.1 研究概要:スタート時の概念

Kiki:「聞き」手に優しく「聞き」上手な「機器」

利用者である人間には初心者も熟練者もいる。情報システムとしては情報家電とウェブを考えている。両者を結ぶ音声対話には効率優先の書き言葉のような音声対話と人間らしい豊かさを持った話し言葉のような音声対話がある。我々は、人間の聴覚認知を考慮しながら、システムの情報をナビゲーションして読むことができる、人間同士のような音声対話の実現を目指している。

I.2 研究概要:まとめ

大枠:
ウェブと情報家電の利用を通じて、
  • 聴覚認知(読み、早口)を研究・利用
  • マルチモーダル音声対話の適用を検討
まず:
  • 視覚障害者、対面朗読者をベース(教師)
  • ウェブ、情報家電、音声、音声対話を個々に研究
最後:
統合(進行中)

I.3 研究概要:業績リスト(抜粋)

 

II.1 ウェブのアクセシビリティの構成要素

続II.1 構成要素

II.1 構成要素 1) コンテンツとガイドライン

参考:

W3C/WAI:Essential Components of Web Accessibility


詳細な説明(英語)

II.1 構成要素 2) ユーザ・エージェント

アクセシブルなコンテンツを利用する機能を持っているか?(表:WIT2005、UA調査2005、UAIS2007(予定))

II.1 構成要素 3) オーサリングツール

オーサリングツールが優れていれば、作者の負担は減り、アクセシブルなサイトが増えるはず。

アクセシの高いサイトを作成するツールはあるか?(村岡:HIS学会2005)
DreamweaverはATAG 2.0への適合度が高い
作者はアクセシ支援機能を使っているか?(村岡:卒論2005)
  • 作者のアクセシ知識に依存
  • マークアップの問題を指摘 + 視覚障害者に生じる問題を想像させる機能も必要(例:aDesginer)
HPBはアクセシ機能を持っていないのか?(市ノ瀬:卒論2006)
あるが目立たない。わかりにくい。⇒ 改善案提案

II.1 構成要素 4) ユーザ

ユーザは、支援技術をいかに使って、ウェブをどう利用しているのか?

ウェブのアクセシビリティ機能を活用していない(村岡:WIT2007)
  • 支援技術(PC-Talker、XPReader)の機能不足
  • ユーザの知識不足、必要性不足
  • アクセシブルなコンテンツの不足
  • 視覚障害者の聴覚認知や行動の研究不足もある!

II.1 その他

わかりやすい音声化(荒川:卒論2006)
情報を持った写真を音声で説明する際に重要な要素
  • 1) 口調(韻、語呂)がよい
  • 2) 表現が曖昧でない
  • 3) 十分に説明している
  • 4) 言葉が難しくない、聞き慣れた言葉を使っている、長くない
UAI研究会
Universal Access to the Internet研究会:毎月第3土曜日午後に東女で開催。(遠隔でも)参加歓迎。

II.2 包括 1) コンテンツ構造化の効果

構造化されたコンテンツは、アクセシビリティを向上させるか? (志村:WIT2006、渡辺:W4A投稿準備中)

実験条件:
  • 適切に分類された各階層が見出し要素でマークアップされたコンテンツ(お料理レシピのサイト)
  • 見出しを利用したナビゲーションが容易なUA(JAWS)
  • UAの機能をよく知っているユーザ(視覚障害者4名)
結果(preliminary):
  • タスク達成時間が3割から7割減少。達成率に変化無し。
  • 主観評価(わかりやすい、操作しやすい)は極めて高い。
  • 晴眼者の実験結果(1割から5割)より効果有り
  • 個人差が大きい

II.2 包括 2) 音声読み上げの特徴

早口合成音声:
  • 話速が早ければ早く情報を取得できる。読み上げに時間がかかることがコストにならない。
  • 話速が早すぎると、聞き取れても理解できない。
ウェブ読み上げの特徴:
  • 不要な情報と判断したら、キー操作によりすぐに次の情報に移動。
  • 複数の移動単位:文字、行、リンクとフォーム、見出し、非リンク、検索、ブロック
  • たどり着くのが容易なら、覚えていなくてもすぐに再生して何度でも確認できる。

II.2 包括 3) ユーザの認知

ユーザの認知:
  • 初見のページはサイトのイメージがわからない。構造化してあっても信用できない。
  • 慣れたページなら、複雑な非構造でも目的情報にたどりつける。
  • エラー回復が難しい。
  • 見出し要素だけでサイトのイメージをつかめない場合がある。

「II.2 包括」が本当の出発点。音声出力による「読み」の研究と共に、ここに焦点を当てたい。

II.3 視覚障害者と情報システムの音声対話へ

「II.2 包括」で得た知見が、音声対話へとつながる。ウェブページで実装したお弁当注文システムの実験でも面白い知見が得られている。

視覚障害者用音声対話システム:
  • 早口:聞き取れても理解が追いつかない速度がある? この上限とメンタルワークロードの関係?
  • VoiceXMLのような音声対話と、ウェブページ読み上げにはそれぞれ利点がある。
    • ウェブページ:読み直しが容易。ユーザ主導で情報を取得しやすい。
    • 音声対話:フィードバックなどの双方向性やシステム主導性を利用できる。ウェブ読み上げの限界を打破できる可能性?

情報家電のウェブインターフェース利用にもつながる。

バトンタッチ

まとめ