第15回リハ工学カンファレンス予稿集原稿より

音声認識によるパソコン操作
Operation of PC with Speech Recognition by the Disabled. -Case Report

富山県高志リハビリテーション病院
大島 淳一  影近 謙治  谷川 孝史  松下 功  野村 忠雄

キーワード:音声認識,パソコン,頚髄損傷,人工呼吸器,スピーキングバルブ


1 はじめに
書字は,基本的日常生活動作として,古くから作業療法の訓練テーマとして取り組まれてきた.ワープロが普及すると,キーボードから入力して文章をつづる作業が,意義や目的を同じくして訓練として行われている.さらに重度障害者のためには,さまざまな機器が開発され,広く使われている.
最近,パソコン関連商品の低価格化,高機能化が一段と加速し,一般家庭への普及も進んでいる.またインターネットをはじめとする情報通信技術/産業の発達により,パソコンの持つ意味も変化し,単に書字やコミュニケーションの道具としてはとらえきれなくなってきている.これらの機能により,障害の有無に関わらず,パソコンは人間の社会生活に大きな影響を与える道具になりつつある.
今回我々は,キーボードやマウスが一切使用できない,高位頚随損傷者の音声認識を利用したパソコン操作の試みを2件報告する.このうち1件は,人工呼吸器が必要で,スピーキングバルブを使用して発声している.

2 音声認識の歴史
それ以前の生理学的研究を受け,工学的応用を視野に入れた音声の研究が始まったのは我が国では70年頃からである.電子工学発展の歴史と重なりながら,80年代前半までに各種の音声認識製品が市販されるに至ったが,話者や単語数の限定,離散発声など多くの課題が依然残った.この時期からパソコン,ワープロが普及し,日本語変換の精度が著しく向上した.この背景には日本語それ自体の研究の進展があった.現在の音声認識では,音声だけでなく,前後の文脈も判断材料として使うことも可能になった.そして計算能力の急激な向上により,現在ではパソコンレベルで音声認識が可能になりつつある.

3 当院でのこれまでの取り組み
これまで当院で音声認識を利用したパソコン操作(以下,音声認識と略す)を2名で試みた.その概略を表1に示す.Aさんの場合は,ごく短時間の試用の後,自費でパソコン一式を購入したが,練習場所などの都合がつかず,入院中は練習がはかどらなかった.結局,練習は退院後独力でした.この反省から,Bさんでは,専用のパソコンと場所を用意し,パソコンの使い方から開始した.以下,主にBさんについて述べる.

表1 適用者プロフィール
Aさん:(頚随損傷C4残存.四肢麻痺完全.男性47歳.97年秋受傷.99年春退院.以後在宅.放送作家)マウススティックでは,入力速度が思考速度に追いつかなかった.入院中にテレビCMで音声認識を知り購入したが,入院中は2人部屋のため練習ができなかった.(当時は練習用機器が院内になかった)ワープロ操作の経験はあったがパソコンは初めてだった.現在は在宅で作家活動,CMプランの作成,電子メールなどほぼ完全に音声認識を使用している.

Bさん:(頚随損傷C3-4残存.四肢麻痺完全.男性56歳.97年受傷.入院中.事務職)昨年11月に当院へ転院.今年3月意志疎通のためスピーキングバルブを使い始め,2年ぶりに声を出した.新たに導入された機器を使い,週4日,1日1時間,発声練習とパソコン操作練習を兼ねて音声認識の練習を開始した.ワープロやパソコンの使用経験はそれまでなかった.

4 使用した道具
スピーキングバルブ(図1)スピーキングバルブ(Passy-Muir,USA、Ventilator Speaking Valve)は,気管切開患者が人工呼吸器を装着したまま,肉声で発声,会話するための一方弁である.口径15mm、直径22mmと小さなものだが,気管切開患者のコミュニケーションの確立において,その存在は大きい.筋ジストロフィー患者の D. A. Muir が考案,発明した.原理は,気管カニューレのカフ空気を抜き,スピーキングバルブをカニューレと呼吸器の間に挿入することで,呼気を声帯,口腔内にのみ送り発声が可能になる.

写真 スピーキングバルブ
図1 スピーキングバルブ

パソコン関係機器構成
今回,使用したパソコンは,通称$800パソコンで,能力的には現在の市販品の中で最低レベル(CPU:intel Celeron 500MHz,Memory:64MB,定価:94800円,17'モニター付き)であるが,今回の試みでは機能的に何ら不足はない.また使用した音声認識ソフトは,ViaVoiceProミレニアム日本語版,(日本IBM,定価18000円)である.
音声認識ソフトの基本的な機能は,声で入力する機能(こんにちはと発声すると,こんにちはと文字が入力される)と声で操作する機能(印刷と発声すると印刷する)の2種類であり,ともに連続発声が可能である.このソフトでは,声でマウスを操作する機能もあり,パソコン操作のほとんどが音声で可能になった.また何回かの改良により認識率の向上も認められ,また使用するたびに話者の特徴を学習し続ける機能を持つ.日本語用音声認識ソフトとしてほかにもいくつか発売されているが,認識率など考慮し選択した.
この機器構成の最大の特徴は,特に障害者向け商品ではないことである.よってワープロなどのパソコンソフトの多くが,標準品のまま使用可能で,とかく狭くなりがちな障害をもつユーザの選択範囲を広く保つだけでなく,経費や購入の手間の面でも有利である.同様なことが使用しているパソコンにも言える.よって故障修理などのサポートや買い換えも通常と何ら変わるところがない.障害の有無に関わらずパソコンが共用出来る点で,ユニバーサルデザイン的であるといえる.この機器を使用する際に必要な介助は,マイク付きヘッドホンの装着とパソコンのスイッチを入れるだけである.

5 院内での練習
音声認識練習場所として院内の静かな部屋を選んだ.事前の検討で周囲の騒音が認識率を低下させることが分かっていた.特にテレビの音やコンクリートの建物内で反響する声の影響が大きい.また他の訓練の妨げとならないようあえて別室で行った.また,使用する人工呼吸器の騒音の影響が懸念されたが,患者の背後約1mに人工呼吸器を排気口を反対に向けて設置すれば,特に問題がないことが分かった.
練習は,週4回,1回1時間で開始した.スピーキングバルブを装着しての2年ぶりの発声は当初,好不調の波が大きかった.原因は啖やのどの渇きと考えられた.また疲労しやすいことも問題であった.吸引,飲茶を適宜行い.10分発声,5分休憩で練習を行った.当初は発声自体が困難かとも思われたが,5日目から受傷前の声に戻り,体力的に余裕が出てきた10日目から,発声時間を15分に延ばした.20日目からは特に休憩を必要としなくなった.それまで練習1時間以外はスピーキングバルブを装着していなかったが,このころから病室でさらに1時間,装着するようにした.またこのころから啖の様子やその日の好不調が自分で分かるようになった.
具体的な発声練習課題として,エンロール(音声認識ソフトに声の特徴を学習させる例文読み上げ)を行った.通常なら10分程度で終了する読み上げに10日かかった.この際,人工呼吸器特有の切れ切れの発声は,特に問題とはならなかった.その後,新聞記事を例文として練習を行った.はじめ,認識率はほぼゼロだったが30日目で8割から9割まで達した.よって一文あたり1,2語の間違いを気にしないのなら十分実用に耐える作文が可能となった.ただ現状では,間違えた文字の音声による修正は容易ではない,修正の際の誤認識により間違いがかえって増えてしまう.切れ切れの発声のBさんの場合でも,800文字を約25分で入力でき,健常者がキーボードから入力する速度に匹敵する.これが音声認識の最大の利点といえる.よって誤認識が多い場合は,改行してその文を入力し直すほうが実用的と考えられる.
作文以外では,青空文庫からダウンロードした本を,標準のエキスパンドブックリーダーを声で操作し,読書を行った.またWindowsに標準のワードパッドを使えば,電子化された文を読むこともできた.「読む」ことに関してはBさんは自立したといえる.

表2 人工呼吸器の設定
機種:Aequitron Medical, LP6
モード:従圧式
換気量:0.65 l/回(発声時,0.8 l/回)
換気頻度:10回/秒
換気時間:1.5秒

6 考察 人工呼吸器使用者音声認識の特徴
人工呼吸器とスピーキングバルブで発声する人は,当院ではBさんが初めてである.わずか一人ではあるが,さまざまなことを経験出来たので,それらをここにまとめる.
スピーキングバルブを装着してすぐは,一応声は出るが安定しない.今回のBさんの場合も本来の声が出るまで5日,体調が安定するまで20日間かかった.適用を検討する際には,十分時間をかける必要があると考えられる.
人工呼吸器により換気量とタイミングの規制を受けるため,一度に発声する量を把握する必要がある.長い語を一度に発声すると文末がとぎれ誤認識の原因となる.反対に語を刻みすぎると入力に時間がかかる.また早口で発声すれば言い間違えによる誤入力が多くなる.これらのバランスを考慮した発声の練習がまず大切と思われる.
次に切れ切れの発声であっても音声認識自体には何ら問題が見られなかった.健常者の場合でも考えながら入力する場合には,自然に間を大きく取るので同じことだと考えられる.ただ声の質は重要な要素である.啖がからんだがらがら声や口が渇いたぱさぱさ声では認識率が低下した.
練習を繰り返すうちに認識率は向上したが,これは発声が上達したことと,声が安定したため音声認識ソフトの学習機能が有効になったことの両方が原因と考えられる.この点でも練習には時間を十分かける必要がある.
また,Bさんに特徴的な誤認識のパターンがあることが分かった.これをまとめると,「削除→佐久長」などの濁音の問題と「停止→定石井」などの母音の間延びの問題,そして「ん」が意図に反して入力される問題である.濁音の問題による誤認識を表3にまとめる.
この表より,空気の制御が重要と思われる,破裂音,摩擦音,流音において口蓋音が歯音や歯頚音に,有声音が無声音に変化する傾向があることがわかる.
母音と「ん」の問題は,発声に必要以上に供給された空気をいかに止め,口から声を出さずに排出するかに集約できる.
これら誤認識の原因は言うまでもなく,呼吸が他動的なためと考えられる.しかしこの問題は練習次第と人工呼吸器の調整で解決できると考えられる.
Bさんの場合,口や舌やのどをもっと動かすようにと言ったところ,濁音の問題は半減した.また余った空気をいかに音を出さずに排出するかを練習している.練習には音声認識を利用している.発声の結果がすぐ表示されるため,練習はやりやすい.

表3 日本語の子音分類と誤認識の傾向
参考文献1)より改変引用
表3

7 終わりに
今回の試みでは,一般に流通している安価な道具を使い,特殊な専門技能を必要としないように心がけた.この目的は一応達成できた.また今回報告した2例のうち,Aさんは既に在宅でお仕事をされ,収入も得ている.またBさんも在宅に向け準備を進めている.ともに音声認識パソコンは生活に欠かせない道具と考えられる.
特に人工呼吸器使用者の場合,未だ工夫の余地はあり,この点で改善も進められるだろう.今後,音声認識をパソコン操作方法の選択枝の一つとして検討する必要があるだろう.
また,発声の結果がすぐに画面に現れる点は,言語訓練への応用の可能性も大いに考えられる.


参考文献
1)伊福部達:音声タイプライタの設計,CQ出版社,1983

関連URL
音声認識ソフト
http://www.ibm.co.jp/voiceland/
スピーチバルブ
http://www.isn.ne.jp/~kamata/kama/kafu.html
http://www11.big.or.jp/%7Eryuichi/venti.html
青空文庫
http://www.aozora.gr.jp/