Lipread System (Japan)

人工呼吸器管理下の患者のための
会話補助システムの開発

東京電機大学大学院理工学研究科応用システム工学専攻
谷城博幸

【研究背景】
日常生活におけるコミュニケーションは，顔の表情変化や言葉の発声等，様々な要因が互いに作用して成立する．何らかの原因により，コミュニケーションを担うための効果的な情報が損失することは，単なるコミュニケーション不成立だけには止まらず，時には生命に関わる重要な情報を取り逃がすこともある．気管切開下において，長期的に人工呼吸器管理下となった呼吸不全患者は，発声することが出来なくなる．患者と医療従事者間で言葉の発声による会話が不可能となることは，治療・看護上の大きな障害となる．従来，患者はコミュニケーションをとる手段として，患者の意志を文字としてボードに記入し相手に伝える，「筆談」という方法を用いてきた．しかし，この方法は患者の精神的及び肉体的負担が増すばかりで，あまり有効ではない．同様に，タイプ式の文字表示装置や音声変換可能なワープロ等の装置があるが，本質的には前述の筆談法と変わらない．また，長期的に発声しないことによる発声に関わる横隔膜などの筋力の低下も懸念され，人工呼吸器管理終了後の発声リハビリテーションの長期化を招く場合がある．

【研究目的】
研究背景に基づいた問題の解決，すなわち患者の精神的・肉体的苦痛を伴わず，確実にコミュニケーションをとれるシステムの開発を，医療現場は必要としている．そこで，健常時と人工呼吸管理時とを比較して口唇の動きは変化がないこと，また，同一の言葉を発したときに再現性があることに着目した．口唇の動きから発音した内容を視覚的に読みとり理解する「読唇」をモデルとし，患者の発した文章を認識する，会話補助システムの開発を行った．

【システム構成】
本システムは画像処理装置としてセンサカメラ(IV-S10,SHARP)，データ処理装置としてノート型パーソナルコンピュータ(PC586NAT,EPSON)，センサカメラに撮影された映像を確認するためのテレビモニタ，画像処理対象の明るさを確保する照明スタンドから構成される．画像処理装置(IV-S10)　この装置はビデオカメラと画像処理機能を併せ持っている．図２に示すような画像を二値化処理することにより，二値化された部分の面積値・面積重心位置を計測可能である．また，装置固有の座標平面による計測値をRS232Cを利用しシリアル転送でパーソナルコンピュータに送信する機能を持つ．面積値であれば１画面245760(=512×480)[dot]とした面積画素数を，面積重心位置であれば画面左端を(0,0)，右端を(511,479)とした512[dot]×480[dot]の長方形xy平面内の座標値を与える．計測に要する時間はテレビのビデオ信号の１フレーム当たりのタイミング1/30[sec]である．

【システム処理】
システム処理のフローチャートを図３に示し，個別の処理方法について以下に述べる．口唇付近の画像処理方法　予め定められた２０種類の文章について発声した時の，口唇の動きの時間的変化を計測した．センサカメラの持つ２つの計測機能，（１）面積重心位置計測，（２）面積値計測を用いた．但し，センサカメラは同時に２つの計測窓を持たせることは不可能なため後述する評価については個別に行った．

（１）面積重心位置計測
この機能を用いる場合，下唇の約1[cm]下方の顎の部分に直径約5[mm]程度の黒いマーキングを施し，このマーキングの動きを口唇の開閉動作による口唇の動きとして計測した（図４参照）．顔面の鉛直下向き成分であるセンサカメラのマーキング計測y座標値を用い，口唇を閉じた時のマーキング座標値をニュートラルとして口唇を開いた時のマーキング座標値との差を口唇の開閉度合の変位（口唇変位量）とした．

（２）面積値計測
この機能の場合，口腔内の影の部分を計測対象とした．実際には歯や舌の部分は二値化によって明るい部分に分類されるため計測対象は図５のようになる．口唇変位量には計測対象の面積値を用いた．

（３）データの正規化
後述のパターン認識のために，画像処理によって得られた口唇変位の時間的変化（時系列データ）を変位方向及び時間方向に正規化し，口唇パターンとした．まず，口唇変位量の時系列データから，口唇の開き始め部分と閉じ終わる部分によって挟まれた部分を有効部分として抽出した．具体的には口唇を閉じ合わせている部分のノイズを考慮した閾値を定め，変位量が閾値を最初に超える部分を開き始め，最後に下回る部分を閉じ終わりとした．面積重心位置計測の場合，最大変位量を1.0とした変位方向の正規化を行った後，0.33を閾値とした．面積値計測の場合，変位量（面積値）4000[dot]を1.0とした変位方向の正規化を行った後，0.1（面積値400[dot]）を閾値とした．この操作によって抽出された有効部分を時間方向にも正規化した．センサカメラによって1/30[sec]毎の計測点が存在するが，有効部分の計測点数は同一の文章内容であっても一定ではないため，時間方向には重心位置計測は20点，面積値計測は100点で正規化を行った．図６は２０種類の文章のうち，実際に「あたまがいたい」という文章を発声したときの面積計測による処理を図示したものである．他の文章においても，同様な処理を行うことによって口唇パターンを作成した．

（４）パターン認識
３層のニューラルネットワークによるパターン認識を行った．ニューラルネットワークの規模について，各層のユニット数は重心位置計測では入力層：40，中間層：25，出力層：20，面積計測では入力層：100，中間層：100，出力層：20である．入力層のユニット数は口唇パターンのデータ長に，出力層のユニット数は認識させる文章数にそれぞれ従った．出力層は２０種類の文章に対応づけられており，出力層の第１ユニットが「あたまがいたい」，第２ユニットが「みずがのみたい」という具合である．ニューラルネットワークの学習はバックプロパゲーション則に従い，２０種類の文章の口唇パターンを入力層に与え，認識させる文章との関連づけを行った．認識は学習と同様に口唇パターンを与え，パターン認識の結果として出力層の出力値を用いた．例えば，「あたまがいたい」であると認識したとする判断は，出力層ユニット２０個の出力値のうち最大値を持ったユニットが「あたまがいたい」に対応づけられたユニットであるということから行った．認識後，コンピュータから認識された文章の音声を発生する．この音声はWAVファイル形式で予めデジタル録音したものを再生するものである．

【面積重心位置計測によるシステム評価】
２０種類の文章を用いて，被験者として健常者及び人工呼吸器管理患者を対象に評価を行った．健常者においては椅子に座り，顔面をセンサカメラに対して真正面に向け，なるべく頭部の微動を抑えるという状態とした．患者の場合，ベッドの上に座る形でその他の条件については健常者と同様とした．

（１）健常者を対象とした結果および考察
２０種類の各文章毎に５つの検証用の口唇パターンを用いて，出力結果を評価した．この評価について一定期間行い，期間を経ることによる認識率の変化についても検討を行った（表１健常者参照）．これについて考察すると，認識率が悪いものが存在した．「あしがつめたい」，「はきけがする」，「せなかがかゆい」，「といれにいきたい」がそれであった．これらの文章については以降時間経過を経ても認識率が不安定，または低下していた．これは学習用の口唇パターンが検証用のものと比べて特異なものであったと考えられる．２日目の結果においては全体の認識率が低下していた．これは画像処理計測に伴う低下であり，光量が不足あるいは過剰に当てられた等の環境の変化が理由であると考えられる．以降３日目，５日目は総合的に見ると，約70[%]程度と比較的に安定した結果をみた．健常者を対象とした面積重心位置計測によるシステムにおける信頼性は約７割と考えられる．

（２）患者を対象とした結果および考察
健常者と同様の評価を行った（表１患者参照）．但し時間経過における認識率の変化は，検証を行う日数が限られていたため行わなかった．考察すると，患者のシステムの使用経験の浅さが率直に現れてしまった．画像処理装置の計測窓にマーカーの位置を合わせることが比較的困難であることが分かった．体動を最低限に抑えることが出来ず，口唇パターンにノイズが重なったためであると考えられる．

【面積値計測によるシステム評価】
２０種類の文章を用いて，被験者として健常者を対象に評価を行った．重心位置計測の評価を鑑み，センサカメラから計測対象の距離，照明の明るさ（光量）センサカメラの設定値等の条件を一定に保った．検証には２０種類の文章について約１０個（１０又は１１）ずつの口唇パターンを用意し，約１ヶ月間のうち不連続な９日における認識率の時間的変化を評価した（Inspect Aとする，図８参照）．表２は全９日の総合結果である．行には入力として与えた文章の項目を，列にはその出力結果を示した．

（１）総合結果における考察
表２から全体として入力の文章と出力の文章とが対応しており，良好な結果が得られた．これは面積値計測によって，口腔内の影（計測対象）がセンサカメラの計測窓内にあれば，多少位置がずれても正しい計測値を得ることが可能なためである．従って，マーカーをニュートラルに合わせなければならない重心位置計測よりも，体動による影響を抑えることが出来た．このことから，拘束を健常者以下に抑えなければならない患者において評価を行っても，良好な結果が期待できる．

（２）システムの認識安定化における考察
システムの安定した認識を確保するには，時間経過による認識率の低下を避けなければならない．表２を個別に見ていくと「はきけがする」の認識率が低い．「はきけがする」の出力結果を見ると，「あごをふいて」を示す出力位置にその頻度が高くなっている．これは「はきけがする」の口唇パターンが「あごをふいて」のそれに類似している，或いは検証させたパターンに対して学習させたパターンに特異性があると考えられる．以上を証明するために「はきけがする」の認識率が急激に低下した日（８日目）のパターンをニューラルネットワークに追加学習し，以降の認識率の時間的変化（Inspect Bとする，図８参照）をInspect Aと比較検討した．

（２－１）口唇パターンの特異性と類似性
「はきけがする」について，Inspect Aでは時間を経ると低下したのに対し，Inspect Bでは追加学習後安定した認識率を確保することが可能となった．この認識率改善によって「はきけがする」の学習パターンの特異性が証明できた．類似パターンと考えられる「あたまがいたい」であるが，Inspect Bを見ると１２～１４日目のところで認識率が低下してしまった．これにより「あたまがいたい」と「はきけがする」のパターンの類似性が証明できた．元々似ているパターン（図９参照）の認識には更に別な方法での認識を考える余地がある．

（２－２）認識率改善に伴う他の文章への影響
「はきけがする」の認識率改善に伴う，他の文章への認識率の影響について考察した．中でも認識率が高い「たんをとって」と認識率が低い「むねがくるしい」を選んだ．この２つを選んだ理由は「あごをふいて」と「はきけがする」の出力結果に関連を持たないためであるが，Inspect AとInspect Bで認識率が大きく変化している様子は見られなかった．

（２－１）（２－２）より，システムの安定した認識を得るためには認識率の悪い文章に対して，口唇パターンのある程度の更新が必要であり，また他の文章における認識率の変化への影響も小さいことから更新が可能であるということを示唆している．

【まとめ】
人工呼吸管理時の会話補助システムにおいて，２つの画像処理方法によりシステムの検証を行った．健常者による検証で２０種類の文章であれば双方とも７割以上の認識率の確保は可能である．２つの方法に限定せず，あらゆる情報を総合して判断できる認識システムの開発が今後の課題と考えられる．また使用者である患者の状況を考慮したインターフェイス部分についても検討を行う余地があると考えられる．

ご意見・ご質問はこちらへ！

関連研究のリンク

東京理科大学「小俣君のページ」

カラー顔画像からの音韻認識を目的とし、その第一段階として唇の縦横幅の導出方法を研究しています