Windows(R) View Vol.61　99/6

最新Windowsソフトウェア事情（第53回）

Windowsコンソーシアム顧問高橋三雄
mtaka@fsinet.or.jp

普及しはじめた音声認識ソフト

　本誌Windows Viewは自分の担当コラムだけでなく、毎号、他の記事も目を通すようにしている。しかし、正直なところ技術的な情報や解説が多く、私の技術レベルからすると内容どころか専門用語すら「これ何？」と悩んでしまう記事がほとんどである。コンソーシアム顧問としてはこれではいけないと、三ケ野原さんにお願いしてVisual Studioを提供してもらい、勉強を始めたところであるが、これまた、初心者向け解説書を新たに数冊買い込む羽目となっている。いつになったら本誌を読みこなせるレベルに達することができるのか、昨年３月まで筑波大学の社会人向け大学院で生涯学習を指導してきたみずからが、生涯（永久）学習の実践を余儀なくされている。
　ところで本誌５月号に「インテル　インターナショナル・スピーチ・フォーラム」の報告記事があった。音声認識技術の実用化に向けて、NEC、日本IBMなどの各社から技術や製品の紹介やデモ行われた。いうまでもなく、日本のPCユーザーにとって「キーボードに対する抵抗感」は依然として根強い。この現状を考えたときに、音声による文字入力あるいはソフトの操作などに対して大きなニーズが期待できる。また、音声認識機能によってパソコンが使いやすくなれば、パソコンそのもの、そしてパソコンソフト全体の活性化へとつながるだろう。
　さて、音声認識関連ソフトについては私も従来から興味をもっていた。COMDEXを視察するたびに、音声認識技術を専門とするDragon Systems社とか、IBMの音声技術を使った製品開発を行っている関連会社のブースを回ってデモを見たり、ソフトを入手し、実際にためしたりしてきた。Dragon Systems社の「NaturallySpeaking」とか「VoiceType Simply Speaking for Windows95」などである。いずれも年々、認識率が高くなり、また、連続認識（語の間を区切らなくとも連続的に認識できる）の精度も目に見えて上がってきた。そして日本語の世界にもこの音声認識技術が急速に現実的な応用として導入されるようになった。
　話はかわるが、私はソフトウエア情報センターが行っている「プロダクトオブザイヤー（平岩賞）」のソフト評価作業部会のまとめ役を引き受けている。昨年はIBMの「ViaVoice98」がこの賞を受賞した。審査委員諸氏の注目を集める技術レベルに達したのである。そして今回、事務局を通じて二つの製品が届いた。日本語ワープロソフト一太郎にIBMのViaVoiceを連携させた「Voice一太郎９」とNECの音声技術を製品化した「SmartVoice」である。さらに、NECの音声エンジンに対応したソフトも各社から発売が始まっており、その一つ、「Voice手帳」（メディア・ナビゲーション社）も手に入った。
　今回は上記二つの音声認識製品について、その一部をごく簡単に紹介することにしたい。いざ使ってみようとすると、事前のトレーニングやソフトの操作の学習が必要であり、まだ、各ソフトの機能を十分に楽しめる段階には達っしていないからである。いずれ、実用的に使いこせるようになった段階で、再度、話題にするつもりである。
　原稿執筆はいつもパソコン（ワープロソフト）を使っている。もちろん、手書きよりもはるかに早いスピードでキーボードをたたく。しかし、ときにはキーボードにかえて声で文章を入力するのも一興ではある。もちろん、やがて音声の方がタイピングよりもすばやく文章が入力できるようになれば、キーボードの出番が少なくなるかもしれない。ただ、現在執筆中の原稿も、考えては書き（タイプし）、消しては新しい内容で書き換えるといった苦しい作業の連続である。疲れるとキーボードから手をはなして、パソコン雑誌に目を転ずる。音声入力の場合はどうなのだろうか。なにはともあれ、「Voice一太郎」に挑戦してみよう。
　音声認識ソフトは認識精度を高めるために、個々のユーザーの音声や話し方の特徴を把握し、その特徴にもとづいて認識することが重要である。そのためにほとんどの音声認識ソフトは事前にパソコンをトレーニングするようになっている。Voice一太郎の場合は音声認識ソフト（エンジン）として、IBMのViaVoiceを使っているので、ViaVoiceの上でトレーニングを行う（ViaVoiceではエンロールメントとよんでいる）。エンロールメントは用意されている300種類の文を次々に読み上げ、ユーザーの音声などの特徴を把握して解析用のデータベースを構築する作業である。音声認識ソフトが組み込まれたパソコンは複数のユーザーが使うこともできるが、その場合は各自のトレーニング結果を保存しておいて利用することになる。
　図1は30分近くかけてようやく最後の300番の文書まできたところである。画面中央に表示される文章をパソコンに接続されたマイク（マイクと口元の距離を一定に保つことも重要なのでヘッドセットタイプのマイクが添付されている）に向かってしゃべると、その音声が解析され、特徴が記録されていく。文章ウィンドウの下段に見える「再生」ボタンをクリックすると入力した音声読み上げがそのまま再生されてくる。それによってマイクの調子などが確認できる。

図1

　私は現在、1.3kgのサブノートブックパソコン（Dynabook SS3300）を利用しており、こんなに薄く小さな筐体の中によくもこれだけの性能が押し込められていると思われるほどである。ということは、音声処理機能（チップ）がハードディスクなど他の装置が発生するさまざまな音を拾う可能性がそれだけ大きくなる。入力した音声を再生してみると、音声の背景に「ザー」という音が聞こえてくる。おそらくそうした原因なのだろうが、正直なところ今回挑戦した二つのソフトは、音声が誤認識されるケースがしばしばあり、「これではキーボードの方が速い」と思ってしまった。しかし、友人のオフィスで、デスクトップパソコン上で音声認識ソフトをためす機会もあり、そのさいは実にスムーズに音声入力できた。
　音声の訓練が終わったところでVoice一太郎を起動してみると、図2のように、「Shiftキーを押すことで音声入力ができる」ことが示され、つづいて図3のように、一太郎の編集画面左上にVoiceパッドが表示された。音声入力にあたってはこのパッドで入力モードやViaVoiceの各種設定などができる。入力モードの中で、「標準モード」は音声入力された言葉をATOK12の解析技術で変換するものであり、通常の一太郎と同じ感覚で文書作成ができる。それに対して「ViaVoiceモード」ではViaVoiceのディクテーション辞書を用いた変換が行われ、誤認識された語を変換しようとして空白キーを押すと、認識された音声に近い言葉の候補がリストされ、その中から選択できる。たとえば、「きしゃ」に対して、「貴社、記者、気象、自社、事象」など「きしゃ」に近い読みにあたる語がリストされる。

図2

図3

　ためしに「今回は音声認識ソフトを試そうと思う」というつもりで、Shiftキーを押しながらマイクに向かって話し始めると、図4のように認識された音声が順次、ひらがなで画面に表示されてくる。文章の終わりでShiftキーをはなすと変換が始まり、図5の最初の行のような日本語文に変換された。また、変換された文章が音声で読み上げられた。変換された文章の確認のためには便利な機能である。文書を入力したあとで全文を読み上げさせることもできる。

図4

図5

　図ではさらに、原稿の冒頭の部分を数行、音声入力してみた。編集の手をまったく加えていないので修正すべき個所も少なくないが、けっこう認識率が高く、使い込んでいくにつれて、十分に実用的に使える入力方式になると思われた（冒頭では、あまりうまく認識できないような書き方をしていたが、数時間使っているうちに、最初の印象よりもずっとよくなってきた）。図ではまた、さきほどのVoiceパッドをドラッグして画面下段に移動させ、ViaVoiceの各種設定をリストさせてみた。「オーディオの設定」は図6のように、マイクやスピーカーの設定を行う機能であり、使用環境が変わったときなどに設定をしなおした方が認識がよくなる。次に「ViaVoiceの設定」を選択すると図7のように、ユーザーやディクテーション、ボイスや起動時の設定など、きめ細かな設定ができる。図ではユーザー設定画面を見ており、ユーザーの選択や追加、入力方法、ボキャブラリーの選択などが用意されている。複数のユーザーを登録しておけば（エンロールメントも実行しておく）、同じパソコンを共有して音声入力ができる。

図6

図7

　つづいてボキャブラリーマネージャーは新しい語の読みを辞書に登録するための機能である。たとえば、図8では麗澤大学の読みを登録したところである。図の下段のトレーニングボタンをクリックし、登録する単語と読みを入力し、録音ボタンをクリックして音声で読みを覚えさせればよい。

図8

　すでに説明したように、音声入力し、変換された文章はその都度、音声で読み上げられる。そしてさらに、図9のように上段の音声メニューによって、いつでも任意の行や文書全体を読み上げさせることも可能である。入力の終わった文書を音声で聞いてチェックしたいといったときに使えばよい。

図9

　日本語入力システムとしてのVoiceATOKは一太郎だけでなく、他のソフトで使うこともできる。たとえば図10はExcel上で使っているところであり、地名を音声で入力してみた。Excelの場合はセルに短い単語や数値を入力するだけなので、音声入力でもじつにスムーズに入力できる。長い文書を入力する前に実用的な練習としてExcelやデータベースソフトなどで利用するのもよいと思われた。なお、ViaVoiceは文書の音声入力だけでなく、音声によるコマンド操作もできる。たとえば、入力した文書を編集するときに、メニュー選択とかカーソル移動などを音声で行えばよい。

図10

　ここまでVoice一太郎を見てきたが、つづいてSmartVoice（ＮＥＣ）をためしてみよう。使用するにあたっては最初にViaVoiceと同様、マイクなどの調整をしたあと、話者の登録を行う必要がある。ここでもまた、図11のように、次々に表示される150の文章を読み上げることによって特定のユーザー（話者）をパソコンに登録する。話者の登録が終わると、音声によってWindowsの操作を行ったり、SmartVoice Editorとよばれる編集画面上で文書の音声入力ができる。

図11

　SmartVoiceを起動すると図12のように画面上段にSmartVoiceバーが表示され、右上隅のマイクのアイコンがONになっていれば音声によるWindows操作が可能となる。たとえば「スタートメニュー」とマイクに呼びかけるとスタートメニューがあらわれ、つづいて、「プログラム」とか「設定」と音声入力すれば、それに応えて該当するメニューが表示される。この音声によるコマンド操作がSmartVoiceの基本であり、特定のソフトの操作画面に入っても編集とか表示などのメニューコマンドが音声で操作できるようになる。また、編集画面でカーソル移動やテキストの選択、削除などの操作も音声でできる（ViaVoiceにもVoiceCenterとよばれる機能を使うことでWindowsソフトの音声ナビゲーションが可能である）。

図12

　図では左隅のメニューを開いて「SmartEditor」などのコマンドをリストさせてみた。SmartEditorは図13のように、音声による文章入力／編集のソフトであり、図ではすでに１行文の文章を入力したところである。ViaVoiceとの間で音声認識の精度も比較したいところであるが、それはいずれということにしよう。図では変換後の語句に対して同音異義語をリストさせてみた。語句の下段に下線が引いてあるところが変換対象となる語句である。語句をダブルクリックすると図のようなリストが表示されるとともに、右側のボタンで語句を再生してみたり、辞書からの削除などができる。

図13

　SmartVoiceにも、入力した文書の読み上げ機能があり、図14のように文章を選択して上段の読み上げボタンをクリックすると読み上げが開始される。ディクテーションメニューから「単語登録」を選択すると特殊な読みの語句に対して、「読み」を登録できる。図 15はためしに大学の名前を登録したところである。SmartVoiceではまた、Windowsのデスクトップに置かれたアイコン名やスタートメニュー、テキスト編集／キーボードそして実行プログラムのメニューコマンドに対して音声によるコマンドを設定できる。たとえば、デスクトップ上のアイコンに音声を設定しておけば、アイコンをダブルクリックして起動する操作を音声で行える。メニューから「SmartVoiceコマンドリスト」を選択すると図16のように、音声コマンドの登録ウィンドウが表示されるので、登録したいアイコンなどを選択し、「読み」を入力すればよい。

図14

図15

図16

　このように、ViaVoiceとSmartVoiceはそれぞれ共通する機能を多く含みながら、音声によるパソコン操作を支援する音声入力エンジンとして力を発揮しようとしている。文書入力だけでなく、今後、これらの音声エンジンを組み込んださまざまな応用ソフトが発売されてくる。それらの製品の登場を期待をもって待ちたい。

（麗澤大学国際経済学部国際産業情報学科教授
http://www.reitaku-u.ac.jp/ ）

Contents 　　　　　　　 Windows Consortium ホームページ