ICS と iOS5 で音声入力が可能になった。昔の音声入力はプロタイプのような、駐車場の音声合成レベルのような使えない感じがつきまとっていたが、iPhone に搭載の Google 音声認識はかなり高いヒット率なので、iPad と XOOM(ICS) で比較してみた。
iOS
iOS で音声認識をするには、キーボードのマイクボタンを押し、音声入力し、完了後マイクボタンを押して認識・入力を行うという流れになる。音声はメモリにバッファされるので、一回の操作で入力できる文章の長さには限界がある。また、認識は終了後に行われるので画面に入力中の文字は表示されない。
長い文章を考えながら一気に入力するのには向かない。一文か二文程度で確定させてその文字を読みながら次の文章をある程度完成させてから入力させるのが良いだろう。
”クエッションマーク”で”?”。”てん”で”、”。”まる”で”。””改行”で”cr”が入力できるが、日本語の”「”などの記号を入力する方法がわからない。
”じゅうかけるはちいこーるはちじゅう” は “10 × 8 = 80″ と入力された記号の前後に半角空白を入れてくれる周到さだ。
iOS 音声認識の結果:一回の入力に制限があり以下の文章は「少なくともiOS」と「六は確実」の間で一度自動的に変換操作に入った。
米国時間で11日から開催のアップルwwdc 2012に備えて、会場料すでに設営が進んでいます。写真は申し込んウェストで見つかった(アイos六(の看板。文句は(世界で最も先進的なモバイルオペレーティングシステム(。
発表前の会場料完売中残るようおって隠したするものですが、 iOS六についてはわりと無造作に多数が設置されています。今年のwwdcで期待される発表のうち、少なくともiOS六は確実と思ってよさそうです。アップルのwwdc 2012キーノートは現地サンフランシスコで11日月曜日朝10時から、日本時間ではよく12日火曜日の午前2時から開始予定です。
Google 音声認識
Google 音声入力は逐次変換を行い文字を確定する。日本語の IM の自動変換モードのようだ。なので、iOS のような文字の長さの制限がない。変換結果が画面上に表示されるので文章を考えるときに便利だ。ただし、途中で助詞の誤りや修正したい箇所が目についてしどろもどろになってしまい意味不明の文字列になってしまう場合もある。
記号入力が出来ない。句読点や改行も入れられない。
Android 標準のキーボードの一部として実装されているのではなく独立した IM として組み込まれているので、音声入力をするためにはキーボードを切り替えなければならない。このため、音声入力の途中でちょっとキーボードに戻って操作(句読点や改行を入れるといった操作)をして続けて入力を続けたいようなときに面倒。
”じゅうかけるはちいこーるはちじゅう” は “10*8 イコール 80 “ :”かける” を “*” に変換しているのは間違いではないが求めているものとは少し違う。また、”イコール” の前後に半角スペースがあるのは入力の際に少し間を開けたため。
Google 音声認識の結果:最初から最後まで一回で入力できた。
米国時間で11日から開催 – apple wwdc2010にそなえて展 会場安値に設定が住んでいます まる 写真は木金westで見つかった過去ios6 学校の看板ある文句は過去世界で最も先進的なのがいるオペレーティングシステムが高まる 改行 改行発表前の会場では考えたら泣く類を表格したりするものですが . ios6については割とムロさん達が設置されています円 今年のwwdcで期待される発表後.少なくともios6は確実とおもってさそうです appleのwwdc2012機能とは 天気 サンフランシスコで11日月曜日 10時から10 日本時間ではよく12日火曜日の午前2時から開始予定です ある
共通
音声入力の精度を上げるには一分を頭の中で完成させてから入力を開始することが最重要だ。「えー」とか「でー」とか言って止まってしまうと「えー」が入力されるのではなく、前後と合わせて想像の付かないような珍妙な文章を作ってくれる。
また、固有名詞の入力は難しい。”Moscone West”は”もすこーんうえすと”と発音したつもりだが、iOS は”申し込んウェスト”と認識し Google は”木金west”と認識した。これを防ぐことは難しいだろう。人名だともっと難しいだろう。
また、日本語の同音異義語の変換ミス(ミスというのは酷かもしれないが)を修正して学習させる方法がない。
アップル WWDC 2012 会場に iOS 6 のバナー確認、「世界最先端のモバイルOS」 – Engadget Japanese
米国時間で11日から開催のアップル WWDC 2012 に備えて、会場ではすでに設営が進んでいます。写真は Moscone West で見つかった「iOS 6」の看板。文句は「世界でもっとも先進的なモバイルオペレーティングシステム」。
発表前の会場では看板や垂れ幕類を覆って隠したりもするものですが、iOS 6 についてはわりと無造作に多数が設置されています。今年の WWDC で期待される発表のうち、すくなくとも iOS 6 は確実と思ってよさそうです。アップルの WWDC 2012 キーノートは現地サンフランシスコで11日月曜朝10時から、日本時間では翌12日火曜日の午前2時から開始予定です。
学習
個人の喋り方や発音の癖を学習させるモードがあるといいかも知れない。標準的な文を画面に表示させそれを何種類か読ませることでキャリブレーションできれば発音のくせによる誤認識は減らすことができるはずだ。
同音異義語や固有名詞については IM の辞書を使うくらいしかないか。誤変換した時点で修正することが出来ればいいが、どうやって指示をすればいいのか分からない。
人名については、日本ではこれからどんどん変換が難しくなるだろう。キラキラネームへの対応は不可能だ。逆に、そんな名前を変換できるような辞書にしたら普通の文章を打つときに困る可能性が出てくる。
可能性
かなり実用レベルに近づいたと思う。しかし、実際に自分が音声入力をメインの入力方法にはしない。音声入力を使わない理由は認識率の低さによるものではないからだ。だから、今後記号やスペースなどの入力が改善されたとしても限られた用途でしか使わないだろう。なぜなら、音声入力の問題は使う場所を選ぶからだ。自宅に一人でいるときにはいいかもしれないが、移動中の電車でメールを書くときに音声入力は出来ないだろうし、日本のような大部屋で机を並べて仕事をしているような環境でも使えない。
しかし、この技術はキーボードを扱えない人にとっては福音だ。目の不自由な人にとっても点字タイプライターで入力するより読みソフトと音声認識が充実することでテキストの入出力が従来より効率よりできることが期待できる。
タッチ入力のキーボードを置き換えるのではなく、音声認識が活かされる使い方を考えていくことが重要だろう。