わたしと納豆ごはん

納豆、Web、雑記など

音声入力をiPhone、Googleドキュメント、Windows10と試してみた

先日、若い人はTwitterでつぶやく時、フリック入力など使わずに音声認識で入力する、という記事がありました。

わたしも最近の音声入力にはすごいなぁと思っています。

というのも、以前の悩みに「タイピングが遅い」というのがあったのですが、その時に楽に速く文字を入力できる方法はないかといろいろ試していたのです。その一つとして音声入力も試していたのです。

ですが、当時は日本語の音声入力の精度が個人的にはイマイチに感じ、あきらめていたのです。まぁ、結局はタッチタイピングを覚えるのが一番の近道だったりした訳なのですが。

ですが最近にになって、音声入力の認識精度の高さがかなり向上しているようです。いやはや、技術の進歩はすごいなぁ。

そこで今回は、実際音声入力がどれだけ精度があるのか簡単にテストした結果を記事にしてみます。テストする環境が十分だとは言えませんが、何かの参考になるのではないのでしょうか。

準備

音声入力で、どこまで精度がよければ合格ラインと言えるでしょうか?

やはりそれはタイピングの代わりになるぐらいがいいでしょう。

タイピングで1分間で100文字入力でいれば十分速いレベルなので、それぐらいで音声入力が代用できるか試します。

まずは入力する文字ですが、ブログに近い文脈が一番実益があるかと思い、カタカナが混じっていて、なおかつカッコやカギカッコなどの記号もあったほうがよいかなと思います。

で、引用した例文はWikipediaの納豆の項目から、以下の文です。

主にスーパーマーケットやコンビニエンスストアなど、冷蔵施設を備える食料品売り場で広く売買されている。納豆の自動販売機も存在する。茨城県や埼玉県川越市などでは土産物(名産品)として販売している場合もある。かつては、「納豆売り」と呼ばれる行商人が納豆を売り歩く振り売りなどが盛んであった。売り声は「なっと〜〜、なっと〜〜(語尾をあげる)」というものであった。

実際は「〜」などは音声認識するとは思えませんが、それを除いても全文で170文字程度の文です。これを普通に喋る速さで言えば1分程で読めます。というか、iPhoneの音声認識が1分で終わり、そのちょうど終わったぐらいがこの文の長さだったのです。

ですので、この文を使って1分間程度で読み終わる位の速さで読みあげ、音声入力をテストしました。

iPhoneの音声入力

iPhoneの音声入力では、iPhoneのメモに入力しました。ちなみにiPhone6でiosのバージョンは9.3.1です。

テストした結果は以下のものです。

主にスーパーマーケットやコンビニエンスストアなど、映像施設を整える食料品売り場に広く理解されている。納豆の自動販売機も存在する。茨城県や埼玉県川越市なのでは土産物(名産品)として販売している場合もある。かつては、「納豆売り」と呼ばれる行商人が納豆売り歩くフリフリなどが盛んであった。売り声は「納豆、納豆(ごみあげる)」というものであった。

かなり制度がいいのではないでしょうか。「冷蔵設備を備える」が「映像施設を整える」、「振り売り」が「フリフリ」など気になる部分もありますが、昔に比べると格段の進歩です。

Googleドキュメントの音声入力

Androidは以前持っていましたが、今は持っていないのでPCからGoogleドキュメントの音声入力で試してみます。使い方はドキュメントのツールバーにある「ツール」から「音声入力…」で起動します。

ちなみにPCはHP製の14-ac000のCorei3搭載モデルで、マイクは内臓のものを使ってテストしています。

で、実際入力した結果が以下のものです。

オモニ スーパーマーケットやコンビニエンスストアのピリオド映像して その際の食料品売り場で生きる繰り返されている. 納豆の自動販売機も存在する.茨城県ぎゃ 埼玉県川越市中では いやげもの 名産品 として販売している場合もある. かすていはピリオド 納豆売り と呼ばれる 行商人が納豆売り歩く フリフリなのが盛んであった. を 英語では 納豆 ピリオド 納豆 語尾を上げる というものであった.

文頭の「オモニ」の後で半角スペースがあるのは、一呼吸おいたときにできた空白です。

結果はというと、認識する精度はなかなかいいです。音声入力の環境が専用マイクなどを使っていないので、それを考えたらかなり高い認識力ではないでしょうか。

ちなみに句読点やカッコやカギカッコといった記号は現時点では入力できないので、句点はドット( . )読点はピリオド( , )その他は空白としたのですが、余計に読みにくくなったかもしれません(汗)

Windows10の音声入力

Windowsにも音声入力はあります。コントロールパネルから音声認識を起動すれば、メモ帳などで音声入力ができるようになります。

結果はというと、こちらです。

主にスーパーマーケットやコンビニエンスストアなど、0増設を務める食料品売り場で広く理解されている。納豆の自動販売機も存在する。埼玉県や埼玉県川越市などでは土産物加工名産品)として販売している場合もある。かつては、「通り」と呼ばれる行商人がだったを売り歩く振り売りなどが盛んであった。売り声は「とを、ナットを格好を拾われる)」というものであった。

なかなかいいんじゃないでしょうか。元の文の「冷蔵設備を備える」の部分がテストしたもの全てで認識を間違っているので、わたし個人のしゃべり方が悪い可能性があります。

句読点とカッコもカギカッコも入力でき、特に他のものでは「フリフリ」と認識したのを「振り売り」と認識したのはこれだけです。

もっと発音を正確にして、高性能なマイクを使って入力すれば、もっと正確に入力できるかもしれません。


結果はどうでしょう。 まだまだのようにも見えますし、十分のようにも見えます。こうなれば今のAndroidなども試してみたいです。

どれも完璧に近い認識力は発揮できていませんから、どうしても後で修正する必要はありますが、基本的にどれも1分間で100文字以上は入力することができます。

ですので、実際ちょっとしたタイピングより速く入力することが可能です。修正する時間を考慮しても、十分速い速度ではないのでしょうか。

これからの時代、こういった入力方法もアリなのかもしれませんね。

スポンサーリンク