2019年6月2日日曜日

音声認識もAI

ディープラーニングはCNN(畳み込みニューラルネットワーク)。
音声はRNN(recurrent neural netoworks=再帰型ニューラルネットワーク)といったシステムで基本システムはGoogleかアマゾンで殆ど完成されているのであとはここのシステムと紐付けしたサービスを開発するくらい。

グーグルは独自のサービス(主に検索する)くらい。

アマゾンはスキルといった自社のシステムの一部を公開してアレクサのシステムを使う事が出来ます。
例えばJRが運行状況を音声で案内するスキル。
FMラジオ局が音声で起動できるスキル(ラジコ)。
外国語通訳をするスキル、クイズやなぞなぞをするスキル等色々なサービスをサービスを提供する会社と一緒に開発しています。日本国内で2000スキル以上。
詳細はガイドブックが必要なくらい。
もちろんアマゾンの買い物もアレクサで可能、アマゾンプライム会員であればそれぞれのジャンルの一部の曲も無料で再生します。人気の曲は追加料金が必要(アップルのiTunesや他の音楽サービスの中では割安です。)
当然曲を聴き続けるうちに好みの曲をAIがおすすめするサービスつき。
本も読み上げてくれます。
添付のスキルのジャンルを参考に色々探してみるのも良いと思います。



私も簡単なスキルを作ってエネセーバの入り切りを音声でテストしました。
公開するには色々と条件がありますが公開しなければ開発はいろいろと可能。

日本では独り言の様に機械に話しかける事が疎まれますが、会話レベルで対応できるまでには開発は進んでいます。車を運転中に受信したメールを読み上げたりメールを送信したり。いろいろな操作が運転中に出来ます。料理中、作業中といろいろな事を同時に進める事が出来ます。

S社の様に一部のサービスだけではガラパゴス化かも。もちろんアレクサで同じ事やそれ以上の事が出来ます。

アマゾンやGoogleのサービスは世界中のサービスに繋がります。

地方の放送局は災害時に24時間災害情報を読み上げて放送を続けるサービスが普及しています。少ないスタッフで放送内容を校正してアマゾンに放送内容を送るだけ。

開発者として登録しているので最新の情報をみる限りまだまだ普及すると思います。
サービスやアプリもどんどん改良されています。


0 件のコメント:

コメントを投稿