プロトタイプのプロトタイプ
今回の「Alexaリモコン」自体がプロトタイプみたいなものだが、これのさらにプロトタイプを3年前に作っていた。
これをとある展示会で果敢にも実演展示していたのだが、やはりというか、会場がやかましすぎて全く音声認識されず。当たり前である。
アンプを繋いで大きいスピーカーから流すか……? とか考えてみたものの、それってもはや「サンプラー」なのでは? と思ったりもした。
発声が苦手である。地声が低くて滑舌も悪いため、どうしても聞き取りにくいしゃべり方になってしまうのが長年のコンプレックスだ。
ところで最近は「スマートスピーカー」というのが幅を効かせている。音声認識技術を搭載し、声をかけるだけでいろんな操作ができる素晴らしい機器である。でもそれって裏を返せば、声を出さないと操作ができないってことなのだ。
便利なのは認めよう。でもこちとら、あまりしゃべりたくないのである。どうにか無言でスマートスピーカーを使えないものだろうか。
スマートスピーカーを持っているのだが、あまり活用できていない。いま使っているのはAmazonの「Echo Dot」で、音声アシスタントのAlexa(アレクサ)が搭載されている。話しかけるといろんなことに答えてくれるし、スマートリモコンと連動させているので、部屋の照明のON/OFFもできる。
たしかに便利である。でも何か馴染めないのだ。それはたぶん、自分は声を出すのが苦手だからだろう。
私は別にしゃべりたくないわけではなく、単に発声が苦手なのだ。でもスマートスピーカーは音声操作が前提になっており、否が応でも自分の声と向き合わなくてはいけない。「じゃあ使わなければいいのでは?」なんて言うのは簡単だけど、別に使いたくないわけではない。まったく面倒くさい感情なのである。
あー、誰か代わりにスマートスピーカーを操作してくれないかなあ。
予想以上に怖いビジュアルになってしまった。枕元にあるとうなされそうなのはひとまず置いておくとして……要はこんな風に録音した声を再生する装置があればいいわけだ。そうすれば自分はしゃべらなくとも、ボタンを押すだけでAlexaに命令を出すことができる。名案である。
装置を作ってみることにしよう。
音楽(音声)を再生する装置って、実は簡単につくることができる。microSDカードに入ったMP3ファイルを再生できるモジュールがあるので、それにスピーカーをつなぐだけでいいのだ。
それにプラスして、今回は「押したボタンに応じて特定のファイルを再生する」といった制御のために、ProMicroというマイコンボードを使うことにした。
ふと思い出したのだが、いまから20年以上前、出たばかりだったポータブルMP3プレイヤを買った(mpmanというもの)。たしか容量は32MBしかなく、保存できるのはアルバム一枚分くらい。それでも当時はその技術に感動して、いろんなところに持ち歩いて音楽を聞いていた。
あれからずいぶん時は流れ、いまや1000円ほどの部品を買ってくればMP3プレイヤが自作できるようになった(音質はさておき)。そのおかげで、無言でスマートスピーカーを操作するマシンなんてのも簡単に作れるわけです。ありがたい世の中である。
さて中身ができたので、続いて外装に取りかかる。当初案の「生首風」の装置はほどよい狂気があって面白いが、私は真面目にこの問題と向き合っている。なので実用性を重視して、「リモコン風」という落ち着いたコンセプトで仕上げることにした。
どことなく昔のモザイク除去器みたいな怪しさが出ていて、なかなかに良い。ボタンの説明などは後ですることにして、次はこの装置に声を吹き込もうではないか。
「発声したくない」というのがモチベーションだったので、当初は合成音声を使ってAlexaを操作しようと考えていた。でも実験の結果、それだと上手くいかないことが分かってきた。
「Google Home」も持っているのでそっちでも試していたのだが、同様に反応が悪い。何回かやってると上手くいくときもあるのだが、明らかに肉声のときとは認識率が違っていた。
おそらくだけど、今回使おうとしていた合成音声は、含まれている音の周波数成分が肉声とは違っているのだろう。なので耳で聞くと同じような音に聞こえるけれど、AIからするとまるで違った音だと解釈している可能性がある。
そんなわけで、わりと試行錯誤してみたものの上手くいかないので、合成音声は諦めて肉声を録音することにした。
録音した声も、MP3に圧縮することによって特定の周波数が削られる。認識精度に影響しないか心配だったのだが、それはあんまり関係ないようであった。
左上から順番に、
「アレクサ」
「電気をつけて」
「電気を消して」
「大阪の天気は」
「ニュースを教えて」
「今日の予定は」
「3分タイマーをかけて」
「タイマーを止めて」
という声に対応している。
右下のFuncというのはファンクションボタンで、押しながら別のボタンを押すことで違った音声が流れるようになっている。なので正味、この装置では16種類の音声が使えることになる。
動作の様子を動画でどうぞ
ボタンを押すたびに、ボソボソとした声が聞こえてくる。誰しも「カセットに自分の声を録音して聞いたときの衝撃」という体験があると思うが(最近はカセットじゃなくてスマホ動画?)、あれを延々と見せつけられている気分だ。
これ、自分の声じゃなくて別の人に頼んで録音させてもらった方がよかったかも。たとえば声優さんの音声を録音したAlexaリモコンなんてのがあったら、新たなビジネスになるかもしれない。え、そもそもAlexaリモコンなんていらないですか、そうですか……。
いざ実戦投入してみよう。
その様子はぜひ動画でどうぞ
このリモコンがあることで、声を出さなくてもAlexaの操作が可能となった。万歳。
声は入れ替え可能なので、よく使う機能を呼び出す音声を記録しておけば普通にリモコンとして使える。便利である。便利であると言い張りたい。
目的は達したので話はここで終わりなのだが、冷静に考えてみると相当まわりくどいプロセスである。例として、照明を消すまでの間にどういうことが起きているのか改めて考えてみた。
風が吹けば桶屋が儲かる方式、もしくはわらしべ長者の様相を呈してきた。スイッチを押す指の動きをトリガーにして、音声、電波、赤外線にそれぞれ変換された信号が空気中を伝搬してリレーを行っている。こうしてみると技術の粋を集めた装置であると同時に、まわりくどい。
賢明な読者はもう気付いているかもしれない。
まあそれはそうなんだけど、そんな正論はいいんですよ。なんか面白い、それでいいと思うのだ。このまわりくどさも含めて愛していきたい所存である。
今回の「Alexaリモコン」自体がプロトタイプみたいなものだが、これのさらにプロトタイプを3年前に作っていた。
これをとある展示会で果敢にも実演展示していたのだが、やはりというか、会場がやかましすぎて全く音声認識されず。当たり前である。
アンプを繋いで大きいスピーカーから流すか……? とか考えてみたものの、それってもはや「サンプラー」なのでは? と思ったりもした。
▽デイリーポータルZトップへ | ||
▲デイリーポータルZトップへ | バックナンバーいちらんへ |