電気メガネ

Raspberry Pi 500とXREAL One Proでどこでも音声入力vibe coding可能だ!

Amazonのアソシエイトとして、8796.jp管理日誌は適格販売により収入を得ています。
スポンサーリンク

音声入力でvibe codingしたならキーボードとしてほとんど使ってないじゃんって話です

はじめに

書こう書こうと思って書いてなかったんですが、ちょっと前にRaspberry Pi 5を買ってまして、SSD繋げてUbuntu入れてBreezy GNOMEだ!!って試したらあんまり動きが良くなかったのでお蔵入りしてまして。やっぱりGPUが弱いとダメだなあなどと反省した舌の根の乾かぬうちにRaspberry Pi 500が日本語キーボードで発売されていたのでほいほい買ってました。

SWITCH SCIENCEで18,480円。朝注文したら昼発送されて翌日午前中には届いてました。

XREAL Air 2を繋いでBreezy GNOMEで試したらやっぱりガクガクで酔ったのでその話は置いときます。

そんで、どうやって活用しようかと考えたところ、今流行のvibe codingとやらをやってみればPV増えて広告収入で遊ぶカネになるのではと思った所存。

プロ驚き屋みたいな釣りタイトルにチャレンジです。

Raspberry Pi 500

SoCにBroadcom BCM2712を搭載、Raspberry Pi 5と同じ。RAM 8GB。HDMI映像出力は4K60pを2個同時出力できるとのことです。

Wi-Fiは802.11acなのでまあ必要十分かなと。

左から

  • USB Standard-A 2.0
  • USB Standard-A 3.0 (5Gbps)
  • USB Standard-A 3.0 (5Gbps)
  • microSD (SDR104対応)
  • USB Type-C(電源用5V 5A対応)
  • HDMI Type-D(micro HDMI)
  • HDMI Type-D(micro HDMI)
  • GPIO
  • Gigabit Ethernet

小型ですがあまり無理のない日本語キーボードです。ポインティングデバイスがあれば良かったのになあと思います。マウスはUSB接続がオススメ。Bluetoothは最初繋ぐときに大変なので…

まあ言ってしまえばEPSON PC CLUBみたいなキーボードPCですよ。PC-286Cの標準価格168,000円だったことを考えるとめっちゃ安い。

技適あります

わざわざ日本語キーボード版にするぐらいなので技適あります!

キーボードPCとして

LinuxディストリビューションであるところのRaspberry Pi OSが標準付属されており、日本語キーボードの設定が施されたmicroSDカードが付属というか差し込まれた状態で出荷されているので、箱から出して電源(別売)とモニター(別売)とマウスなどのポインティングデバイス(別売)を繋げばすぐ使えます。内蔵ストレージは無いので、ここでもフロッピーディスクのみだったPC CLUBを彷彿とさせてくれます。

キーボードは安っぽい。いかにも安っぽい980円ぐらいで売ってそうな打ち心地ですが、こんなもんだと思えば使えなくもないです。

インターネットブラウザとしてFirefoxとChromiumが入っていますので、イマドキのネットサーフィンもそれなりにできます。ただし、Raspberry Pi 5 / 500に使われているSoCはH.264AVCのハードウェアデコード機能が搭載されていないので、YouTubeみるだけでもビックリするほどドロップフレームします。H.265 HEVCはハードウェア対応してるんですが、H.264はソフトウェアでデコードして再生します。ちょっと試した限り、メディアプレイヤーとしては使い物にならないかなと感じました。

他の使い道を模索して、今回のvibe codingと相成ったわけです。

XREAL One Proとの接続

※手近にあったmicroHDMI to HDMI変換ケーブルはHDMI側がメスだったのでイマイチの図です。発注したので届いたら組み合わせを変えて差し替えます。

さておき、XREAL One Proを接続するためにmicroHDMIを変換しどうにかする必要があります。

まずmicroHDMIを通常のHDMIに変換

HDMIをUSB Type-C DP Altに変換

おっと、変換アダプターに給電ついでにUSB 2.0のデータ通信を通してXREAL One ProのUSBオーディオ(スピーカー&マイク)を使えるようにしないといけません。

正直なんでもいいんですが、うちで使ってるのはこのケーブルです。短いL字。

これでRaspberry Pi 500側からXREAL One ProがUSBオーディオ機器として認識されてXREAL One Proに組み込まれているマイクも使えると状態になります。

注意点はHDMIをUSB Type-Cに変換するアダプターがHDMI機器がオーディオ対応していると嘘をつくので、OS側でHDMIで音声出力をしようとすることがあります。音声の出力先としてXREAL One Proを適切に選択する必要があります。

また、XREAL Oneシリーズは標準でUSBイーサーネットアダプターとして認識されてしまうので、以前紹介したTCP/IPをオフにする設定をしたほうがいいかもしれません。

詳しくは以下に書いてますが、OSDメニュー→その他→シリアル番号をXキー長めに長押し→開発者メニューからTCP/IPをオフです。

接続ケーブル小咄

実はRokid Stationに付属しているケーブルがmicroHDMIをUSB Type-C DP Altに変換するケーブルなんですが、Rokid MaxとXREAL Air 2は動くけどXREAL Oneは音を出したら落ちるのと、そもそもUSBオーディオが使えないので今回の件では不適格でした。とはいえRokid Maxでセンサー値やマイクを使わない運用ならあの忌々しいこぶ付きケーブルが有効活用できる希有な機会なので試してみるのも良いでしょう。

GNOMEにする(あとで追試してから書き直す予定)

いささか標準のデスクトップ環境は軽いけど貧相でXREAL Oneのワイド解像度にうまく対応できなかったりなんやかんやでイマイチだったので個人的に慣れているGNOMEにしてみました。

標準でインストールされていたのがRaspberry Pi OS(32bit)だったので、64bitに入れ替え…は別のマイクロSDカードを用意してWindowsからRaspberry Pi Imagerを使うのがラクです。

今回マイクロSDカードはオーバースペックですがSamsung PRO Ultimateを使いました。

さて、Raspberry Pi Imagerを起動するとインストールするOSを選べますのでRaspberry Pi OS (64-bit)みたいなやつを選びましょう。ダウンロード後にマイクロSDカードに書き込まれます。

Raspberry Pi Imagerは途中でWi-Fiアクセスポイントの設定とかをあらかじめできるのでmicroSDカードをRaspberry Pi 500に刺せばセットアップが起動して途中で勝手にWi-Fiに繋がるみたいな感じでラクチンでした。

一通り設定して普通に使える状態になったら「端末」からtask-gnome-desktopをインストールします。

sudo apt install task-gnome-desktop
reboot

再起動する必要あるかな?後ほど追記して書き直すかもしれません。全部まとめてインストールでよくねえか?

sudo apt install task-japanese task-japanese-gnome-desktop fonts-noto
reboot

なんやかんや起動後にログイン画面がいかにもGNOMEって画面になりました。

バージョンはやや古く(2025/08/03現在)43です。

task-gnome-desktopをインストールすると色々余計なアプリが追加されるのでいらないのものは適宜消しても良いのではないかと思います。

ひょんなことでorcaが起動してしまって画面に映る全ての文字を読もうとして解除方法がさっぱりわからず大変なことになったのでアンインストールしました…

sudo apt remove orca
reboot

VS Code

VS Codeのインストールは簡単です。端末から

sudo apt insatall code

拡張機能でGitHub Copilotを入れましょうね。GitHub Copilotは無料でも使えますがすぐ有料会員になると思います。1ヶ月は試用無料みたいなのでホイホイ。

VS Code Speech

VS Codeとお話しできるようになる拡張機能です。

詳細はこちら

VS Codeを起動して拡張機能をインストールするところでVS Code Speechと検索してインストールです。

VS Code Speechはオンライン接続を必要としないんですって。Raspberry Pi 500ローカルで計算してあの精度なのか。すごく21世紀って感じがしますね。

GitHub Copilotのチャット欄でCtrl+I押すとマイクアイコンが有効になって喋ったことが文字起こしされます。初期値は1.2秒無言だと送信されてしまうので流れるように喋らないといけなくて「あっ、あっ」ってなるから適宜調整してください。ウォーキートーキーモードという押し続けてる間は音声認識が動き続ける機能もあるみたい。トランシーバーみたいですね?後で試して追記しましょう。

つまり以前買ったこれが使えそう。キーボードPCなのにキーを追加するという…

あとはHey Codeって呼びかけると音声チャットセッションが開始する設定もありますがこっぱずかしいのでちょっと…

XREAL One Proのマイクで音声入力!

これがまああっけないぐらい簡単に、言ったことを認識して文字起こしされるのは隔世の感がありました。静かな室内だったので五月蠅いスタバとかだとどうなるか分かりませんが…

XREAL Oneのショートカットキーで音声入力が発動できればもっとラクになるんだけどね!

ちなみに、XREALはNreal Lightから一貫してずっとUSBオーディオでマイクとスピーカーを実装しています。RokidはスピーカーはDP音声なんですが、USBオーディオでマイクが別に実装されているので同様の使い方ができるでしょう。VITUREはOneはマイク無かったですね。最近のは知りません。

なんか作ってみようと思ったがすぐには思いつかない問題

「なんか作ろう」と思い立ってもなんも思いつかなかったので、目の前にあったSwitchBot CO2センサーの値を取得してウィジェットとして表示させようかと思って作ってる様子がこれ。

XREAL One Proの21:9ワイドモードがいい感じ。XREAL Eyeを装着しておけば6DoF対応で顔を画面に近づけて大きく見ることもできます。

今回はVS Code Speech縛りなので、せっかくキーボードあるのにCtrl+IでGitHub Copilotで音声入力のみで作りました。基本的に遊ぶカネが足りないのでGPT-4.1で作って後半言うこと伝わらなくなったので渋い顔をしてClaude Sonnet 4に切り替えたりしてます。

最初気温だけ表示して、せっかくCO2センサーなんだしCO2濃度もあった方が良いね、ついでだから湿度も取ろうねというのがグラフにも出てます。途中で湿度の列が追加されたので数値の連続性が崩れてますね。

グラフ内の日本語が化けてるのを解決させようとしてNoto Sansと言ったのが「能登さんず」って認識されてるのにやんとNoto Sansを使う用にして文字化けが解消できているとか賢い。

グラフの時間を見ると9時半頃に動き出して小一時間でここまで来たようです。グラフの微調整とかに時間がかかりましたがSwitchBotのAPIを叩いて値を取得するとかはトークン取得方法調べてる時間の方が長いぐらいすぐ動きました。自分で書いたらまだ使用する言語も選択できてないぐらいの時間ですよ。

コードに手で入力したのはSwitchBotのトークンとDEVICE IDだけでした。最初スクリプト内に直接保存してたのを「別のファイルに書き出してgitに含めないようにして」って言ったらconfig.pyを作って.gitignoreに書いてくれたというくだりもあったので、セキュリティリスクなどは使う人が気をつけないといけないですね。もうちょっとうまく伝えられたら最初からそうしてくれてたのかもしれませんが。

思いついた機能追加を発話するだけでどんどん書き換わって実際に動いていく様を見るのは楽しいですね。むかしからデフラグでちまちま動いてるのを見てるのが好きだったので小人さんが頑張ってる風なのも良いです。

いやしかし、GitHub CopilotのAgentモードは便利ですね。勝手に壊して何してくれてんねんってなることも多々ありますが、よくある機能を実装することに関しては人類には太刀打ちできそうもありませんねぇ。

2万円もしないRaspberry Pi 500でここまでできるのはすごいなあ、すごいしか言えないぐらいすごいなあ。

ポインティングデバイスつけたい欲

なんかそれっぽいこんなパーツをAliExpressで注文したので届いたら3Dプリンターでケース作ってどうにかしたい…

興が乗れば本体に組み込みたいけどGitHub Copilotさんどうにかしてくれませんか?ハードウェアは無理?そう…

おしまいに

今回の件とは直接は関係ないんですが、BOOTHの自家通販(あんしんBOOTHパック)利用時に便利な帳票印刷ツールがGitHub Copilotさんのおかげで大幅に強化されましたのでついでにお知らせしておきますね。

ちょっとしたツールを作るのはもうリファレンス調べてどうのこうのする前にとりあえずvibe codingで動くモノ作ってそれから考えようみたいな時代になったんですねえ。

弊者プログラム書くのは専門ではないので2019年頃にboothcsvをイチから手書きで作るの大変だったのにいつの間にかすごい世の中になったものです…

世間様はもっと進んだ環境でvibe codingされてることと存じますが、お手軽に試せるVS CodeとGitHub Copilot、VS Code Speechは良いですね。未来を感じました。

Raspberry Pi 500と普通のイヤホンマイクでも同じことができるので別にXREAL One Proは必須じゃないです。こういうの好きでしょう?って釣り餌ですが、スタバでドヤドヤしてるときにほかの人に画面を見られないというのはメリットかなと存じます。21:9ワイドもちょうどいい塩梅なので遊ぶカネに余裕がある方にはオススメです。

個人的には同じことができるXREAL Oneでも良いと思ってます。ドヤドヤしたい方はXREAL One Proなんでしょうけどね。

現場からは以上です。

タイトルとURLをコピーしました