2026-02-14

生成 AI のプロンプトは音声入力で書くと捗る

生成 AI を日常的に使っていると、プロンプトをどう書くかがそのまま生産性に直結する。最近、音声入力でプロンプトを書くようになってから、生成 AI の出力品質と自分の作業効率が明らかに変わったので、その話をしたい。

3 行まとめ

プロンプトは正確性が不要なので、速度重視の音声入力と相性が良い
思考の速度でコンテキストを大量に渡せるので、生成 AI との往復回数が減る
音声入力で思考を垂れ流して、生成 AI にまとめさせるのが便利

なぜプロンプトに音声入力が向いているか

プロンプトに音声入力が向いている最大の理由は、プロンプトに正確性がほぼ不要という点にある。

通常の文章であれば、音声入力の誤認識が気になってしまう。しかし LLM に渡すプロンプトは、多少の誤字や文法が崩れていても意図を汲み取ってくれる。つまり、入力の正確性を気にせず速度だけを追求できる。音声入力はまさにその用途に適している。

タイピングがどれだけ速くても、音声入力の速度には勝てないと感じている。自分はタイピング速度が速い方だが、それでもタイピングしていると思考がブロックされる感覚がある。漢字変換や英数/ひらがなの切り替えなど、入力操作そのものに脳のリソースを持っていかれてしまう。音声入力だと喋ることに集中できるので、自分の思考を垂れ流すということに専念できる。話していくうちに思考の整理にもなるし、思考と入力のギャップがほとんどなくなる。

生成 AI をどれだけ活用できるかは「いかに少ない往復で期待通りの結果を出させるか」にかかっていると思う。そして往復回数を短くするコツは、最初にどれだけコンテキストを渡せるかだと思う。生成 AI に変なことをされる原因の多くは、コンテキストが足りていないことだと感じている。タスクの背景、モチベーション、期待する出力の形式、制約条件など、様々なコンテキストは渡せば渡すほどよい (もちろん限度はある)。これらを十分に伝えられていないと、生成 AI は意図しない方向に進んでしまいがち。

ここで音声入力の強みが活きる。タイピングだと面倒に感じる量のコンテキストも、喋れば数十秒で大量に伝えられる。「このタスクはこういう背景があって、こういうことを達成したくて、こういう制約があって……」と喋りまくればいい。細かなニュアンスも、まとまっていなくてもただ思いつく限り喋れば伝わる。CLAUDE.md のようなシステムプロンプトに書いておく情報も大事だが、体感としてはユーザーからのプロンプト入力のほうが優先されている感じがあるので、音声入力で直接コンテキストを渡すのは効果的だと思う。

音声入力で思考を垂れ流して生成 AI にまとめさせる

音声入力が最も効果的なのは、セッションを始めてすぐの初手のプロンプトだと感じている。タスクを依頼するときに、タスクの内容だけでなく背景やモチベーションまで喋って伝える。「このリファクタリングをやりたい理由は、最近このモジュールに変更が集中していて、変更のたびにテストが壊れるからで……」のように、タイピングだと書くのが面倒な背景情報を一気に伝えられる。

また、まだ固まっていないアイデアの壁打ちにも向いている。煮え切らないアイデアをとりあえず喋り、生成 AI にまとめさせ、その結果を見てまた思ったことを喋る、といったループを回すと、最初はふわっとしていたアイデアがだんだん思考も整理され具体化していく。この煮え切らない状態ではとにかくブレスト的に量をこなすのが重要だと思っていて、その量をこなすには音声入力が最適だと感じている。

実際に自分が音声入力で Gemini に渡したプロンプトと、その応答を載せてみる。

こんな感じで、思いつくままにダラダラと喋っている。たとえば「マスオド」は Mastodon の音声認識ミスだが、生成 AI はこの程度の誤認識なら問題なく意図を汲み取り、構造的に理解してくれる。この初手の音声入力プロンプトは実際にはこの後もかなり続いていて、全体で約 5,000 文字ある。手で打つと相当な時間がかかるが、音声なら数分で入力できる。

このような壁打ちの結果は、どこかにドキュメントなどフロー情報としてまとめておくとよい。自分は仕事でもプライベートでもタスク管理に GitHub Issue を使っているのだが、課題感ややりたいこと、背景やモチベーションをとにかく喋りまくって、Claude Code で issue を作成させている。手で書くと背景まで丁寧に書くのは面倒で省略しがちだし、なんならタイトルも適当であとから見てなんの issue だったか分からなくなりがちだが、この方法だと必要十分な情報を簡単に残せて便利。

こうしてまとめた情報は多方面で便利。たとえば新規の Claude Code のセッションに、その issue の URL を渡すだけでタスクの背景・やるべきことを理解してくれる。コンテキストが整理されていて嬉しいのは生成 AI だけではない。チームメンバーや将来の自分がそのタスクを見たときにも、背景やモチベーションがまとまっていると理解しやすい。整理されたコンテキストがあるほど意図が正しく伝わるのは生成 AI も人間も同じで、音声入力と生成 AI で気軽にコンテキストを整理した状態で残せるのはどちらにとっても価値がある。

Superwhisper が特に便利

音声入力ツールとして自分は Superwhisper を使っている。

Superwhisper

superwhisper.com

AI powered voice to text for macOS

macOS, iOS, Windows に対応しており、Pro プランの全機能を 15 分間¹無料で試せるので、一度触ってみるのがよいと思う。自分は月額 $8.49 の Pro プランで利用している。買い切りのライフタイムプラン ($249.99) もあるが、音声入力ツール自体がまだまだ進化途上で、半年後にはもっと良いものが出ている可能性もあるので、一旦は月額にしている。

macOS での使い方はシンプルで、ショートカットキー (デフォルトは Option + Space、カスタマイズ可能) で録音を開始して、喋り終わったらもう一度同じショートカットキーを押すと録音が確定され、テキストに変換される。

モデルはデフォルトの Ultra (Cloud) を主に使っている²。生成 AI に意図が伝わるかという観点では体感 99 % くらいの精度があり、意図しない伝わり方はほとんどない。Docker や GitHub のような用語もそのまま正しく出力してくれる。ただし、出力をそのまま文章として使えるかというとそうではなく、句読点が抜けていたり細かい用語の変換ミスがあったりするので、そのまま使える文章としての精度は 80 % 程度という感覚。だからこそ正確性が不要なプロンプトという用途に向いている。なお、一気に長く話すほうが音声認識のコンテキストが増えて適切な語彙が選択されやすいと感じている。細切れに確定させるより、話したいことをまとめて喋って一括で確定させるのがおすすめ。

個人的に気に入っているところとして、フィラーや言い淀みをよしなに消してくれる点がある。例えば「修正……あーいや、調整してほしい」と喋ると「調整してほしい」だけが出力される。「えーと」「あの」のようなフィラーも消える。プロンプト入力用途だとフィラーがあっても困らないが、人間のための文章としても使えるので便利。

音声認識の結果をさらに LLM で整形する機能もあるが、プロンプト用途であれば噛ませなくてよいと思っている。LLM を噛ませると生成時間が体感 2〜3 倍になるのが厳しい。弱いモデル (例: Claude Haiku 系) だと多少レスポンスが速くなるかも程度で、意図しない変換をされることのほうが多かった。フォーマットが必要な用途 (メールの文面など) であれば噛ませる価値はあるかもしれない。少なくとも生成 AI プロンプト用には遅くなるだけで不必要だと感じた。

バッチ入力とリアルタイム入力

音声入力には大きく分けてバッチ入力とリアルタイム入力の 2 つの方式がある。バッチ入力は喋り終わってから一括で認識結果が出力される方式で、Superwhisper の Ultra モデルはこちら。リアルタイム入力は喋りながら逐次テキストが出力される方式で、iOS 標準の音声入力などがこれにあたる。Superwhisper にも Nova などリアルタイム入力に対応したモデルがある。

プロンプトの用途ではバッチ入力が便利だと感じている。喋っている間は入力先を気にしなくていいので、コードやドキュメントを見ながらそれについて喋ったり、別の画面で操作しながら喋ったりできる。喋り終わってから入力先を選べばいい³。リアルタイム入力だと入力先に常にフォーカスしておく必要があり、入力途中の変換ミスも目に入ってそちらに意識を持っていかれがちなのがちょっと厳しい。ただしバッチ入力も完璧ではなく、録音が完了してから変換が完了するまでの数百ミリ秒の間、次の音声入力を開始できないのが玉に瑕だったりする。

音声入力の課題と今後

音声入力には当然限界もある。

まず、外では使いにくい。周囲に人がいる環境で PC に向かって一人で喋り続けるのはなかなか恥ずかしいし、プライバシー大公開になってしまう。通話してるフリといえなくはないかもだが、実際のところ在宅ワークや自室でないと厳しい。

また、「ここを修正してほしい」のような画面上の位置を指す指示が音声だけでは伝えにくい。バッチ入力方式だと、喋りながら「ここ」と言った瞬間にスクリーンショットを貼るといった操作ができない。一度音声入力を切ってからスクリーンショットを貼るか、「後でスクリーンショットを貼ります」と喋っておいて後から追加するといった運用になる。リアルタイム入力方式のほうがこの点ではまだやりやすいかもしれない。いずれにしても、現状は明確な解決策がなく、ちょっと面倒。

副次的な面白さとして、自分の喋り方の癖をメタ認識できるようになった。フィラーは一定消してくれるものの全部は消えないので、「まあ」「なんか」のような言葉や代名詞を多用しているなと気付いたりする。また、滑舌が悪くて認識に失敗している箇所を見て、ハキハキ喋るように意識するようになった。人と喋るとき以上に、音声認識に一発で正しく認識してもらうために滑舌を意識するようになるのは思いがけないメリットだと思う。

最後に

生成 AI へのプロンプトに音声入力を使うと、思考の速度でコンテキストを大量に渡せて、生成 AI の出力品質を上げつつ往復回数を減らせる。正確性が不要なプロンプトという用途と、速度重視の音声入力は相性が非常に良い。

音声入力ツールは Superwhisper でなくても ChatGPT の音声入力や iOS 標準の音声入力でもいいが、自分は Superwhisper を使っていて満足している。Pro プランの全機能を 15 分間無料で試せるので、気になったらぜひ触ってみてほしい。

15 分というのは音声入力の合計録音時間のこと。たとえば 10 秒の音声入力を 90 回繰り返すと制限に達する、という感じ。 ↩
クラウドモデルのほかにローカルモデル (Ultra V3 Turbo, Ultra (Local) など) もあり、オフラインでも利用できる。 ↩
Superwhisper の場合、入力先にフォーカスしていればそのまま入力され、フォーカスしていなければクリップボードにコピーされる。 ↩

Fohte