语音模式

终端里的对讲机,按住说话松开发送,或轻触一次开始、再触一次自动发送

操作9 分钟

Voice Mode 是 Claude Code 内置的语音输入功能,支持两种模式:Hold(按住说话松开发送)和 Tap(轻触开始、再触自动发送)。语音实时转写为文字直接进入输入框,基于云端流式语音转文字(streaming STT),转写文本不消耗 Claude messages 或 tokens。

一、最简上手

前提条件:

  • Claude Code v2.1.69 或更高版本(Tap 模式需 v2.1.116+)
  • 使用 Claude.ai 账户认证(API Key、Bedrock、Vertex、Foundry 不支持)
  • 本地麦克风可用(不支持纯远程环境和 Web 版;WSL 需要 WSLg)
  • 订阅计划:Pro / Max / Team / Enterprise

音频流式发送到 Anthropic 服务器转写,本地不处理音频。

二、两种模式

Hold mode(默认)

Push-to-talk:按住空格录音,松开停止。预热期间底部显示 keep holding…,录音激活后切换为波形。

转写文本插入在当前光标位置,光标停留在插入文本末尾,可自由混合打字和语音。松开后默认等待用户按 Enter 发送。

Tap mode

Toggle 模式:轻触一次开始录音,再轻触一次停止并自动发送。无预热延迟。

启用方式:

输入框为空时轻触 Space 开始录音。再触 Space 停止。转写文本至少 3 个词时自动提交;不足 3 词时插入但不提交(防止误触发送)。

第一次轻触仅在输入框为空时启动录音,已有文字时正常输入空格。录音在 15 秒静默或总时长 2 分钟后自动停止。

两种模式比较

维度Hold modeTap mode
操作按住空格说话,松开结束轻触开始,再轻触结束
预热延迟有(key-repeat 检测)
自动提交默认关闭,可通过 autoSubmit: true 开启默认开启(≥ 3 词)
适合场景短句、快速补充长段口述、远程键盘无法持续按键、屏幕阅读器

完整命令变体

付费内容

继续阅读完整课程

购买后即可解锁全部 16 个功能模块、实战场景与深度配置。

¥199¥399
  • 30 分钟完成第一个真实任务
  • 实战场景 + 深度配置
  • 无需续费,持续更新