跳转至

🎤 语音转文字配置指南

使用 SiliconFlow(硅基流动)API 实现语音消息自动转写


概述

通过 SiliconFlow 的语音转文字 API,让 Agent 能听懂语音消息。API 兼容 OpenAI Whisper 接口格式,国内访问稳定,延迟低。

前置条件

配置步骤

1. 设置环境变量

# 写入 ~/.bashrc 持久化
echo 'export SILICONFLOW_API_KEY="sk-your-api-key-here"' >> ~/.bashrc
source ~/.bashrc

2. 安装 Skill

cd ~/.openclaw/workspace
openclaw skills install openai-whisper-api

3. 修改转写脚本

默认脚本指向 OpenAI,需要改为 SiliconFlow。编辑 skills/openai-whisper-api/scripts/transcribe.sh,修改三处:

默认模型(约第 22 行):

# 改前
model="whisper-1"
# 改后
model="${WHISPER_MODEL:-FunAudioLLM/SenseVoiceSmall}"

API Key 和 Base URL(约第 55 行):

# 改前
if [[ "${OPENAI_API_KEY:-}" == "" ]]; then
  echo "Missing OPENAI_API_KEY" >&2
  exit 1
fi

# 改后
API_KEY="${SILICONFLOW_API_KEY:-${OPENAI_API_KEY:-}}"
API_BASE="${WHISPER_API_BASE:-https://api.siliconflow.cn/v1}"

if [[ "${API_KEY:-}" == "" ]]; then
  echo "Missing SILICONFLOW_API_KEY or OPENAI_API_KEY" >&2
  exit 1
fi

curl 请求地址(约第 70 行):

# 改前
curl -sS https://api.openai.com/v1/audio/transcriptions \
  -H "Authorization: Bearer $OPENAI_API_KEY" \

# 改后
curl -sS "${API_BASE}/audio/transcriptions" \
  -H "Authorization: Bearer $API_KEY" \

4. 测试

export SILICONFLOW_API_KEY="sk-your-key"
bash ~/.openclaw/workspace/skills/openai-whisper-api/scripts/transcribe.sh \
  /path/to/audio.ogg --out /tmp/test.txt

cat /tmp/test.txt
# 输出类似: {"text":"这是转写后的文字内容"}

支持的音频格式

格式 扩展名 说明
Opus .ogg 飞书/Telegram 语音消息默认格式
MP3 .mp3 通用音频
M4A .m4a iPhone 录音
WAV .wav 无压缩音频
FLAC .flac 无损压缩

可用模型

模型 说明 推荐场景
FunAudioLLM/SenseVoiceSmall 默认,中文效果好,速度快 日常语音消息
whisper-1 OpenAI Whisper 兼容 多语言混合

切换模型:

export WHISPER_MODEL="whisper-1"

环境变量参考

变量 说明 默认值
SILICONFLOW_API_KEY SiliconFlow API Key (必填)
WHISPER_MODEL 转写模型 FunAudioLLM/SenseVoiceSmall
WHISPER_API_BASE API 地址 https://api.siliconflow.cn/v1

费用

SiliconFlow 语音转文字按时长计费,具体价格见 官方定价页。日常语音消息(几秒到几十秒)费用极低。

注意事项

安全提醒

  • API Key 只存在环境变量中,不要写入代码或提交到 Git
  • 每台 VM 使用独立的环境变量配置
  • 如需多台机器共享,各自配置各自的 ~/.bashrc

适用于所有小队

此方案对 KUMA 和 NEKO 小队通用。只需在各自 VM 上配置环境变量和安装 skill 即可。


:material-microphone:{ .middle } 让 Agent 听懂你的声音