功能简介
YeLIn AI 提供强大的音频处理能力,包括音频转文字(Speech-to-Text)和文字转语音(Text-to-Speech)两大功能。通过统一的 OpenAI API 格式,您可以轻松实现会议记录转录、字幕生成、语音助手、有声读物制作等应用。 🎙️ 智能音频处理支持多语言音频转文字、高清语音合成、实时流式输出,让 AI 真正”听懂”和”说出”内容。
🌟 核心特性
- 🎯 多模型支持:GPT-4o Transcribe、Whisper、TTS-1/HD 等专业音频模型
- 🌍 多语言识别:支持 50+ 种语言的音频转文字
- 🎤 高质量合成:支持标准和高清两种语音质量
- 🗣️ 多种音色:6 种不同的语音音色可选
- ⚡ 快速响应:高性能处理,秒级返回结果
- 💰 灵活计费:按 Token 或时长计费,成本可控
📋 支持的音频模型
音频转文字(Speech-to-Text)
| 模型名称 | 模型 ID | 计费方式 | 特点 |
|---|---|---|---|
| GPT-4o Transcribe ⭐ | gpt-4o-transcribe | Token | 高准确度,支持多语言 |
| GPT-4o Mini Transcribe | gpt-4o-mini-transcribe | Token | 快速高效,成本低 |
| Whisper v1 | whisper-1 | 时长(秒) | OpenAI Whisper 模型 |
文字转语音(Text-to-Speech)
| 模型名称 | 模型 ID | 音质 | 特点 |
|---|---|---|---|
| TTS-1 ⭐ | tts-1 | 标准质量 | 快速生成,适合实时应用 |
| TTS-1 HD | tts-1-hd | 高清质量 | 音质更佳,适合内容创作 |
可用的语音音色
- alloy - 中性音色,清晰自然
- echo - 男性音色,沉稳有力
- fable - 英式口音,优雅动听
- onyx - 深沉男声,适合播报
- nova - 女性音色,温暖亲切
- shimmer - 柔和女声,适合旁白
🎙️ 音频转文字
1. 基础示例 - cURL
2. Python 示例 - 使用 OpenAI SDK
3. 指定语言和响应格式
4. 使用 Whisper 模型(按时长计费)
支持的音频格式
支持以下音频格式(文件大小限制 25 MB):- mp3 - MP3 音频文件
- mp4 - MP4 音频文件
- mpeg - MPEG 音频文件
- mpga - MPEG 音频文件
- m4a - M4A 音频文件
- wav - WAV 音频文件
- webm - WebM 音频文件
🗣️ 文字转语音
1. 基础示例 - cURL
2. Python 示例 - 生成语音文件
3. 使用高清模型
4. 调整语速
5. 实时流式输出
🎯 常见应用场景
1. 会议记录转录
2. 视频字幕生成
3. 多语言内容播报
4. 有声读物制作
💡 最佳实践
音频转文字优化
- 音频质量:
- 采样率建议 ≥16 kHz
- 降低背景噪音可提高识别准确度
- 清晰的人声录音效果最佳
- 文件大小:
- 单个文件 ≤25 MB
- 超大文件建议先分段处理
- 语言指定:
- 明确指定语言可提高准确度
- 支持的语言代码:zh(中文)、en(英文)、ja(日语)等
- 响应格式选择:
json:默认格式,包含完整信息text:纯文本输出srt/vtt:带时间戳的字幕格式verbose_json:详细 JSON,包含时间戳和词级信息
文字转语音优化
- 音色选择:
alloy/nova:适合通用场景echo/onyx:适合新闻播报fable/shimmer:适合故事朗读
- 语速调整:
- 正常语速:1.0
- 快速播报:1.2 - 1.5
- 慢速教学:0.75 - 0.9
- 文本优化:
- 单次请求文本 ≤4096 字符
- 使用标点符号控制停顿和语调
- 数字和特殊符号建议转换为文字
- 成本控制:
- 标准场景使用
tts-1 - 高质量需求使用
tts-1-hd - 根据实际需求选择合适的模型
- 标准场景使用
错误处理
📊 性能对比
音频转文字模型对比
| 模型 | 准确度 | 速度 | 支持语言 | 计费方式 | 价格 |
|---|---|---|---|---|---|
| gpt-4o-transcribe | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 50+ | Token | $$ |
| gpt-4o-mini-transcribe | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 50+ | Token | $ |
| whisper-1 | ⭐⭐⭐⭐ | ⭐⭐⭐ | 50+ | 时长 | $ |
文字转语音模型对比
| 模型 | 音质 | 速度 | 自然度 | 价格 |
|---|---|---|---|---|
| tts-1 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | $ |
| tts-1-hd | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | $$ |
🚨 注意事项
- 隐私保护:不要上传包含敏感信息的音频文件
- 合规使用:遵守相关法律法规,不用于非法用途
- 版权声明:生成的语音内容需注明由 AI 生成
- 文件限制:音频文件最大 25 MB,文本最长 4096 字符
- 使用限制:请勿用于冒充他人身份或虚假信息传播
🔗 相关资源
- Chat Completions API - 了解更多关于对话 API 的信息
- API 定价说明 - 查看详细价格信息
gpt-4o-mini-transcribe 或 tts-1 进行测试,确认效果后再使用高级模型进行生产部署。