首页
OpenAI 开发了一个音频转录模型 Whisper,该模型设计有何亮点?
2024-04-10 阅读 81
Whisper 的亮点在于以简单的 encoder–decoder Transformer 结构和 log‑mel 频谱输入为基础,靠超大规模、多语言、多任务(转录、语言识别、语音到文本翻译)有监督数据训练来获得鲁棒性。它能直接输出大小写和标点、支持时间戳与分段,面对口音、噪声和领域变化表现较好,提供多种尺寸权重并开源,便于部署和研究。
更新于 2026年01月03日