Whisper官方入口 - 一个自动语音识别 (ASR) 系统-voidke导航

Whisper 是一个自动语音识别 (ASR) 系统，它基于从网络收集的 680,000 小时多语言和多任务监督数据进行训练。我们表明，使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外，它还可以转录多种语言，以及将这些语言翻译成英语。我们正在开源模型和推理代码，作为构建有用应用程序和进一步研究鲁棒语音处理的基础。

Whisper 架构是一种简单的端到端方法，以编码器-解码器 Transformer 的形式实现。输入音频被分成 30 秒的片段，转换成对数梅尔频谱图，然后传入编码器。解码器经过训练可以预测相应的文本字幕，并与特殊标记混合，指导单个模型执行语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。