You dont have javascript enabled! Please enable it!
AI世界AIGC音频工具

Whisper

一个自动语音识别 (ASR) 系统

标签:

Whisper 是一个自动语音识别 (ASR) 系统,它基于从网络收集的 680,000 小时多语言和多任务监督数据进行训练。我们表明,使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还可以转录多种语言,以及将这些语言翻译成英语。我们正在开源模型和推理代码,作为构建有用应用程序和进一步研究鲁棒语音处理的基础。

Whisper 架构是一种简单的端到端方法,以编码器-解码器 Transformer 的形式实现。输入音频被分成 30 秒的片段,转换成对数梅尔频谱图,然后传入编码器。解码器经过训练可以预测相应的文本字幕,并与特殊标记混合,指导单个模型执行语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...