OpenAI开源的Whisper一直是很多开发者首选的语音识别模型。但它使用固定长度的编码器来处理 30 秒的音频块,对于较短的音频序列需要进行零填充。
来自MSN6 个月
阿里开源新语音模型,比OpenAI的Whisper更好!Qwen2-Audio架构简单介绍 Qwen2-Audio使用了OpenAI开源的语音模型Whisper-large-v3作为音频编码器。为了更好地处理音频数据,Qwen2-Audio采用了16kHz的采样频率 ...
当前正在显示可能无法访问的结果。
隐藏无法访问的结果