OpenAI开源的Whisper一直是很多开发者首选的语音识别模型。但它使用固定长度的编码器来处理 30 秒的音频块,对于较短的音频序列需要进行零填充。
Qwen2-Audio架构简单介绍 Qwen2-Audio使用了OpenAI开源的语音模型Whisper-large-v3作为音频编码器。为了更好地处理音频数据,Qwen2-Audio采用了16kHz的采样频率 ...