在消费级显卡上微调OpenAI开源的自动语言识别模型Whisper:8GB显存即可针对你自己的数据建立ASR模型
尽管自动语音识别(Auto Speech Recognition,ASR)已经有很多的解决方案,但是能够媲美人类水平的ASR模型屈指可数。与大语言模型不同的是,ASR领域可用的预训练模型很少,基于预训练模型在特定数据集上微调更是困难。而德国的一位博士生开源了一个使用LoRA(Low Rank Adaptation)技术和PEFT(Parameter Efficient Fine Tuning)方法对Whisper模型进行高效微调的项目。可以让大家在消费级显卡(显存8GB)上对OpenAI开源的WhisperV2模型进行微调!

语音识别预训练模型Whisper简介
OpenAI在2022年9月21日开源的Whisper模型声称在英语的语音识别方面接近人类(Whisper模型卡信息:https://www.datalearner.com/ai-models/pretrained-models/Whisper )。并在同年的12月9日发布了Whisper V2版本。该模型参数规模15.5亿,表现十分优秀。由于Whisper是在一个大型和多样化的数据集上训练的,并没有针对任何特定的数据集进行微调,它并没有击败专门从事LibriSpeech性能的模型(这是一个著名的语音识别竞争基准)。然而,当在许多不同的数据集上测量Whisper的零散性能时,它比那些模型要稳健得多,犯的错误要少50%。

