OpenAI在2022年9月开源了 Whisper 自动语音识别系统 ,并在2023年3月与ChatGPT API一起发布了Whisper的API版本。
Whisper 本身是开源的(https://github.com/openai/whisper),因此可以基于 Whisper自建或二次开发。而Whisper API 提供的是 Whisper v2-large 模型,价格每分钟 0.006 美元。
Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。
因此最近涌现出了很多基于Whisper的音频转文字服务。
汇总一下基于Whisper的音频转文字服务。
writeout.ai:https://github.com/beyondcode/writeout.ai
Good Tape:https://www.mygoodtape.com
Auris AI:https://aurisai.io
AirCaption:https://www.aircaption.com
Revoldiv:https://revoldiv.com
由于Whisper确实需要GPU加持,有开发人员将Whisper从Python迁移成C++版本,可以运行在CPU上。
https://github.com/ggerganov/whisper.cpp
https://whisper.ggerganov.com 这是基于whipser.cpp及WASM的实例。
Whisper ASR Webservice 将Whisper封装成Web服务及Docker服务,方便自建。
https://github.com/ahmetoner/whisper-asr-webservice
Aiko:https://sindresorhus.com/aiko 基于Whisper的Mac应用
除了这些基于Whipser的转录服务外,强烈推荐 大名鼎鼎的转录服务 oTranscribe ,开源免费。
评论0