视频添加字幕-开发随笔

一、前言

AI已经火了一段时间了，如今不仅有AI配音，也有AI字幕，让做视频变得不再那么的高不可攀。

其中AI配音很多都是收费的，我目前找到一个完全免费的网站，只不过不清楚其能免费多久：马克配音。

一个视频核心灵魂无非两个：画面、声音。

但事实上声音这玩意是很玄学的，就算说的是中文，只要不配字幕，很多人就会遗漏很多信息，从而“看不懂”。

或许是因为人类从眼睛中获取信息的速度比耳朵快吧。

所以字幕便是很多视频必备的要素，但如果你真的手动为视频配字幕，那无疑是一件非常繁琐的事情。

为此我研究了大半天，总算找到一个比较好用、且免费的自动生成字幕的方式。

whisper是一个完全开源免费的项目，由ChatGPT的创造者OpenAI开源：whisper。

这个原始的项目搭建起来很复杂，从其官方描述来看，你大概需要做下面这些事情：

这显然是有些麻烦的，但我亲测是完全可用的，只不过效率堪忧，我一个5分钟的音频，它居然转换了一个小时左右。

所以个人并不推荐上面这种原始的用法，因为已经有人在该项目的基础之上完成了一个更加优秀的音频转字幕工具：Const-me/Whisper

点击右边的软件发行页，建议选择cli进行下载：

也就是命令行版本的，因为亲测其图形界面版本虽然也很好用，但其在转换中文字幕的时候会将其转换为繁体字，如果你不介意繁体字，那么可以下载使用下面的WhisperDesktop。

至少目前我没有找到方法在图形界面中将其修改、生成简体中文字幕的方法。

下载后里面有三个文件：

然后我们只需要在命令行运行这个main.exe文件即可：

.\main.exe -osrt -l zh -m "D:\Data\ggml-medium.bin" -f "D:\Desktop\1.mp3" --prompt "这是一个简体中文的视频"

这里它有很多参数：

-osrt：将字幕文件输出为srt格式，将自动与原视频、音频文件同名、并生成在同目录下，也就是最终的执行结果，可以被直接导入到视频编辑软件中，比如PR。
-l：语言类别，中文就是后面的zh
-m：选择模型文件，这个需要你自行去下载：ggerganov/whisper.cpp，官方推荐下载ggml-medium.bin，下载到本地后将其路径填入参数即可。
-f：选择要处理的视频、音频文件
--prompt：设置初始化提示词，任意一段简体中文字符串均可，上面图形化应用就是因为暂时没有提供设置该属性的方法，所以无法实现将结果设置为简体中文。

此时只需要运行上面的命令，等待一会就能转换成功。

比如我的一个5分钟的音频，通过该工具只需要3分钟左右就能完成转换，效率非常高。

注意最后生成的结果会保存到源文件同一目录下，并且名字与该文件名相同，只是其后缀名改为了.srt，这就是字幕文件，直接将其导入pr等视频编辑软件中即可使用。