利用本地化模型部署的AI软件进行英文视频转中文字幕
1 需求
需求很简单:即B站的某个英文视频非常有学习价值,希望能够下载下来便于离线反复观看,最核心需求是下载后的视频必须和中文字幕配合使用
B站的某视频文件截屏如下
2 思路
2.1 思路1 工具直接下载
直接使用B站提供的字幕下载,部分B站视频在利用诸如Downie
下载时候可以同步下载已经翻译过的字幕文件
B站虽然贴心地提供了在线自动翻译功能,但是问题是必须在线使用无法离线。并且大多情况下英文原版视频,B站并没有提供对应的单独中文字幕文件
这种直接下载方式的解决思路受制于B站,不具备通用性
2.2 思路2 转写翻译软件
使用诸如科大讯飞的智能硬件设备,诸如科大讯飞SR201
支持中英文实时互转,这一功能在跨国会议、英语学习等场景下非常实用
但是得到是一个中英文的文稿,最大的痛点是缺乏时间序列属性,无法转化为可使用的字幕文件
其它的转写翻译软件还有一个最大的痛点就是需要回看几个小时长的音视频进行实时转写翻译,这个显然是不现实的
在观看学习英文版视频文件中可能需要来回切换,或者提前学习翻译后的文稿,学习效率不高
2.3 思路3 本地化部署AI模型进行转写
既然我们最终目标是希望能够在观看视频的同时,能够实时的看到中文字幕,最好的结果是中英字幕双字幕叠加
需要解决的痛点就是翻译准确,特别是对专业术语要确保准确性,同时不需要去回看音视频去实时转写,而是通过读取音视频文件直接进行转写翻译功能
同时输出能够带有时间序列的字幕文件,这样后续利用播放软件直接加载字幕使用
3 实施
3.1 下载
第一步:直接利用成熟的Downie
软件将B站视频下载到本地
3.2 转写
利用Whisper Transcription
直接进行转写翻译
Whisper 是 OpenAI(就是chatGPT背后的公司)在2022年9月开源的音频转文本的模型,它的转写精确度非常高
关键可以对多种语言进行转写【后续我们】
免费版的Whisper Transcription
提供了本地化模型部署方式
免费版可以选择质量和性能相对平衡的小模型版本进行本地化部署
直接打开本地音视频文件,支持MP3
、WAV
、MP4
、MOV
等多种格式
软件开始进行transcribing
转写
实际测试下来速度还是蛮快的,得益于Whisper Transcription
在Mac平台上的优化,GPU利用率基本都在95%左右
1小时17分
的视频文件,3分8秒
时间内容完成了转写,25.67
倍加速
完成后可以对转写后的结果进行总体预览
选择Export
导出带时间序列的SRT
格式的字幕文件
3.3 在线翻译
直接将前序导出的srt文件
,先复制粘贴至word中再导出为.docx
,然后后上传至有道翻译的文档翻译
此时可以直接得到带时间序列的中文结果
选择导出文档,输出最终的
因为有道翻译非VIP版本直接导出PDF,因此后续还要通过PDF阅读软件导出word,然后再导出为word文件,然后复制粘贴至记事本,导出为
srt文件
注意
srt
文件的文件名称要和视频文件一致
4 结果
利用播放软件的字幕加载功能(一般软件都会自动加载文件名相同的字幕文件)
后续如果特定需求,可以利用视频编码软件将字幕合并内嵌到视频内