今天我将分享一款珍藏已久的开源神器:pyVideoTrans。这个免费工具可以为视频全自动生成字幕、翻译字幕,并添加配音。无论你手头有一个没有字幕的外语视频,还是想将视频完全转换为另一种语言,pyVideoTrans都能轻松搞定。话不多说,我们开始吧!
pyVideoTrans入门
首先,在浏览器中打开pyVideoTrans的GitHub官方网站。向下滚动到Releases部分,找到最新版本。需要注意的是,GitHub目前仅提供补丁包。如果需要完整版,可以点击提供的链接下载,或选择前一个版本(v3.75)。
下载完成后,将安装包解压到一个纯英文路径的目录下,以避免潜在问题。进入解压后的文件夹,双击sp.exe
启动程序。如果弹出缺少数字签名的警告,点击更多信息,然后选择仍要运行。若遇到权限问题,可右键以管理员身份运行。
探索pyVideoTrans界面
pyVideoTrans的界面直观且功能强大,专为处理外语“生肉”视频设计,能够生成字幕、翻译并配音,最终输出带翻译字幕和配音的完整视频。以下是主要功能的介绍:
1. 自定义视频翻译
自定义视频翻译是pyVideoTrans的核心模块,支持处理单个视频或批量处理多个视频。操作步骤如下:
- 选择视频:选择要处理的视频。批量处理时,勾选文件夹选项并选择包含视频的目录,界面会显示处理的视频数量。
- 缓存管理:如果之前处理过视频,pyVideoTrans会保存缓存文件以加速后续操作。勾选强制重新处理选项可绕过缓存,重新执行所有步骤。
- 输出位置:指定处理后视频的保存路径,例如桌面。
2. 字幕翻译设置
翻译设置允许你自定义字幕处理方式:
- 翻译引擎:支持多种翻译引擎,包括免费的谷歌、微软翻译,以及DeepL、ChatGPT、Gemini等高级AI翻译引擎。高级引擎需在翻译设置中填写API密钥,免费引擎无需配置即可使用,默认使用谷歌翻译。
- 语言选择:设置视频的原始语言(例如英语)和目标翻译语言(例如中文)。
3. 配音设置
pyVideoTrans支持为视频生成配音,使用的文本转语音(TTS)引擎包括:
- TTS引擎:默认的Edge-TTS(免费)调用微软Edge浏览器的语音引擎,效果自然且无需额外配置。你也可以选择OpenAI TTS、ElevenLabs等高级配音引擎,或使用声音克隆功能模拟原始人物或自己的声音(稍后详述)。
- 声音选项:Edge-TTS提供粤语、普通话、台湾音等声音选项,点击可试听。
- 声音克隆:高级用户可通过声音克隆功能,复刻视频中人物的声音,需要额外配置。
4. 字幕生成
pyVideoTrans使用先进的语音识别模型从视频音频生成字幕:
- 语音识别模型:如faster-whisper(本地),直接在电脑上运行,速度快且保护隐私。推荐使用large-v3-turbo模型,兼顾精度和性能。更大的模型识别更精准,但对电脑配置要求更高,处理速度也较慢。
- 手动导入字幕:如果已有字幕文件,可导入以跳过语音识别步骤。
- 对齐设置:软件自动将翻译后的语音与视频画面对齐。例如,“谢谢”在英文和日语中的发音时长不同。启用配音加速可自动调整配音速度,使其与原始视频的说话时长匹配。也可选择视频慢速,稍微减慢画面以适应较长的配音。
5. 字幕嵌入选项
pyVideoTrans提供灵活的字幕嵌入方式:
- 无字幕:生成独立的SRT字幕文件,适合视频剪辑或二次创作。
- 硬字幕:将字幕直接压制到视频画面中,任何设备播放都能看到字幕,适合发布到B站等平台。
- 软字幕:将字幕封装为视频文件的独立轨道,播放器可自由选择显示或隐藏字幕,适合电影或电视剧制作。
- 双语字幕:同时显示原始语言和翻译后的字幕。
- 字幕格式:可设置每行字幕的最大字符数,确保易读。
6. 音视频优化
为优化最终音视频效果:
- 背景音:勾选保留原始背景音,软件会尝试去除原视频人声,保留背景音乐和音效,再叠加新配音。也可上传全新背景音乐,并调整音量或循环播放设置。
- 字幕预览:语音识别和翻译完成后,可在界面中直接预览和编辑字幕。
设置与运行pyVideoTrans
在处理视频前,确保系统准备就绪:
- 模型下载:首次使用语音识别模型(如large-v3-turbo)时,需从GitHub下载。解压后将模型文件放入pyVideoTrans项目目录的
models
文件夹中。 - CUDA支持:若使用NVIDIA GPU并安装了CUDA,勾选CUDA选项可大幅提升处理速度。
- 错误处理:若出现错误(如缺少模型),下载所需文件,清理已生成文件,然后重新开始。
一切就绪后,点击开始,软件将自动完成语音识别、翻译和配音。你可在任一阶段暂停,检查或编辑字幕,分配不同配音角色,或进行调整。
高级功能:使用GPT-SoVITS进行声音克隆
若想复刻视频中人物的声音,可通过GPT-SoVITS实现。设置步骤如下:
- 启动GPT-SoVITS:打开GPT-SoVITS项目文件夹,运行
.bat
文件启动API服务。在项目根目录下打开命令提示符,输入相应命令启动服务。 - 对接pyVideoTrans:复制GPT-SoVITS的API地址,粘贴到pyVideoTrans的TTS设置中,启用GPT-SoVITS TTS。
- 准备参考音频:从训练好的声音模型中选取约5秒的音频片段(例如派蒙或韩立),放入GPT-SoVITS根目录,与
api_v2.py
文件同级,重命名(如hanli.wav
、pm.wav
)。 - 配置声音模型:在pyVideoTrans中输入参考音频文件名及对应文本,指定语言(例如
zh
表示中文,en
表示英文)。测试API确保配置成功。 - 分配声音:在字幕多角色配音中,选择特定字幕行并分配不同克隆声音(例如人物A用韩立的声音,人物B用派蒙的声音)。未分配的行可使用默认声音。
配置完成后,运行配音流程生成克隆声音的音频文件。
输出文件
处理完成后,pyVideoTrans会在指定目录生成以下文件:
- 最终视频:包含翻译字幕和配音的MP4文件。
- 音频轨道:原始和配音的单独音频文件。
- 字幕文件:原始语言、翻译语言和双语的SRT字幕文件。
- 背景音:若替换背景音,则生成新的背景音乐文件。
故障排除与维护
若软件出现异常或使用时间过长,可使用一键清理功能清除缓存文件,恢复最佳状态。
总结
以上就是pyVideoTrans的完整教程!无论你需要生成字幕、翻译,还是创建配音视频,这个工具都能提供无缝且强大的解决方案。希望你觉得这个教程实用,赶快试试看吧!