你的问题涉及两个部分:安装 pyVideoTrans 和制作翻译视频。
一、如何安装 pyVideoTrans
根据你的操作系统,安装方法不同:
Windows 用户(推荐):
- 从官网下载
.7z 格式的完整软件包。 - 将压缩包解压到非系统盘(如
D:\pyVideoTrans),路径中不要包含中文或特殊符号。 - 解压后,直接双击
sp.exe 即可运行。首次启动可能需要几十秒加载模块。 - 重要:不要直接在压缩包内运行,也不要解压到
C:\Program Files 等需要管理员权限的目录。
macOS / Linux 用户:
- 确保已安装
FFmpeg 并配置好环境变量。 - 安装 Python 3.10+ 和
uv 包管理器。 - 克隆项目仓库:
git clone https://github.com/jianchang512/pyvideotrans - 安装依赖:
uv sync - 启动软件:
uv run sp.py
二、如何使用 pyVideoTrans 制作翻译视频
软件主界面默认就是“翻译视频或音频”功能,基本流程如下:
- 选择文件:点击“选择音频或视频”按钮,导入你的视频文件。
语音识别 (ASR):
- 在“语音识别”下拉菜单中,选择识别渠道。推荐使用
faster-whisper(本地) 并选择 large-v3 模型(效果最好)。 - 在“发音语言”中,必须正确选择视频中人物说话的语言(如中文、英语)。
字幕翻译:
- 在“翻译渠道”中选择翻译服务。免费可选 Google(需代理)或微软翻译;追求质量可配置 AI 大模型(如 DeepSeek、ChatGPT)。
- 在“目标语言”中选择你想翻译成的语言(如英语、日语)。
语音合成 (配音):
- 在“配音渠道”中选择配音服务。推荐使用免费的
Edge-TTS(免费),支持所有语言。 - 选择“目标语言”后,即可在“配音角色”中选择喜欢的声音,并可点击“试听配音”。
音画同步:
- 勾选“配音加速”和“视频慢速”可以强制对齐配音和画面(但会耗时且增加文件体积)。
- 强烈建议勾选“二次识别”,这会在配音完成后,对生成的音频再次识别,生成时间轴精准匹配的字幕。
- 开始处理:设置完成后,点击右下角的“开始”按钮即可。
- 查看结果:处理完成后,点击进度条即可打开输出文件夹,里面包含翻译好的 MP4 视频和 SRT 字幕文件。
关键配置建议(用于提升效果):
- GPU加速:如果你有 NVIDIA 显卡,请务必在界面勾选“CUDA加速”,并安装 CUDA 12.8 和 cuDNN,这能极大提升语音识别速度。
- 克隆原声:如果想用原视频的音色配音,需使用 F5-TTS、GPT-SoVITS 或 CosyVoice 等支持克隆的渠道,并勾选“分离人声背景声”,同时将“最短语音持续毫秒”设为 3000。
- 保持画质:如果不希望输出视频质量下降,不要勾选“视频慢速”,并尽量选择“不嵌入字幕”或“嵌入软字幕”。可以在“高级选项”中调整“视频输出质量控制”为更低的数字(如18)。
请查阅相关文档: