#3689 怎么安装和制作视频

59.51* Posted at: 2 hours ago 👁7

怎么安装和制作视频

3 Replies

你的问题涉及两个部分:安装 pyVideoTrans 和制作翻译视频。

一、如何安装 pyVideoTrans

根据你的操作系统,安装方法不同:

  1. Windows 用户(推荐)

    • 从官网下载 .7z 格式的完整软件包
    • 将压缩包解压到非系统盘(如 D:\pyVideoTrans),路径中不要包含中文或特殊符号
    • 解压后,直接双击 sp.exe 即可运行。首次启动可能需要几十秒加载模块。
    • 重要:不要直接在压缩包内运行,也不要解压到 C:\Program Files 等需要管理员权限的目录。
  2. macOS / Linux 用户

    • 确保已安装 FFmpeg 并配置好环境变量。
    • 安装 Python 3.10+ 和 uv 包管理器。
    • 克隆项目仓库:git clone https://github.com/jianchang512/pyvideotrans
    • 安装依赖:uv sync
    • 启动软件:uv run sp.py

二、如何使用 pyVideoTrans 制作翻译视频

软件主界面默认就是“翻译视频或音频”功能,基本流程如下:

  1. 选择文件:点击“选择音频或视频”按钮,导入你的视频文件。
  2. 语音识别 (ASR)

    • 在“语音识别”下拉菜单中,选择识别渠道。推荐使用 faster-whisper(本地) 并选择 large-v3 模型(效果最好)。
    • 在“发音语言”中,必须正确选择视频中人物说话的语言(如中文、英语)。
  3. 字幕翻译

    • 在“翻译渠道”中选择翻译服务。免费可选 Google(需代理)或微软翻译;追求质量可配置 AI 大模型(如 DeepSeek、ChatGPT)。
    • 在“目标语言”中选择你想翻译成的语言(如英语、日语)。
  4. 语音合成 (配音)

    • 在“配音渠道”中选择配音服务。推荐使用免费的 Edge-TTS(免费),支持所有语言。
    • 选择“目标语言”后,即可在“配音角色”中选择喜欢的声音,并可点击“试听配音”。
  5. 音画同步

    • 勾选“配音加速”和“视频慢速”可以强制对齐配音和画面(但会耗时且增加文件体积)。
    • 强烈建议勾选“二次识别”,这会在配音完成后,对生成的音频再次识别,生成时间轴精准匹配的字幕。
  6. 开始处理:设置完成后,点击右下角的“开始”按钮即可。
  7. 查看结果:处理完成后,点击进度条即可打开输出文件夹,里面包含翻译好的 MP4 视频和 SRT 字幕文件。

关键配置建议(用于提升效果):

  • GPU加速:如果你有 NVIDIA 显卡,请务必在界面勾选“CUDA加速”,并安装 CUDA 12.8 和 cuDNN,这能极大提升语音识别速度。
  • 克隆原声:如果想用原视频的音色配音,需使用 F5-TTS、GPT-SoVITS 或 CosyVoice 等支持克隆的渠道,并勾选“分离人声背景声”,同时将“最短语音持续毫秒”设为 3000。
  • 保持画质:如果不希望输出视频质量下降,不要勾选“视频慢速”,并尽量选择“不嵌入字幕”或“嵌入软字幕”。可以在“高级选项”中调整“视频输出质量控制”为更低的数字(如18)。

请查阅相关文档:

如何让视频制作出来有情感,字母和原文一致

要让视频翻译制作出来有情感,并且字幕与原文一致,核心在于优化配音(情感)和翻译(一致性)两个环节。

一、如何让配音有情感(关键步骤)

  1. 选择高质量配音渠道

    • 首选(免费)Edge-TTS(免费)。虽然免费,但部分角色音色自然,情感相对丰富。多试听几个角色选择最合适的。
    • 进阶(需部署):使用支持声音克隆的本地渠道,如 F5-TTSGPT-SoVITSCosyVoice。这些工具可以克隆原视频说话人的音色,最大程度保留原始情感。使用前需要单独部署这些服务的 API。
    • 商业 API(付费)OpenAI TTSAzure TTS字节火山语音阿里 Qwen-TTS。这些付费服务的语音合成质量通常更高,情感表达更细腻。
  2. 启用声音克隆(保留原声情感)

    • 在“配音渠道”中选择支持克隆的渠道(如 F5-TTS)。
    • 必须同时勾选主界面“设置更多参数”中的 分离人声背景声。这样软件会自动提取原视频人声作为克隆参考。
    • 进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数,进行关键设置:

      • 最短语音持续毫秒 设为 3000
      • 最长语音持续秒数 设为 10
      • 勾选 Whisper预分割音频?合并过短字幕到相邻
    • 目的:确保每条字幕对应的原声片段时长在 3-10 秒之间,这是多数克隆模型对参考音频的最佳时长要求,能显著提高克隆成功率和质量。
  3. 微调配音参数

    • 在主界面或“设置更多参数”中,可以调整 配音语速音量+音调+,以适应不同语境的情感表达。

二、如何让字幕与原文一致(翻译准确)

  1. 使用更智能的翻译渠道

    • 避免使用传统机翻:如 Google、百度翻译等,它们可能丢失语境和情感色彩。
    • 优先使用 AI 大模型翻译:在“翻译渠道”中配置 OpenAI ChatGPTDeepSeekGeminiClaude。这些模型能更好地理解上下文和情感,产生更符合原意的翻译。
    • 优化 AI 翻译设置

      • 勾选 发送完整字幕
      • 进入 菜单 -> 工具 -> 高级选项 -> 字幕翻译调整,勾选 AI翻译附带完整原字幕
      • AI翻译渠道每批字幕行数 设置为 100 或更大。
    • 注意:此设置会消耗大量 Token,必须使用支持超长上下文的大模型(如 GPT-4o, DeepSeek-V3, Gemini 1.5 Pro)。
  2. 使用翻译术语表

    • 在主界面的“翻译术语表”文本框中,可以填入需要固定翻译的专业词汇或名称(格式:原文=译文,每行一个),确保关键信息一致。
  3. 进行人工校对(最可靠)

    • 处理单个视频时,软件会在识别后、翻译后、配音后弹出交互编辑窗口。你可以在“翻译后”的窗口中直接修改不满意的字幕。
    • 或者在最终合成前,使用“配音校对”功能,边听边调整字幕文本。

总结操作流程

  1. 语音识别:使用 faster-whisper(本地)large-v3 模型,明确指定“发音语言”。
  2. 字幕翻译:使用 DeepSeekChatGPT 等 AI 渠道,开启“发送完整字幕”和“附带完整原字幕”选项。
  3. 情感配音:使用 F5-TTS(克隆)或 Edge-TTS,若克隆则必须开启“分离人声背景声”并按上述调整高级参数。
  4. 音画同步:务必勾选 二次识别,确保生成的字幕与配音口型精准对齐。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource