• #4206 克隆音色,怎么不支持上传本地音色,好像没有批量处理,右边字幕只能上传一个视频的吗?想节约时间,提前修改好字幕这样节省时间,但是没有批量处理的...
    💬 13
    [Last reply:28 minutes ago] 二次识别功能在v3.99中仍然存在,可能只是界面上不易发现,它通常在选择嵌入字幕类型后在“设置更多参数”中显示。静音分割持续毫秒默认值为500ms(优化建议可设为140ms),要减少句间停顿可适当降低该值(如改为200)。语速提升1.2倍应填 +20,但若依旧感觉慢,建议尝试 +50 并试听,避免失真。找到“二次识别”...
    74.48* Posted at: 8 days ago
  • #4351 自己下载的本地模型可以添加进来吗...
    💬 5
    [Last reply:3 hours ago] 断句粘连的常见原因是语音识别参数中“最长语音持续秒数”设置得过大,导致模型将多个句子当成长段输出,或者识别后没有进行有效分割。请在 菜单 → 工具/选项 → 高级选项 → 语音识别参数 中尝试以下调整(修改后立即生效):将 最长语音持续秒数 改为 5 或更小(如 3),强制在较长静音处分割。将 静音分割持续毫秒 改为 ...
    120.236* Posted at: 3 hours ago
  • #4345 有没有视频语音提取转文字...
    💬 15
    [Last reply:4 hours ago] 软件官方仅适配 CUDA 12.8 环境,在 CUDA 13.2 + cuDNN 9.2 组合下,默认的 float32 数据类型可能引发兼容性或显存压力,导致 GPU 加速失效。将 “CUDA 数据类型” 改为 float16 可以降低资源占用和部分兼容性要求,从而避开问题正常执行。建议保持此项设置为 float16...
    2a09:bac5* Posted at: 8 hours ago
  • #4350 TaskCfgSTT(is_cuda=True, uuid='7818646aeb', cache_folder='E:/win-pyvideotrans-v3.99-428/tmp/13252/7818646aeb', target_di...
    💬 7
    [Last reply:4 hours ago] 已确认问题根源在于 CUDA 加速与当前显卡或环境的兼容性,而非识别功能本身。若仍希望开启 CUDA 加速以提升速度,请按顺序尝试:先调整高级参数 打开 菜单 → 工具/选项 → 高级选项 → 语音识别参数,做以下修改:CUDA数据类型:改为 int8beam_size:设为 1best_of:设为 1 保存后重新...
    2a09:bac5* Posted at: 4 hours ago
  • #4349 中文配音后,会弹出单独的交互窗口,我可以试听配音,也可以重新配音...
    💬 5
    [Last reply:5 hours ago] 界面内的试听播放器依赖 PySide6 多媒体后端,其解码兼容性问题暂无参数可直接调整。若仍希望不走临时文件夹而高效核实效果,推荐使用“快速定位并播放”的替代方法:在交互窗口中点击某行字幕,记住该句序号(如 002)。回到软件主界面,点击菜单 工具/选项 → 高级选项,找到 保留每条字幕的配音文件 并勾选(设定后重新配...
    2409:8a55* Posted at: 5 hours ago
  • #4348 TaskCfgSTT(is_cuda=True, uuid='3ffe60a02a', cache_folder='E:/win-pyvideotrans-v3.99-428/tmp/13252/3ffe60a02a', target_di...
    💬 1
    [Last reply:6 hours ago] 该错误是因为 cuBLAS(CUDA基础线性代数库)返回了 CUBLAS_STATUS_NOT_SUPPORTED,通常发生在 RTX 50 系列或其他新架构显卡上,当前 faster-whisper 版本尚不完全兼容。解决方案(按推荐顺序尝试)关闭 CUDA 加速 在主界面取消勾选“CUDA加速”选项,然后重新开始...
    2a09:bac5* Posted at: 6 hours ago
  • #4347 AttributeError: module 'decoders' has no attribute 'DecodeStream'...
    💬 1
    [Last reply:6 hours ago] 该错误是 Python 环境中的 tokenizers 库版本不兼容导致的,通常发生在使用旧版补丁覆盖或打包文件不完整的情况下。请按以下顺序排查:重新下载完整包:前往官网下载最新的 v3.99 完整软件包(不要只下载升级补丁),将其解压到一个全新、路径不含中文和特殊符号的文件夹(例如 D:\pyVideoTrans),...
    218.173* Posted at: 6 hours ago
  • #4346 如何进行视频里多角色翻译和配音?...
    💬 1
    [Last reply:7 hours ago] 实现多角色翻译和配音,核心需要启用“说话人分离”并为不同说话人分配不同的配音角色。以下是操作步骤:在主界面勾选“识别说话人”(位于“设置更多参数…”区域),根据视频中说话人数预估一个数值,不限制时软件自动判断。选择语音识别渠道(如 faster-whisper)并设定好模型,开始执行语音识别,识别结束后会弹出字幕编辑窗...
    140.245* Posted at: 7 hours ago
  • #4344 怎么把下载的模型删除掉...
    💬 1
    [Last reply:8 hours ago] 这是因为模型文件都保存在软件安装目录下的 models 文件夹内,直接删除对应的模型子文件夹即可。操作步骤:进入 pyVideoTrans 的安装目录(即 sp.exe 或 sp.py 所在位置)。打开 models 文件夹。找到你不想要的模型文件夹,例如:models--Systran--faster-whisper...
    36.230* Posted at: 8 hours ago
  • #4343 比如3DS,配音是“3毫秒”,我想发单个字母的声音,还有就是让所有大写的单个字母都发字母音,需要怎么设置,或者有提示词设置吗...
    💬 1
    [Last reply:8 hours ago] 这是由于 TTS 引擎对缩写/大写字母组合的发音处理方式导致的,pyVideoTrans 本身不提供拼读字母的自动转换开关。需要从字幕文本层面手动干预。解决方案:在字幕处理阶段修改文本:在语音识别和翻译完成后,人工检查字幕文件(SRT),将需要拼读的大写字母组合(如 3DS)手动替换为带空格的单个字符形式“3 D S”...
    2409:8a55* Posted at: 8 hours ago
  • #4342 音频比视频要慢了大概10秒左右,要怎么处理?...
    💬 1
    [Last reply:8 hours ago] 音频比视频慢了约10秒,是由于翻译后的配音时长与原始语音时长不一致导致的。处理步骤如下:开启对齐选项:在主界面勾选 配音加速 和/或 视频慢速,强制使配音与原视频时长匹配。开启二次识别:勾选 二次识别,软件会在配音完成后再次对配音音频进行语音识别,生成精准匹配配音的字幕,确保字幕与声音对齐。调整配音速度:如果仅慢10秒...
    218.173* Posted at: 8 hours ago
  • #4341 FileNotFoundError: [WinError 206] 文件名或扩展名太长。: 'C:\\Users\\hasee\\Downloads\\_video_out\\2 X 上的 Filecoin:“Cardano s @IOHK...
    💬 1
    [Last reply:9 hours ago] 原因是 Windows 系统对文件路径有最大长度限制(通常为 260 个字符),你的原视频文件名太长,导致自动生成的输出目录完整路径超出了系统限制。解决方法:将原视频文件移动到一个浅层目录(如 D:\videos),并将视频重命名为简短英文或数字名称(例如 video1.mp4)。避免文件名中含中文、特殊符号或过长字符...
    64.186* Posted at: 9 hours ago
  • #4283 术语表是不是区分大小写的?...
    💬 18
    [Last reply:9 hours ago] 要实现“忽略术语原词大小写,仅匹配字母序列”这一规则,你需要直接在所使用的翻译渠道的 提示词 中添加明确指令。以下是具体的操作步骤和示例:1. 确定要修改的提示词文件位置如果你勾选了【发送完整字幕】,需要修改:[软件目录]/videotrans/prompts/srt/deepseek.txt (如果使用其他渠道,请选...
    2409:8a55* Posted at: 4 days ago
  • #4339 videotrans.configure._except.StopRetry: No Ref Audio. Clone disabled....
    💬 1
    [Last reply:16 hours ago] This error occurs because the audio cloning feature is enabled (a clone voice role is selected) but no valid reference audio is found or the extracted speech se...
    191.6* Posted at: 16 hours ago
  • #4338 whisper语音识别问题...
    💬 17
    [Last reply:21 hours ago] 软件中 DeepSeek 作为翻译渠道时,模型名称需要手动输入,而非在下拉菜单直接选择。目前知识库未提供 DeepSeek 官方支持的全部模型列表,但常见的可用模型包括:deepseek-chat(即 DeepSeek-V3 最新对话模型)deepseek-reasoner(即 DeepSeek-R1 推理模型,适合复...
    112.22* Posted at: 1 day ago
  • #4334 工具/选项中的“实时语音转文字”功能时报错...
    💬 9
    [Last reply:21 hours ago] 根据您提供的日志,pyVideoTrans v3.99-428 启动正常,已检测到 GPU。但“实时语音转文字”功能所需的 tools 文件夹确实缺失,这属于该版本可能的打包遗漏。 目前日志中没有记录到任何错误,因此无法直接定位。请按以下步骤尝试解决:卸载当前版本:完全删除 G:\pyVideoTrans 目录。临时...
    107.173.15.138,107.173* Posted at: 1 day ago
  • #4337 win-pyvideotrans-v3.99-428执行后没生成.mp4文件...
    💬 3
    [Last reply:1 day ago] WebM 格式(通常 VP8/VP9 编码)与 FFmpeg 硬件加速的兼容性较差,即使勾选输出为 MP4,合成阶段也容易因解码器或滤镜链冲突卡死。解决方案(按推荐顺序):禁用硬件解码/编码 打开 菜单 → 工具/选项 → 高级选项:取消勾选 视频合成cuda硬解码取消勾选 主界面 CUDA加速(如果仍在勾选状态) ...
    2a09:bac1* Posted at: 1 day ago
  • #4336 concurrent.futures._base.CancelledError...
    💬 1
    [Last reply:1 day ago] 这是 F5-TTS 配音服务连接或响应异常导致的 CancelledError,通常表示 API 请求被中断或超时。解决方案:检查 F5-TTS 服务是否正在运行,命令行窗口是否被关闭。确认软件中的 API 地址设置正确(默认 http://127.0.0.1:7860),端口没有被其他程序占用。确保参考音频文件放在 ...
    240e:399* Posted at: 1 day ago
  • #4335 requests.exceptions.ProxyError: HTTPSConnectionPool(host='translate.google.com', port=443): Max retries exceeded with ur...
    💬 1
    [Last reply:1 day ago] 错误信息明确指向 Google翻译 因代理不可达导致的连接失败。你的软件中启用了网络代理,但该代理地址无效或被拒绝连接。解决方案(二选一):方案一:关闭代理(推荐,如果你在国内无可用代理)在主界面网络代理地址文本框中,删除已填写的所有内容,保持完全空白。将翻译渠道更换为无需代理的服务,例如:微软翻译、百度翻译、腾讯翻译...
    156.226* Posted at: 1 day ago
  • #4333 在哪能够看到小版本升级的内容...
    💬 2
    [Last reply:1 day ago] 未作记录,有需要直接查看 github 上的简要 commit 日志...
    103.172* Posted at: 1 day ago
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource