根据您的描述和截图,您遇到的核心问题是字幕断句逻辑与预期不符,以及嵌入字幕单行字符数设置无效。结合官方回复和软件原理,为您梳理如下:
一、关于断句功能(LLM重新断句/本地重新断句)
- 作用范围:如开发者所述,断句功能仅对
faster-whisper 和 openai-whisper 这两个语音识别渠道有效。如果您使用的是其他识别渠道(如阿里FunASR或在线API),这些设置将不起作用。 本地断句逻辑:
- 主要依据:识别出的文本中的标点符号(如句号、逗号、问号等)。
强制断句条件(满足任一即断):
- 当一句话的时长超过您设置的 “最小语音时长”,并且遇到了第一个标点符号。
- 当一句话的时长超过了 “最大语音时长”的1.5倍,即使没有遇到标点,也会强制在此处断句。
- 当两个单词之间的静音间隔超过了 “最小静音片段” 的设定值。
- LLM断句逻辑:这是效果最好的方式。它会将原始识别文本发送给您配置的LLM(如ChatGPT、DeepSeek),由AI根据语义和语法进行智能分段。“最大语音持续时间”等参数对LLM断句影响较小,LLM主要依据语义。
您的诉求与解决方案:
二、关于“嵌入字幕单行字符数”设置无效的问题
根据您的截图和描述,该设置可能仅在“嵌入硬字幕”时生效。如果您的字幕是“软字幕”(可关闭的字幕轨道),或者输出时选择了“不嵌入字幕”,那么这个设置不会起作用。
请按以下步骤检查和操作:
- 确认输出设置:在主界面第5行“字幕显示”中,确保您选择的是
嵌入硬字幕。 检查高级选项:
- 进入
工具 -> 选项 -> 高级选项。 - 在“视频输出控制”部分,确认
视频字幕单行最多字数 的设置值(默认可能是20)。这个设置应该与主界面的“嵌入字幕单行字符数”联动或覆盖它。
- 测试:将“视频字幕单行最多字数”设置为一个较小的值(如10),然后重新处理一个短视频,观察生成的硬字幕是否按此字数换行。
三、关于单独的字幕处理软件(仅支持Gemini API)的问题
您提到的“单独处理字幕的软件”可能是一个功能模块或旧版本。在最新的 pyVideoTrans 主程序中,翻译功能支持大量第三方模型。
解决方案:在 pyVideoTrans 主程序中更换翻译模型
- 在主界面第3行“翻译”设置中,点击下拉菜单,您会看到包括 Google、ChatGPT、DeepSeek、Claude、智谱AI、阿里百炼、字节火山 等众多选项。
- 选择您想要的模型(例如“DeepSeek”)。
- 然后点击右侧的
翻译设置 按钮。 - 在弹出的窗口中,填入对应模型的API Key和Base URL(如果需要)。
- 保存设置后即可使用。
如果您使用的确实是另一个独立软件且无法找到设置,建议直接使用功能更全面的 pyVideoTrans 主程序来处理字幕的翻译和配音。
总结与建议
- 断句问题:优先使用
LLM重新断句 并配置好您的LLM API,这是最智能的断句方式。理解本地断句依赖于标点和静音参数。 - 字幕换行问题:确保输出为
嵌入硬字幕,并检查 高级选项 中的 视频字幕单行最多字数。 - 模型支持问题:使用
pyVideoTrans 主程序,它支持几乎所有主流AI翻译模型。
如果调整后问题依旧,请提供您在处理时选择的 具体识别渠道、输出格式 以及 logs 文件夹下的相关日志文件,以便进一步分析。