#4132 语音识别的提示词在哪个文件中设置

103.172* Posted at: 2 hours ago 👁27

语音识别的提示词在哪个文件中设置

13 Replies

语音识别不需要提示词,直接大模型识别的。
仅仅 GeminiAI识别渠道需要提示词,在 videotrans/prompts/recogn 文件夹下

如果是说 inital_prompt,在菜单-工具-高级选项 中查看和设置

主要是遇到了断句问题,经常一条字幕的最后一个短句结尾没有标点符号,也就是实际上是半个句子,下一半会变成下一条字幕的起始内容,想通过提示词把这个问题给修正

语音识别(ASR)本身通常不依赖提示词进行断句修正。您遇到的“断句不完整、标点缺失”问题,是语音识别模型的固有局限,尤其是在处理复杂或连续语音时。

要解决此问题,请按以下步骤操作:

  1. 启用“恢复标点”功能:在主界面“设置更多参数”中,勾选“恢复标点”。此功能会在语音识别后,自动为识别出的文本添加标点符号,有助于改善断句。
  2. 调整语音识别高级参数:进入“菜单 -> 工具/选项 -> 高级选项 -> 语音识别参数”区域,进行如下设置:

    • 最长语音持续秒数:适当减小此值(例如设为 34),可以强制将过长的语音片段提前分割,可能产生更短、更完整的字幕句。
    • 静音分割持续毫秒:适当增大此值(例如设为 8001000),可以让模型在更长的静音处才进行分割,有助于合并过短的片段。
    • 合并过短字幕到邻近:勾选此项,软件会自动将过短的字幕行合并到相邻行。
  3. 使用“LLM重新断句”功能(推荐):在同一“高级选项”的“通用设置”区域:

    • 将“LLM重新断句”设为 1(启用)。
    • 设置“LLM重新断句所用AI渠道”(如 openaideepseek)。
    • 此功能会使用AI大模型对识别出的原始字幕进行智能重组和断句,能显著改善标点和句子完整性。
  4. 关于提示词(仅限特定情况)

    • GeminiAI识别渠道:如需调整其提示词,文件位于软件安装目录的 videotrans/prompts/recogn 文件夹下。
    • Whisper模型的初始提示(initial_prompt):可在“高级选项 -> Whisper模型提示词”区域,找到对应语言的提示词进行微调,但这对改善断句效果有限。

请查阅相关文档:

还有我发现3.99新版本修改了srt和text中deepseek的提示词,导致翻译结果跟之前的3.98差别很大,变得非常生硬且简短,快跟古文差不多了,我把3.98的文件覆盖到3.99就好了

翻译结果变得生硬、简短,是因为 v3.99 版本更新了 DeepSeek 翻译渠道的提示词(prompt)。您通过回滚旧版提示词文件解决了问题,这是正确的操作。

要永久解决此问题或进行自定义调整,请按以下步骤操作:

  1. 定位提示词文件:翻译渠道的提示词文件位于软件安装目录的 videotrans/prompts/translate 文件夹内。
  2. 备份与修改

    • 找到 deepseek.txt 文件(对应 DeepSeek 渠道)。
    • 在修改前,建议先备份当前文件。
    • 您可以直接用 v3.98 版本中令您满意的 deepseek.txt 文件内容替换当前文件。
    • 或者,根据您的需求(例如希望翻译更流畅、更口语化),在现有提示词基础上进行编辑。提示词的核心是指导AI如何翻译,例如可以加入“请输出流畅、自然的口语化译文”等指令。
  3. 生效:修改并保存文件后,重启 pyVideoTrans 软件即可生效。

请查阅相关文档:

具体讲讲恢复标点功能

恢复标点功能旨在自动为语音识别出的纯文本添加标点符号,以改善可读性和后续处理(如翻译、配音)的效果。

功能原理与位置:
该功能在语音识别阶段之后、字幕翻译或输出之前介入。它使用一个专门的标点恢复模型(通常是基于Transformer的轻量级模型),分析识别出的无标点文本流,预测并插入句号、逗号、问号等标点符号。

启用方法:
在主界面上,点击“设置更多参数...”,在弹出的窗口中勾选“恢复标点”选项。

效果与局限性:

  • 主要作用:能将类似“今天天气很好我们出去玩吧”的文本,修正为“今天天气很好,我们出去玩吧。”,使字幕更通顺。
  • 对断句的间接帮助:正确的标点(尤其是句号)可以为后续的“LLM重新断句”功能或人工阅读提供更清晰的句子边界提示。但它不直接修改字幕的时间轴或合并/分割字幕行,其核心是文本后处理。
  • 准确性:对于清晰、标准的语音效果较好。在背景嘈杂、说话人口音重或语速过快的情况下,标点预测可能出错。

最佳实践建议:

  1. 组合使用:对于您遇到的“断句不完整”问题,最有效的解决方案是同时启用“恢复标点”和“LLM重新断句”(在“高级选项”中设置)。先由“恢复标点”添加基础标点,再由AI大模型进行智能断句和重组,效果最佳。
  2. 参数调整:如果识别出的字幕行本身过长或过短,应优先调整“高级选项”中的“语音识别参数”(如“最长语音持续秒数”、“静音分割持续毫秒”),从源头改善分割效果。
  3. 适用场景:当您对字幕的书面通顺度有要求,或需要为后续的AI翻译提供更好质量的输入时,建议开启此功能。

总结:
“恢复标点”是一个文本后处理工具,能提升字幕的书面质量并为智能断句提供基础,但不能单独解决时间轴层面的断句错误问题。解决断句问题的核心步骤是:优化语音识别参数 → 启用恢复标点 → 启用LLM重新断句

请查阅相关文档:

3.99 要求提示词尽可能输出简洁的翻译结果,以避免后续的配音结果太长,导致音画同步难以处理。

可以尝试选中 LLM重新断句,能一定程度修复标点问题。在 prompts/ recharge 中也可以对 LLM重新断句 提示词进行修改

但生成的字幕非常生硬,比机翻还硬呀

根据开发者回复,v3.99 版本默认提示词旨在输出简洁的翻译结果,目的是控制配音时长以利于音画同步,但这导致了译文生硬、不自然。

要解决此问题,您有以下几种方案,推荐按顺序尝试:

  1. 修改翻译提示词(最直接有效)

    • 定位到软件安装目录的 videotrans/prompts/translate/ 文件夹。
    • 找到您正在使用的翻译渠道对应的提示词文件(例如 deepseek.txt)。
    • 用 v3.98 版本中您满意的提示词文件内容直接覆盖,或在其基础上编辑,加入要求“输出流畅、自然、口语化的译文”等指令。
    • 修改后需重启软件生效
  2. 启用并优化“LLM重新断句”功能

    • 进入“菜单 -> 工具/选项 -> 高级选项 -> 通用设置”。
    • 将“LLM重新断句”设置为 1(启用)。
    • 设置“LLM重新断句所用AI渠道”(例如 openaideepseek)。
    • 此功能会在识别后使用AI对字幕文本进行智能重组,不仅能改善断句和标点,还能在一定程度上优化语言流畅度。
    • 您还可以在 prompts/rephrase 文件夹中修改“LLM重新断句”自身的提示词,以指导其产出更自然的句子。
  3. 调整翻译参数(辅助)

    • 在“高级选项 -> 字幕翻译调整”中,尝试调高“AI翻译模型温度值”(例如从默认的 0.2 提高到 0.50.7)。更高的温度值会使AI输出更具随机性和创造性,可能让译文更自然,但需注意可能影响一致性。

总结:要解决译文生硬问题,首要且最有效的方法是回滚或修改翻译渠道的提示词。同时,开启“LLM重新断句”可以从句子结构层面进行二次优化。两者结合使用效果最佳。

请查阅相关文档:

配音语速这个参数3.98设置了好像没有任何作用,3.99有修正吗,让整体语速变快或变慢,之前我都是要把音色用软件提速或变慢,来应对这个问题,但是很麻烦

配音语速参数在 v3.99 版本中已得到修正,现在可以正常生效。该参数用于整体调整配音的语速,以应对不同语言间表达时长差异带来的音画同步问题。使用方法与原理:参数位置:在主界面“配音角色”下拉菜单右侧,有“配音语速”输入框。参数含义:输入百分比数值。正值表示加速,负值表示减速。例如:输入 10 表示语速加快 10%,输入 -20 表示语速减慢 20%。生效时机:该调整会在每一句字幕的配音生成时应用,实现整体语速的均匀改变。最佳实践建议:应对英文配音过长:在将中文视频翻译为英文时,英文句子通常更长,可尝试设置“配音语速”为 10 到 20,以加快语速,使其更接近原视频时长。微调同步:结合使用“配音加速”(自动匹配原时长)和“视频慢速”选项,再辅以“配音语速”的微调,可以更精细地控制最终的同步效果。测试:对于重要视频,建议先用少量片段测试不同语速值的效果,找到最佳平衡点后再处理完整视频。总结:v3.99 版本已修复“配音语速”参数,您现在可以直接在软件内通过调整该百分比值来整体加快或减慢配音语速,无需再借助外部音频软件进行繁琐的后期处理。请查阅相关文档:为何会出现声音、字幕、画面不同步

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource