#1749 选择LLM重新断句,必须先在菜单--翻译设置--OpenAI API中设置可用模型和密钥信息,可在高级选项中切换使用DeepSeek断句

45.95* Posted at: 2 months ago 👁125

选择LLM重新断句,必须先在菜单--翻译设置--OpenAI API中设置可用模型和密钥信息,可在高级选项中切换使用DeepSeek断句


=
system:Windows-10-10.0.26100-SP0
version:v3.87
frozen:True
language:zh
root_dir:D:/Portable/pyvideotrans

7 Replies

您已正确配置了LLM重新断句功能。根据您的系统信息,您使用的是Windows 10系统,软件版本为v3.87,且已正确设置了OpenAI API密钥和模型。

核心操作要点:

  1. 切换DeepSeek断句: 如需使用DeepSeek进行断句,请在菜单栏选择 工具 -> 高级选项,在“翻译设置调整”区域,将“LLM重新断句使用模型”从 OpenAI 切换为 DeepSeek
  2. 配置DeepSeek API: 使用DeepSeek前,同样需要在菜单栏的 翻译设置 -> DeepSeek 中填入有效的API密钥。
  3. 断句效果: LLM(大语言模型)断句能显著提升字幕的语义连贯性和可读性,是处理复杂或长句语音的最佳选择。

如果后续在断句或翻译过程中遇到任何问题,请提供具体的错误信息或日志文件(位于 D:/Portable/pyvideotrans/logs/ 目录下)以便进一步分析。

如何对接OpenAI密钥和模型

要对接OpenAI密钥和模型,请按以下步骤操作:

  1. 获取API密钥

  2. 在软件中配置

    • 在软件主界面,点击顶部菜单栏的 翻译设置
    • 在弹出的窗口中,选择 OpenAI API 标签页。
    • API密钥 输入框中,粘贴您从OpenAI平台获取的密钥。
    • 模型 下拉列表中,选择您要使用的模型(例如 gpt-4ogpt-3.5-turbo 等)。
  3. 设置网络代理(可选但重要)

    • 如果您的网络环境需要代理才能访问OpenAI,请在主界面第5行的 网络代理 输入框中填写代理地址(格式如 http://127.0.0.1:7860)。
  4. 使用OpenAI进行翻译或断句

    • 翻译:在主界面第3行“翻译设置”的“翻译渠道”中,选择 OpenAI
    • LLM重新断句:在语音识别(第2行)的“断句设置”中,选择 LLM大模型重新断句。然后在 高级选项(菜单-工具-高级选项)的“翻译设置调整”区域,确保“LLM重新断句使用模型”设置为 OpenAI

重要提示

  • 确保您的OpenAI账户有足够的余额或额度。
  • 使用API会产生费用,请留意OpenAI的定价。
  • 如果遇到连接问题,请检查网络代理设置是否正确,以及API密钥是否有效。

请查看更多参考文档:

使用字节英视频字幕生成,导致字幕识别不准确,强制切断字幕,使句子不完整,断句很机械化 如何设置和改变?

您遇到的字节火山视频字幕生成断句不准确、机械化问题,是由于其在线API的固有处理方式导致的。要改善此问题,请按以下方案操作:

核心解决方案:使用本地语音识别 + LLM重新断句

这是获得最佳断句效果的标准流程。

  1. 更换语音识别渠道

    • 在主界面第2行“语音识别”中,将渠道从“字节英视频字幕生成”切换为 faster-whisper(本地)
    • 在右侧的模型选择中,建议使用 large-v3large-v2 以获得最佳识别精度。
  2. 启用高级断句功能

    • 在同一行的“断句设置”中,选择 LLM大模型重新断句
    • 这需要您已按照之前的指导,在 菜单 -> 翻译设置 -> OpenAI API(或DeepSeek)中配置好可用的API密钥和模型。
  3. (可选)调整VAD参数以优化初始识别片段

    • 如果即使使用 faster-whisper,初始的语音切割仍不理想,可以微调VAD(语音活动检测)参数。
    • 进入 菜单 -> 工具 -> 高级选项
    • 在“Faster/OpenAI/Whisper语音识别”区域,调整以下参数(需反复尝试):

      • 静音分割持续毫秒:默认 140增大此值(如改为 300500)可以让软件在更长的静音后才切断句子,有助于获得更完整的语段。
      • 语音阈值:默认 0.45。降低此值(如 0.3)会使检测更敏感,可能将一些气音纳入;提高此值(如 0.6)会使检测更严格,可能丢失弱读词。一般不建议新手修改。

如果必须使用字节火山API

如果您因速度或资源原因必须使用字节火山,可尝试以下缓解措施,但效果有限:

  1. 尝试“整体识别”模式:在主界面第2行“识别模式”中,确保选择的是 整体识别 而非 批量推理整体识别 使用了VAD检测,断句通常会比简单切分更符合语义。
  2. 后期手动编辑:软件在语音识别后和翻译后,都会弹出字幕编辑窗口。您可以在此处手动合并被错误切断的字幕行,这是最直接的修正方法。

结论建议:对于追求字幕质量(尤其是断句自然度)的场景,强烈推荐采用“本地faster-whisper识别 + LLM重新断句”的组合方案。这是目前软件内能实现的最接近人工断句效果的方法。

请查看更多参考文档:

中国用户使用LLM重新断句 太麻烦,没有其他的吗?

是的,除了使用需要API密钥的LLM(如OpenAI/DeepSeek)重新断句外,还有更简便的本地化替代方案。以下是三种无需依赖在线API的断句方法,按推荐度排序:方案一:使用本地算法重新断句(推荐)这是最方便快捷的改善方式。操作:在主界面第2行“语音识别”的“断句设置”中,选择 本地算法重新断句。原理:软件会使用内置的规则和算法,对识别出的原始字幕进行智能合并与分割,比完全不断句或机械切割效果好得多。优点:完全免费、离线、速度快,能显著改善“句子被强制切断”的问题。方案二:调整语音识别参数,优化初始切割如果“本地算法重新断句”效果仍不理想,可以优化语音识别阶段的切割。操作:进入 菜单 -> 工具 -> 高级选项。在“Faster/OpenAI/Whisper语音识别”区域,找到并调整以下两个关键参数:静音分割持续毫秒:默认是 140。这个值代表“多长时间的静音才被认为是一句话的结束”。增大这个值(例如设为 300 或 500),可以让软件在更长的停顿后才切断,从而得到更完整的句子。语音阈值:默认是 0.45。这个值代表“多强的声音才被认为是人声”。如果您视频中的人声音量较低,可以适当降低此值(如 0.3)以提高检测灵敏度;如果背景噪音较多,可以适当提高此值(如 0.6)以减少误检。方案三:使用“整体识别”模式,并选择更优的识别模型确保识别模式正确:在主界面第2行“识别模式”中,务必选择 整体识别。此模式使用VAD检测来寻找自然的语音段落,断句效果远好于“批量推理”。选择更强大的识别模型:如果您使用的是 faster-whisper(本地),请在其右侧的模型选择中,选用更大的模型,如 large-v2 或 large-v3。更大的模型在识别准确度和上下文理解上更强,产生的原始字幕也相对更完整。总结与建议:对于大多数中国用户,最优解是:组合使用“整体识别”模式 + “本地算法重新断句”。这能在无需任何额外配置和费用的前提下,最大程度改善断句的机械化问题。如果效果仍不满意,再尝试方案二微调VAD参数。请查看更多参考文档:整体识别/均等分割的区别调节VAD更精确控制语音识别结果

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource