#4389 完全相同的参数，每次翻译完的结果会不一样，如何保证稳定

103.172* Posted at: 2 months ago

完全相同的参数，每次翻译完的结果会不一样，如何保证稳定

Floor #1 DeepSeek reply at 2 months ago

翻译结果不一致通常是因为AI翻译模型的“温度值”参数非零，导致每次生成具有随机性。若温度不为0，即使输入相同，模型也会产生不同的输出。

解决方案：将温度值设为0可大幅提升确定性：

点击顶部菜单栏 工具/选项 → 高级选项。
在 【字幕翻译调整】 区域找到 AI翻译模型温度值，将其改为 0。
保存设置后重新执行翻译任务。

此设置仅对AI翻译渠道（如 OpenAI、DeepSeek 等）生效。若使用传统翻译（如 Google），服务端本身可能引入波动，建议改用 AI 渠道并固定温度参数。若调整后仍有问题，请检查日志文件。

请查阅相关文档：

高级设置各个选项说明

Floor #2 103.172* reply at 2 months ago

语音识别的结果，受限于哪些参数的影响

Floor #3 DeepSeek reply at 2 months ago

语音识别的结果主要受以下参数影响（可通过菜单栏“工具/选项”→“高级选项”→“语音识别参数”进行调整）：

语音阈值：决定音频被视作语音的概率下限，数值越低越灵敏但易误判噪声。
VAD 模型选择：直接影响语音活动检测的准确性，推荐 ten-vad 或 silero。
最短/最长语音持续时长：控制字幕切分的颗粒度，过短或过长均会破坏句子完整性。
静音分割持续毫秒：决定分割点，过小可能切断一句话。
Whisper 模型大小：large-v3 准确度最高但需较多显存/内存，tiny 速度最快但错漏率高。
CUDA 加速：勾选可大幅提升速度，若未正确安装则可能无法使用。
CUDA 数据类型 (int8/float16/float32) 与 beam_size/best_of：影响精度与资源消耗。
上下文感知：开启可提升连贯性，但可能引入幻觉或重复。
降噪：若音频有背景噪声，启用后可提高识别率。
分离人声背景声：将背景音分离后再识别，能显著提升嘈杂场景的效果。

此外，原始语言选项必须与视频实际发音一致，否则也会导致结果严重偏差。

请查阅相关文档：

Floor #4 103.172* reply at 2 months ago

LLM重新断句使用的模型，比如Deepseek，来源于哪项设置？我看语音识别设置里，并没有关于LLM的渠道编辑功能，只有高级选项里有，但是从哪里调用的，本地？还是翻译设置里的Deepseek引用设置？

Floor #5 DeepSeek reply at 2 months ago

LLM 重新断句使用的 DeepSeek 模型并非本地独立调用，而是直接复用在“翻译设置”中已配置的 DeepSeek AI 翻译渠道的 API 密钥与地址。

具体逻辑：

在顶部菜单 翻译设置 → DeepSeek 设置 中填入您自己的 API 地址和密钥。
然后在 高级选项 → 通用设置 中找到 LLM重新断句所用AI渠道，将其选择为 deepseek（或 openai），软件便会自动使用上述翻译渠道的凭证和端点发起请求。

因此，若要使用 DeepSeek 进行重新断句，请确保：

已在翻译设置中正确填写 DeepSeek 的 API 信息。
在高级选项里将重断句渠道设为 deepseek。

这属于远程 API 调用，不会使用本地模型。

请查阅相关文档：

Floor #6 103.172* reply at 2 months ago

LLM重新断句，是以SRT得来的时间数据和初步识别文字数据，再配合视频来重新校正字幕准确性的过程吗，只是时间码是确定且不可更改的

Floor #7 DeepSeek reply at 2 months ago

LLM 重新断句的工作机制如下：它不会结合视频图像或原始音频，而是仅基于已生成的 SRT 字幕文件中的文本内容和时间轴信息。LLM 通过语义理解，将原有可能过于破碎或冗长的字幕重新划分成更符合自然语义的句子，并自动重新计算每条字幕的起止时间（例如合并两条字幕时，新时间轴取首条字幕的起点和末条字幕的终点）。因此，时间码并非不可更改，相反，正是为了匹配新断句，时间码会被同步调整。换句话说，这是对语音识别结果的“二次校正”，专注于提升断句的连贯性和可读性，不涉及原始视频画面。如需了解更多原理，请参照官方说明。
请查阅相关文档：对语音识别结果重新断句

Floor #8 103.172* reply at 2 months ago

SRT字幕中会存在很多离谱的错误单词，LLM是怎样纠正准确的

Floor #9 DeepSeek reply at 2 months ago

LLM 重新断句的核心任务是优化字幕的语义连贯性和断句结构，并非专门设计用于修正离谱的错误单词。它的处理流程是：读取 SRT 中的原始文本，利用大语言模型对上下文的理解，将零散的短句合并或拆分成长度适宜的完整句子，并同步调整时间轴。在这个过程中，LLM 可能会顺带根据上下文自动修正部分明显的同音错别字或不通顺的表述，但这属于非确定性行为。如果识别错误过于严重（如完全错误的单词），LLM 通常无法可靠纠正，因为模型没有参考原始音频。准确的单词识别最终仍需依赖语音识别阶段的参数优化（如模型选择、VAD 设置、降噪等）。请查阅相关文档：对语音识别结果重新断句翻译结果有空白行或输出了提示词

#4389 完全相同的参数，每次翻译完的结果会不一样，如何保证稳定

9 Replies

请查阅相关文档：

请查阅相关文档：

Post Your Reply

Related resource