下面是codex找的原因:
看日志后结论很明确:不是识别接口没有时间码,是软件生成 SRT 时把时间字段用错/丢掉了。
证据在 20260608.log:
第 9588 行:ElevenLabs 已经返回识别结果。
第 9605 行开始,软件内部生成的 SrtItem 其实有时间:
time='00:00:25,740 --> 00:00:26,300'
但同一个 SrtItem 里:
startraw='',endraw=''
你最终文件里变成:
1
-->
すいません
这正好说明写入 SRT 时软件用了空的 startraw/endraw,而不是已经算好的 time 字段。所以这是 pyvideotrans 的 ElevenLabs 识别/保存 SRT 流程里的字段映射问题。
另外日志第 17035-17036 行还有一个后续问题:
原始字幕行数:1, 翻译后行数:242,软件提示行数不一致,说明后面翻译/断句阶段也发生了字幕结构错位。
其他语音识别模型都不如这个好用,望修复一下