#710 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声,以及说话语言是否同所选一致

240e:39d* Posted at: 24 days ago 👁82

没有识别到任何说话声,请确认所选音视频中是否包含人类说话声,以及说话语言是否同所选一致

=====

Windows-10-10.0.26100-SP0

version:v3.80

frozen:True

language:zh

11 Replies

本条内容由 DeepSeek 回复
这个问题通常表示 pyVideoTrans 在视频/音频中没有检测到人类说话的声音。请按以下步骤排查:

1. 确认视频/音频内容:

  • 确保您的视频或音频文件确实包含清晰的人类说话声,而不是仅有背景音乐、环境噪音或静音。
  • 检查说话语言是否与软件界面中“原始语言”设置一致(例如,视频中是中文,则选择“中文”)。

2. 检查音量与音轨:

  • 用播放器打开文件,确认人声音量足够大,且未被背景音覆盖。
  • 如果视频有多个音轨,尝试用其他工具(如格式工厂)提取人声明显的音轨后再处理。

3. 尝试其他识别引擎:

  • 在软件菜单栏 → 语音识别设置中,切换不同的识别引擎(如尝试“faster-whisper”或“阿里FunASR”)。
  • 部分引擎对低音量或嘈杂环境适应性更好。

4. 手动预处理音频(进阶):

  • 如果人声混杂在背景音中,可先用软件内置的“工具 → 人声分离”功能提取人声,再对纯人声文件进行识别。

若以上步骤无效,请提供更详细的信息:

  • 文件格式(如MP4、MP3)、时长。
  • 在软件目录下打开 logs 文件夹,找到以当前日期命名的 .log 文件,复制底部30-50行日志内容贴出,以便进一步分析。

RuntimeError: 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声,以及说话语言是否同所选一致

2025-10-14 10:58:03,477 - VideoTrans - ERROR - 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声,以及说话语言是否同所选一致

Traceback (most recent call last):

File "videotrans\task\job.py", line 105, in run

File "videotrans\task\trans_create.py", line 331, in recogn

File "videotrans\recognition\__init__.py", line 222, in run

File "videotrans\recognition\_base.py", line 78, in run

File "videotrans\recognition\_overall.py", line 196, in _exec

RuntimeError: 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声,以及说话语言是否同所选一致

2025-10-14 10:58:45,649 - VideoTrans - INFO - 平台: Windows。正在按优先级检测最佳的 'h264' 编码器: ['nvenc', 'qsv', 'amf']

2025-10-14 10:58:46,164 - VideoTrans - INFO - 平台: Windows。正在按优先级检测最佳的 'h264' 编码器: ['nvenc', 'qsv', 'amf']

2025-10-14 10:58:48,024 - VideoTrans - INFO - 正在测试编码器是否可用: h264_nvenc...

2025-10-14 10:58:48,258 - VideoTrans - INFO - 正在测试编码器是否可用: h264_nvenc...

2025-10-14 10:58:48,321 - VideoTrans - INFO - 硬件编码器 'h264_nvenc' 可用。

2025-10-14 10:58:48,321 - VideoTrans - INFO - 已选择硬件编码器: h264_nvenc

2025-10-14 10:58:48,321 - VideoTrans - INFO - 最终确定使用的编码器: h264_nvenc

2025-10-14 10:58:48,540 - VideoTrans - INFO - 硬件编码器 'h264_nvenc' 可用。

2025-10-14 10:58:48,540 - VideoTrans - INFO - 已选择硬件编码器: h264_nvenc

2025-10-14 10:58:48,540 - VideoTrans - INFO - 最终确定使用的编码器: h264_nvenc

2025-10-14 11:00:37,952 - VideoTrans - INFO - 任务 [1/1]: 开始第 1 次尝试。

2025-10-14 11:00:40,587 - VideoTrans - INFO - 任务 [1/1]: 成功。

2025-10-14 11:00:40,587 - VideoTrans - INFO - [任务:1 彻底结束, 当前总完成数: 1]

2025-10-14 11:00:40,587 - VideoTrans - INFO - 执行流程:所有配音任务正常完成。

2025-10-14 11:00:40,587 - VideoTrans - INFO - 所有 1 个任务的状态已确认。

2025-10-14 11:00:40,790 - VideoTrans - INFO - 开始执行事件循环的关闭流程...

2025-10-14 11:00:40,839 - VideoTrans - INFO - 事件循环已关闭。

2025-10-14 11:00:48,934 - VideoTrans - INFO - 任务 [1/1]: 开始第 1 次尝试。

2025-10-14 11:00:52,357 - VideoTrans - INFO - 任务 [1/1]: 成功。

2025-10-14 11:00:52,357 - VideoTrans - INFO - [任务:1 彻底结束, 当前总完成数: 1]

2025-10-14 11:00:52,358 - VideoTrans - INFO - 执行流程:所有配音任务正常完成。

2025-10-14 11:00:52,358 - VideoTrans - INFO - 所有 1 个任务的状态已确认。

2025-10-14 11:00:52,547 - VideoTrans - INFO - 开始执行事件循环的关闭流程...

2025-10-14 11:00:52,590 - VideoTrans - INFO - 事件循环已关闭。

2025-10-14 11:00:58,904 - VideoTrans - INFO - 任务 [1/1]: 开始第 1 次尝试。

2025-10-14 11:01:02,874 - VideoTrans - INFO - 任务 [1/1]: 成功。

2025-10-14 11:01:02,874 - VideoTrans - INFO - [任务:1 彻底结束, 当前总完成数: 1]

2025-10-14 11:01:02,874 - VideoTrans - INFO - 执行流程:所有配音任务正常完成。

2025-10-14 11:01:02,874 - VideoTrans - INFO - 所有 1 个任务的状态已确认。

2025-10-14 11:01:03,075 - VideoTrans - INFO - 开始执行事件循环的关闭流程...

2025-10-14 11:01:03,119 - VideoTrans - INFO - 事件循环已关闭。

2025-10-14 11:01:10,600 - VideoTrans - INFO - 任务 [1/1]: 开始第 1 次尝试。

2025-10-14 11:01:12,768 - VideoTrans - INFO - 任务 [1/1]: 成功。

2025-10-14 11:01:12,768 - VideoTrans - INFO - [任务:1 彻底结束, 当前总完成数: 1]

2025-10-14 11:01:12,768 - VideoTrans - INFO - 执行流程:所有配音任务正常完成。

2025-10-14 11:01:12,768 - VideoTrans - INFO - 所有 1 个任务的状态已确认。

2025-10-14 11:01:12,958 - VideoTrans - INFO - 开始执行事件循环的关闭流程...

2025-10-14 11:01:12,999 - VideoTrans - INFO - 事件循环已关闭。

2025-10-14 11:01:41,277 - VideoTrans - INFO - 最终配置信息:self.cfg=TaskCfg(cache_folder='D:/software/win-videotrans-v3.81/tmp4252/0982cba3bd', target_dir='C:/Users/Administrator/Desktop/_video_out/G4_NCG-V_iSIGNtm', remove_noise=False, is_separate=False, only_video=False, detect_language='en', subtitle_language=None, source_language='英语', target_language='简体中文', source_language_code='en', target_language_code='zh-cn', source_sub='C:/Users/Administrator/Desktop/_video_out/G4_NCG-V_iSIGNtm/en.srt', target_sub='C:/Users/Administrator/Desktop/_video_out/G4_NCG-V_iSIGNtm/zh-cn.srt', source_wav='D:/software/win-videotrans-v3.81/tmp4252/0982cba3bd/en.wav', source_wav_output='C:/Users/Administrator/Desktop/_video_out/G4_NCG-V_iSIGNtm/en.wav', target_wav='D:/software/win-videotrans-v3.81/tmp4252/0982cba3bd/target.wav', target_wav_output='C:/Users/Administrator/Desktop/_video_out/G4_NCG-V_iSIGNtm/zh-cn.wav', subtitles='', novoice_mp4='D:/software/win-videotrans-v3.81/tmp4252/0982cba3bd/novoice.mp4', noextname='G4_NCG-V_iSIGNtm', shibie_audio='C:/Users/Administrator/Desktop/_video_out/G4_NCG-V_iSIGNtm/shibie.wav', targetdir_mp4='C:/Users/Administrator/Desktop/_video_out/G4_NCG-V_iSIGNtm/G4_NCG-V_iSIGNtm.mp4', instrument=None, vocal=None, back_audio='', background_music=None, app_mode='biaozhun', subtitle_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='zh-CN-YunxiNeural', copysrt_rawvideo=False, clear_cache=True, translate_type=0, tts_type=0, recogn_type=0, model_name='small.en', split_type='all', voice_autorate=True, video_autorate=False, cuda=True, paraformer_spk=False, name='C:/Users/Administrator/Desktop/G4_NCG-V_iSIGNtm.mp4', basename='G4_NCG-V_iSIGNtm.mp4', ext='mp4', dirname='C:/Users/Administrator/Desktop', shound_del_name=None, uuid='0982cba3bd')

2025-10-14 11:01:41,365 - VideoTrans - INFO - 返回缓存的编解码器 ('Windows', 264): h264_nvenc

2025-10-14 11:01:42,419 - VideoTrans - INFO - 开始创建 pid:self.pidfile='D:/software/win-videotrans-v3.81/tmp4252/9832.lock'

2025-10-14 11:02:44,719 - VideoTrans - ERROR - 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声,以及说话语言是否同所选一致

Traceback (most recent call last):

File "videotrans\recognition\_base.py", line 78, in run

File "videotrans\recognition\_overall.py", line 196, in _exec

RuntimeError: 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声,以及说话语言是否同所选一致

本条内容由 gpt-5-mini 回复
您好!根据您提供的日志,核心问题是 RuntimeError: 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声,以及说话语言是否同所选一致。这表明 pyVideoTrans 在执行语音识别(ASR)步骤时,未能从您提供的视频中检测到任何符合“英语”的说话声。

请按以下步骤进行排查和尝试解决:

1. 确认视频内容和语言:

  • 播放视频: 请您先用普通播放器(如 VLC)播放该视频,确认其中是否真的包含清晰的人类说话声。
  • 确认语言: 确保视频中的说话语言确实是英语。您的日志显示您设置的 source_language='英语',并使用了 model_name='small.en',这个模型是专门用于识别英语的。如果视频是其他语言,请务必在软件主界面的“原始语言”下拉菜单中选择正确的语言。

2. 尝试更强大的语音识别模型:

  • 如果视频中确实有英语说话声,但识别不到,可能是当前选用的 small.en 模型能力不足以处理您视频的音质或语速。
  • 在软件菜单栏选择 语音识别设置,尝试切换到其他更强大的本地模型,例如 faster-whisper(本地) 并选择 large-v2 模型(首次使用需下载)。或者,如果网络条件允许,可以尝试在线的识别渠道,如“OpenAI Whisper API”或“阿里FunASR”。

3. 检查音质和音量:

  • 视频中的说话声是否清晰,音量是否足够大?如果音量太低或者背景噪音太大,会影响识别效果。
  • 如果说话声混杂在背景音中难以分辨,可以尝试使用软件的 工具 -> 人声分离 功能,先将人声提取出来再进行处理。

4. 提供更多信息:

  • 如果上述方法都无法解决问题,请告知您使用的是哪个语音识别渠道(例如 faster-whisper(本地) 或其他在线API)。

没有 videotrans\recognition 目录

本条内容由 gpt-5-mini 回复
非常抱歉,我的表述可能引起了误解。videotrans\recognition 目录是 pyVideoTrans 软件内部的程序模块路径,您不需要手动去查找或操作它。

当您遇到 没有识别到任何说话声 的错误时,最重要的是提供软件运行日志。这个日志文件位于软件的根目录下。

请按照以下步骤找到并提供日志文件:

1. 打开 pyVideoTrans 软件的安装目录。 (例如,如果您解压到了 D:/videotrans,就打开这个文件夹)。

2. 在这个目录下,您会看到一个名为 logs 的文件夹。

3. 进入 logs 文件夹,找到以当前日期命名的 .log 文件(例如 2025-10-14.log)。

4. 打开这个 .log 文件,复制其中最新的错误信息(通常在文件底部,包含 ERROR 字样及相关堆栈信息),并粘贴出来。

提供完整的日志文件将帮助我更准确地判断问题所在。

此外,如果您确实在软件安装目录中无法找到 videotrans 文件夹或其中的子文件夹,这可能意味着您的软件安装不完整或已损坏。在这种情况下,建议您:

1. 删除当前的 pyVideoTrans 文件夹。

2. 重新下载最新版本的预打包版软件。

3. 将其解压到一个纯英文、无空格、非系统权限的路径下(例如 D:/pyVideoTransC:/VideoTrans)。

4. 再次运行 sp.exe 进行尝试。

反馈一个bug的解决思路:看论坛有不少人遇到过没有识别到任何说话声音的bug。我做了多项控制变量测试,发现可能是如下原因:Python环境或cuda的问题。
我刚安装该软件,直接按照教程指引,就开始使用,没有勾选保存原背景声,也无法勾选cuda,虽然报错一大堆,但是却阴差阳错的翻译成功了第一个视频,翻译得非常烂。
我对结果很不满,于是就跟着chatgpt一通操作,他说是Python的问题,我跟着他安装了Python做了设置。又跟着你们论坛的教程安装了英伟达CUDA。
结果现在反而翻译不成功了,无论放什么样的视频进去,都会卡在4~5%左右的进度,运行几百秒,然后报错:没有识别到任何说话声。无论改什么设置都没用,包括使用软件自带的工具,先手动分离人声与背景声,再单独翻译声音文件,也没用。另外我还发现,翻译失败也会留下识别出来的人声和背景声,两个音频,和手动操作人生背景分离得到的结果是一样的,都是两个一样的音频。打开试听发现人声和背景声并没有分离出来。
现在可做的控制变量实验就是,把电脑环境滚回我没有搞那一通Python和cuda的操作之前,但是这太复杂了,我不会搞。
已捐助,希望制作者能看到。

本条内容由 gpt-5-mini 回复

您反馈的问题非常具有代表性,感谢您提供了详细的排查过程和日志信息,这对于理解问题非常关键。

根据您的描述和日志,问题很可能出在您手动安装 Python 和 CUDA 后,导致 pyVideoTrans 预打包版本自带的运行环境(特别是其 PyTorch 和 CUDA 相关的库)受到了冲突或破坏,进而使得语音识别(ASR)组件无法正常工作。

pyVideoTrans 的 Windows 预打包版本是包含了完整的 Python 环境和 torch2.7.1+cu128 (CUDA 12.x) 的,这意味着它本身就是一个独立、开箱即用的环境。用户通常不需要也不应该手动安装 Python 或 CUDA,因为这往往会引入与软件内部环境不兼容的版本,从而引发各种运行时错误,例如您遇到的“没有识别到任何说话声”。

手动安装 CUDA 可能导致系统路径、环境变量或底层的 PyTorch 依赖库出现问题,使得软件内部的 ASR 模型无法正确加载或利用 GPU 进行计算。当 ASR 模块无法正常工作时,它自然会报告“没有识别到任何说话声”,并且人声分离功能也会失效(因为它也依赖于相似的底层音频处理能力)。

解决方案:重新部署软件,并正确配置 CUDA (如果需要)

最可靠的解决办法是进行一次干净的重装,以消除外部环境对软件内部环境的干扰。

  1. 彻底删除现有软件目录:

    • 找到您当前使用的 pyVideoTrans 预打包版文件夹(例如 win-videotrans-v3.81 或您解压的目录)。
    • 备份您的 videotrans/params.jsonvideotrans/cfg.json 文件,这两个文件保存了您的翻译密钥、TTS 设置和高级选项。
    • 将整个文件夹彻底删除。
  2. 下载并解压最新预打包版:

    • 访问官方渠道,下载最新的 pyVideoTrans Windows 预打包版 (目前是 v3.81)。
    • 将其解压到一个纯英文、无空格、非系统权限的路径下,例如 D:/pyVideoTransC:/VideoTrans切勿解压到 C:\Program Files 或桌面、下载等系统默认路径。
  3. 恢复配置(可选但推荐):

    • 将您在第一步中备份的 params.jsoncfg.json 文件复制回新解压的 videotrans/ 目录中。
  4. 运行软件并检查 CUDA:

    • 在新解压的目录中运行 sp.exe
    • 不要再手动安装 Python 或 CUDA。
    • 如果您有 NVIDIA 显卡:

      • 确保您的 NVIDIA 显卡驱动是最新版本。这是让软件正确识别并使用 CUDA 的最重要一步。通常,只要驱动是新的,软件就能自动利用内置的 torch2.7.1+cu128
      • 在软件主界面,勾选“CUDA加速”选项。
      • 进入 菜单 -> 工具 -> 高级选项,确认 cuda 选项显示为 true
  5. 再次尝试翻译:

    • 使用一个包含清晰说话声的视频进行测试。

关于“人声分离”功能失效的问题:
当底层的语音识别或音频处理库受到环境冲突影响时,所有依赖这些库的功能(包括语音识别、人声分离等)都会受到影响而无法正常工作,这也是为什么您尝试人声分离也失败的原因。

通过上述步骤,您应该能够恢复一个干净、正常工作的 pyVideoTrans 环境。如果您在干净重装并更新显卡驱动后,仍然遇到问题,请务必提供最新的日志文件(位于 新软件根目录/logs/ 目录下),以便进一步分析。

Admin

最新版本 3.81,先升级到3.81再测试

我现在知道BUG的原因了,原来是faster-whisper V3turbo不能识别人声与背景声,无法完成人声与背景声分离,换成火山豆包字幕API就可以了,但是火山豆包是不安全的,要用大陆手机号注册,扫脸认证,但凡有一个关键词被触发,就会翻译失败,还会被抓。所以还是离线的faster-whisper安全些,那么请问现在faster-whisper哪个版本能完成这种任务?

本条内容由 gpt-5-mini 回复

感谢您提供详细的排查思路和经验分享,这对于理解问题非常有帮助。

首先,请务必按照管理员的建议,将您的 pyVideoTrans 软件升级到 最新版本 v3.81 再进行测试。很多问题可能在新版本中已经得到修复或优化。

关于您提到的 faster-whisper V3turbo 无法识别人声并完成人声与背景声分离的问题,这里需要澄清一个概念:

  1. faster-whisper 的主要功能是语音识别 (ASR):它负责将音频中的人类语音转换为文字字幕。它本身并不包含“人声与背景声分离”的功能。您提到的 V3turbo 并非 faster-whisper 的标准模型名称(标准模型是 tiny, base, small, medium, large, large-v2, large-v3)。
  2. pyVideoTrans 中的“人声分离”是一个独立功能:软件内置的“工具 -> 人声分离”是利用专门的算法来将人声和背景音乐分开,这与 faster-whisper 的语音识别是两个不同的模块。如果这个功能也失败了,通常意味着底层音频处理组件(而非 faster-whisper 本身)或环境配置存在问题。

针对您的问题,建议的排查和解决步骤如下:

  1. 升级软件到 v3.81:

    • 这是最关键的第一步。请下载最新的预打包版,并将其解压到纯英文、无空格、非系统权限的路径下。
    • 如果您之前手动安装过 Python 或 CUDA,并且软件环境存在冲突,建议您彻底删除旧的 pyVideoTrans 文件夹后,重新解压新的 v3.81 版本,以确保一个干净的运行环境。
  2. 测试 faster-whisper 的语音识别能力 (不涉及人声分离):

    • 升级到 v3.81 后,在主界面确保“语音识别渠道”选择 faster-whisper(本地)
    • 在菜单栏选择 语音识别设置,将“faster-whisper模型”选择为能力更强的 large-v3large-v2(首次使用需要下载,请耐心等待)。
    • 使用包含清晰人声的视频进行翻译测试。如果“没有识别到任何说话声”的错误依然出现,请检查您的显卡驱动是否为最新,并确保“CUDA加速”选项被正确勾选(如果您的显卡支持)。
  3. 单独测试“人声分离”功能:

    • 如果升级后,并且 faster-whisper 能够正常识别语音,但您仍然需要人声分离功能:
    • 在菜单栏选择 工具/选项 -> 人声分离,尝试对您的视频文件进行人声分离。
    • 如果此功能依然失败或效果不佳,这表明可能是软件内建人声分离功能依赖的底层库(如 demucs)或您的运行环境存在问题。这种情况下,可以尝试对人声分离的结果文件再进行语音识别。

总结:
“没有识别到任何说话声”通常是由语音识别模块本身的问题引起的,而“人声分离”失败则指向另一个模块。您描述的环境冲突(手动安装 Python/CUDA)很可能是导致这两个模块同时失效的根源。升级到 v3.81 并在一个干净的环境下运行,同时选择 faster-whisper 更强大的模型,应该能解决您的问题。

如果问题仍然存在,请提供最新版本 v3.81 运行后的完整日志文件(位于 软件根目录/logs/ 目录下),以便我们进行更精确的分析。

Admin

任何模型都不能完成人声背景声分离。
不要选中“保留背景声”,直接使用 faster模型

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Similar issues already exist

Trending Questions