#710 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致

240e:39d* Posted at: 5 months ago 👁319

没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致

=====

Windows-10-10.0.26100-SP0

version:v3.80

frozen:True

language:zh

Floor #1 0.0* reply at 5 months ago

本条内容由 DeepSeek 回复

这个问题通常表示 pyVideoTrans 在视频/音频中没有检测到人类说话的声音。请按以下步骤排查：

1. 确认视频/音频内容：

确保您的视频或音频文件确实包含清晰的人类说话声，而不是仅有背景音乐、环境噪音或静音。
检查说话语言是否与软件界面中“原始语言”设置一致（例如，视频中是中文，则选择“中文”）。

2. 检查音量与音轨：

用播放器打开文件，确认人声音量足够大，且未被背景音覆盖。
如果视频有多个音轨，尝试用其他工具（如格式工厂）提取人声明显的音轨后再处理。

3. 尝试其他识别引擎：

在软件菜单栏 → 语音识别设置中，切换不同的识别引擎（如尝试“faster-whisper”或“阿里FunASR”）。
部分引擎对低音量或嘈杂环境适应性更好。

4. 手动预处理音频（进阶）：

如果人声混杂在背景音中，可先用软件内置的“工具 → 人声分离”功能提取人声，再对纯人声文件进行识别。

若以上步骤无效，请提供更详细的信息：

文件格式（如MP4、MP3）、时长。
在软件目录下打开 logs 文件夹，找到以当前日期命名的 .log 文件，复制底部30-50行日志内容贴出，以便进一步分析。

Floor #2 104.234* reply at 5 months ago

RuntimeError: 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致

2025-10-14 10:58:03,477 - VideoTrans - ERROR - 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致

Traceback (most recent call last):

File "videotrans\task\job.py", line 105, in run

File "videotrans\task\trans_create.py", line 331, in recogn

File "videotrans\recognition\__init__.py", line 222, in run

File "videotrans\recognition\_base.py", line 78, in run

File "videotrans\recognition\_overall.py", line 196, in _exec

RuntimeError: 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致

2025-10-14 10:58:45,649 - VideoTrans - INFO - 平台: Windows。正在按优先级检测最佳的 'h264' 编码器: ['nvenc', 'qsv', 'amf']

2025-10-14 10:58:46,164 - VideoTrans - INFO - 平台: Windows。正在按优先级检测最佳的 'h264' 编码器: ['nvenc', 'qsv', 'amf']

2025-10-14 10:58:48,024 - VideoTrans - INFO - 正在测试编码器是否可用: h264_nvenc...

2025-10-14 10:58:48,258 - VideoTrans - INFO - 正在测试编码器是否可用: h264_nvenc...

2025-10-14 10:58:48,321 - VideoTrans - INFO - 硬件编码器 'h264_nvenc' 可用。

2025-10-14 10:58:48,321 - VideoTrans - INFO - 已选择硬件编码器: h264_nvenc

2025-10-14 10:58:48,321 - VideoTrans - INFO - 最终确定使用的编码器: h264_nvenc

2025-10-14 10:58:48,540 - VideoTrans - INFO - 硬件编码器 'h264_nvenc' 可用。

2025-10-14 10:58:48,540 - VideoTrans - INFO - 已选择硬件编码器: h264_nvenc

2025-10-14 10:58:48,540 - VideoTrans - INFO - 最终确定使用的编码器: h264_nvenc

2025-10-14 11:00:37,952 - VideoTrans - INFO - 任务 [1/1]: 开始第 1 次尝试。

2025-10-14 11:00:40,587 - VideoTrans - INFO - 任务 [1/1]: 成功。

2025-10-14 11:00:40,587 - VideoTrans - INFO - [任务:1 彻底结束, 当前总完成数: 1]

2025-10-14 11:00:40,587 - VideoTrans - INFO - 执行流程：所有配音任务正常完成。

2025-10-14 11:00:40,587 - VideoTrans - INFO - 所有 1 个任务的状态已确认。

2025-10-14 11:00:40,790 - VideoTrans - INFO - 开始执行事件循环的关闭流程...

2025-10-14 11:00:40,839 - VideoTrans - INFO - 事件循环已关闭。

2025-10-14 11:00:48,934 - VideoTrans - INFO - 任务 [1/1]: 开始第 1 次尝试。

2025-10-14 11:00:52,357 - VideoTrans - INFO - 任务 [1/1]: 成功。

2025-10-14 11:00:52,357 - VideoTrans - INFO - [任务:1 彻底结束, 当前总完成数: 1]

2025-10-14 11:00:52,358 - VideoTrans - INFO - 执行流程：所有配音任务正常完成。

2025-10-14 11:00:52,358 - VideoTrans - INFO - 所有 1 个任务的状态已确认。

2025-10-14 11:00:52,547 - VideoTrans - INFO - 开始执行事件循环的关闭流程...

2025-10-14 11:00:52,590 - VideoTrans - INFO - 事件循环已关闭。

2025-10-14 11:00:58,904 - VideoTrans - INFO - 任务 [1/1]: 开始第 1 次尝试。

2025-10-14 11:01:02,874 - VideoTrans - INFO - 任务 [1/1]: 成功。

2025-10-14 11:01:02,874 - VideoTrans - INFO - [任务:1 彻底结束, 当前总完成数: 1]

2025-10-14 11:01:02,874 - VideoTrans - INFO - 执行流程：所有配音任务正常完成。

2025-10-14 11:01:02,874 - VideoTrans - INFO - 所有 1 个任务的状态已确认。

2025-10-14 11:01:03,075 - VideoTrans - INFO - 开始执行事件循环的关闭流程...

2025-10-14 11:01:03,119 - VideoTrans - INFO - 事件循环已关闭。

2025-10-14 11:01:10,600 - VideoTrans - INFO - 任务 [1/1]: 开始第 1 次尝试。

2025-10-14 11:01:12,768 - VideoTrans - INFO - 任务 [1/1]: 成功。

2025-10-14 11:01:12,768 - VideoTrans - INFO - [任务:1 彻底结束, 当前总完成数: 1]

2025-10-14 11:01:12,768 - VideoTrans - INFO - 执行流程：所有配音任务正常完成。

2025-10-14 11:01:12,768 - VideoTrans - INFO - 所有 1 个任务的状态已确认。

2025-10-14 11:01:12,958 - VideoTrans - INFO - 开始执行事件循环的关闭流程...

2025-10-14 11:01:12,999 - VideoTrans - INFO - 事件循环已关闭。

2025-10-14 11:01:41,277 - VideoTrans - INFO - 最终配置信息：self.cfg=TaskCfg(cache_folder='D:/software/win-videotrans-v3.81/tmp4252/0982cba3bd', target_dir='C:/Users/Administrator/Desktop/_video_out/G4_NCG-V_iSIGNtm', remove_noise=False, is_separate=False, only_video=False, detect_language='en', subtitle_language=None, source_language='英语', target_language='简体中文', source_language_code='en', target_language_code='zh-cn', source_sub='C:/Users/Administrator/Desktop/_video_out/G4_NCG-V_iSIGNtm/en.srt', target_sub='C:/Users/Administrator/Desktop/_video_out/G4_NCG-V_iSIGNtm/zh-cn.srt', source_wav='D:/software/win-videotrans-v3.81/tmp4252/0982cba3bd/en.wav', source_wav_output='C:/Users/Administrator/Desktop/_video_out/G4_NCG-V_iSIGNtm/en.wav', target_wav='D:/software/win-videotrans-v3.81/tmp4252/0982cba3bd/target.wav', target_wav_output='C:/Users/Administrator/Desktop/_video_out/G4_NCG-V_iSIGNtm/zh-cn.wav', subtitles='', novoice_mp4='D:/software/win-videotrans-v3.81/tmp4252/0982cba3bd/novoice.mp4', noextname='G4_NCG-V_iSIGNtm', shibie_audio='C:/Users/Administrator/Desktop/_video_out/G4_NCG-V_iSIGNtm/shibie.wav', targetdir_mp4='C:/Users/Administrator/Desktop/_video_out/G4_NCG-V_iSIGNtm/G4_NCG-V_iSIGNtm.mp4', instrument=None, vocal=None, back_audio='', background_music=None, app_mode='biaozhun', subtitle_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='zh-CN-YunxiNeural', copysrt_rawvideo=False, clear_cache=True, translate_type=0, tts_type=0, recogn_type=0, model_name='small.en', split_type='all', voice_autorate=True, video_autorate=False, cuda=True, paraformer_spk=False, name='C:/Users/Administrator/Desktop/G4_NCG-V_iSIGNtm.mp4', basename='G4_NCG-V_iSIGNtm.mp4', ext='mp4', dirname='C:/Users/Administrator/Desktop', shound_del_name=None, uuid='0982cba3bd')

2025-10-14 11:01:41,365 - VideoTrans - INFO - 返回缓存的编解码器 ('Windows', 264): h264_nvenc

2025-10-14 11:01:42,419 - VideoTrans - INFO - 开始创建 pid:self.pidfile='D:/software/win-videotrans-v3.81/tmp4252/9832.lock'

2025-10-14 11:02:44,719 - VideoTrans - ERROR - 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致

Traceback (most recent call last):

File "videotrans\recognition\_base.py", line 78, in run

File "videotrans\recognition\_overall.py", line 196, in _exec

RuntimeError: 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致

Floor #3 0.0* reply at 5 months ago

本条内容由 gpt-5-mini 回复

您好！根据您提供的日志，核心问题是

RuntimeError: 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致

。这表明 pyVideoTrans 在执行语音识别（ASR）步骤时，未能从您提供的视频中检测到任何符合“英语”的说话声。

请按以下步骤进行排查和尝试解决：

1. 确认视频内容和语言：

播放视频： 请您先用普通播放器（如 VLC）播放该视频，确认其中是否真的包含清晰的人类说话声。
确认语言： 确保视频中的说话语言确实是英语。您的日志显示您设置的 source_language='英语'，并使用了 model_name='small.en'，这个模型是专门用于识别英语的。如果视频是其他语言，请务必在软件主界面的“原始语言”下拉菜单中选择正确的语言。

2. 尝试更强大的语音识别模型：

如果视频中确实有英语说话声，但识别不到，可能是当前选用的 small.en 模型能力不足以处理您视频的音质或语速。
在软件菜单栏选择 语音识别设置，尝试切换到其他更强大的本地模型，例如 faster-whisper(本地) 并选择 large-v2 模型（首次使用需下载）。或者，如果网络条件允许，可以尝试在线的识别渠道，如“OpenAI Whisper API”或“阿里FunASR”。

3. 检查音质和音量：

视频中的说话声是否清晰，音量是否足够大？如果音量太低或者背景噪音太大，会影响识别效果。
如果说话声混杂在背景音中难以分辨，可以尝试使用软件的 工具 -> 人声分离 功能，先将人声提取出来再进行处理。

4. 提供更多信息：

如果上述方法都无法解决问题，请告知您使用的是哪个语音识别渠道（例如 faster-whisper(本地) 或其他在线API）。

Floor #4 46.20* reply at 5 months ago

没有 videotrans\recognition 目录

Floor #5 0.0* reply at 5 months ago

本条内容由 gpt-5-mini 回复

非常抱歉，我的表述可能引起了误解。videotrans\recognition 目录是 pyVideoTrans 软件内部的程序模块路径，您不需要手动去查找或操作它。

当您遇到 没有识别到任何说话声 的错误时，最重要的是提供软件运行日志。这个日志文件位于软件的根目录下。

请按照以下步骤找到并提供日志文件：

1. 打开 pyVideoTrans 软件的安装目录。 (例如，如果您解压到了 D:/videotrans，就打开这个文件夹)。

2. 在这个目录下，您会看到一个名为 logs 的文件夹。

3. 进入 logs 文件夹，找到以当前日期命名的 .log 文件（例如 2025-10-14.log）。

4. 打开这个 .log 文件，复制其中最新的错误信息（通常在文件底部，包含 ERROR 字样及相关堆栈信息），并粘贴出来。

提供完整的日志文件将帮助我更准确地判断问题所在。

此外，如果您确实在软件安装目录中无法找到 videotrans 文件夹或其中的子文件夹，这可能意味着您的软件安装不完整或已损坏。在这种情况下，建议您：

1. 删除当前的 pyVideoTrans 文件夹。

2. 重新下载最新版本的预打包版软件。

3. 将其解压到一个纯英文、无空格、非系统权限的路径下（例如 D:/pyVideoTrans 或 C:/VideoTrans）。

4. 再次运行 sp.exe 进行尝试。

Floor #6 103.172* reply at 4 months ago

反馈一个bug的解决思路：看论坛有不少人遇到过没有识别到任何说话声音的bug。我做了多项控制变量测试，发现可能是如下原因：Python环境或cuda的问题。
我刚安装该软件，直接按照教程指引，就开始使用，没有勾选保存原背景声，也无法勾选cuda，虽然报错一大堆，但是却阴差阳错的翻译成功了第一个视频，翻译得非常烂。
我对结果很不满，于是就跟着chatgpt一通操作，他说是Python的问题，我跟着他安装了Python做了设置。又跟着你们论坛的教程安装了英伟达CUDA。
结果现在反而翻译不成功了，无论放什么样的视频进去，都会卡在4~5%左右的进度，运行几百秒，然后报错：没有识别到任何说话声。无论改什么设置都没用，包括使用软件自带的工具，先手动分离人声与背景声，再单独翻译声音文件，也没用。另外我还发现，翻译失败也会留下识别出来的人声和背景声，两个音频，和手动操作人生背景分离得到的结果是一样的，都是两个一样的音频。打开试听发现人声和背景声并没有分离出来。
现在可做的控制变量实验就是，把电脑环境滚回我没有搞那一通Python和cuda的操作之前，但是这太复杂了，我不会搞。
已捐助，希望制作者能看到。

Floor #7 0.0* reply at 4 months ago

本条内容由 gpt-5-mini 回复

您反馈的问题非常具有代表性，感谢您提供了详细的排查过程和日志信息，这对于理解问题非常关键。

根据您的描述和日志，问题很可能出在您手动安装 Python 和 CUDA 后，导致 pyVideoTrans 预打包版本自带的运行环境（特别是其 PyTorch 和 CUDA 相关的库）受到了冲突或破坏，进而使得语音识别（ASR）组件无法正常工作。

pyVideoTrans 的 Windows 预打包版本是包含了完整的 Python 环境和 torch2.7.1+cu128 (CUDA 12.x) 的，这意味着它本身就是一个独立、开箱即用的环境。用户通常不需要也不应该手动安装 Python 或 CUDA，因为这往往会引入与软件内部环境不兼容的版本，从而引发各种运行时错误，例如您遇到的“没有识别到任何说话声”。

手动安装 CUDA 可能导致系统路径、环境变量或底层的 PyTorch 依赖库出现问题，使得软件内部的 ASR 模型无法正确加载或利用 GPU 进行计算。当 ASR 模块无法正常工作时，它自然会报告“没有识别到任何说话声”，并且人声分离功能也会失效（因为它也依赖于相似的底层音频处理能力）。

解决方案：重新部署软件，并正确配置 CUDA (如果需要)

最可靠的解决办法是进行一次干净的重装，以消除外部环境对软件内部环境的干扰。

彻底删除现有软件目录：
- 找到您当前使用的 pyVideoTrans 预打包版文件夹（例如 win-videotrans-v3.81 或您解压的目录）。
- 备份您的 videotrans/params.json 和 videotrans/cfg.json 文件，这两个文件保存了您的翻译密钥、TTS 设置和高级选项。
- 将整个文件夹彻底删除。
下载并解压最新预打包版：
- 访问官方渠道，下载最新的 pyVideoTrans Windows 预打包版 (目前是 v3.81)。
- 将其解压到一个纯英文、无空格、非系统权限的路径下，例如 D:/pyVideoTrans 或 C:/VideoTrans。切勿解压到 C:\Program Files 或桌面、下载等系统默认路径。
恢复配置（可选但推荐）：
- 将您在第一步中备份的 params.json 和 cfg.json 文件复制回新解压的 videotrans/ 目录中。
运行软件并检查 CUDA：
- 在新解压的目录中运行 sp.exe。
- 不要再手动安装 Python 或 CUDA。
- 如果您有 NVIDIA 显卡：
  - 确保您的 NVIDIA 显卡驱动是最新版本。这是让软件正确识别并使用 CUDA 的最重要一步。通常，只要驱动是新的，软件就能自动利用内置的 torch2.7.1+cu128。
  - 在软件主界面，勾选“CUDA加速”选项。
  - 进入 菜单 -> 工具 -> 高级选项，确认 cuda 选项显示为 true。
再次尝试翻译：
- 使用一个包含清晰说话声的视频进行测试。

关于“人声分离”功能失效的问题：
当底层的语音识别或音频处理库受到环境冲突影响时，所有依赖这些库的功能（包括语音识别、人声分离等）都会受到影响而无法正常工作，这也是为什么您尝试人声分离也失败的原因。

通过上述步骤，您应该能够恢复一个干净、正常工作的 pyVideoTrans 环境。如果您在干净重装并更新显卡驱动后，仍然遇到问题，请务必提供最新的日志文件（位于 新软件根目录/logs/ 目录下），以便进一步分析。

Floor #8 39.87* reply at 4 months ago

Admin

最新版本 3.81，先升级到3.81再测试

Floor #9 103.172* reply at 4 months ago

我现在知道BUG的原因了，原来是faster-whisper V3turbo不能识别人声与背景声，无法完成人声与背景声分离，换成火山豆包字幕API就可以了，但是火山豆包是不安全的，要用大陆手机号注册，扫脸认证，但凡有一个关键词被触发，就会翻译失败，还会被抓。所以还是离线的faster-whisper安全些，那么请问现在faster-whisper哪个版本能完成这种任务？

Floor #10 0.0* reply at 4 months ago

本条内容由 gpt-5-mini 回复

感谢您提供详细的排查思路和经验分享，这对于理解问题非常有帮助。

首先，请务必按照管理员的建议，将您的 pyVideoTrans 软件升级到 最新版本 v3.81 再进行测试。很多问题可能在新版本中已经得到修复或优化。

关于您提到的 faster-whisper V3turbo 无法识别人声并完成人声与背景声分离的问题，这里需要澄清一个概念：

faster-whisper 的主要功能是语音识别 (ASR)：它负责将音频中的人类语音转换为文字字幕。它本身并不包含“人声与背景声分离”的功能。您提到的 V3turbo 并非 faster-whisper 的标准模型名称（标准模型是 tiny, base, small, medium, large, large-v2, large-v3）。
pyVideoTrans 中的“人声分离”是一个独立功能：软件内置的“工具 -> 人声分离”是利用专门的算法来将人声和背景音乐分开，这与 faster-whisper 的语音识别是两个不同的模块。如果这个功能也失败了，通常意味着底层音频处理组件（而非 faster-whisper 本身）或环境配置存在问题。

针对您的问题，建议的排查和解决步骤如下：

升级软件到 v3.81：
- 这是最关键的第一步。请下载最新的预打包版，并将其解压到纯英文、无空格、非系统权限的路径下。
- 如果您之前手动安装过 Python 或 CUDA，并且软件环境存在冲突，建议您彻底删除旧的 pyVideoTrans 文件夹后，重新解压新的 v3.81 版本，以确保一个干净的运行环境。
测试 faster-whisper 的语音识别能力 (不涉及人声分离)：
- 升级到 v3.81 后，在主界面确保“语音识别渠道”选择 faster-whisper(本地)。
- 在菜单栏选择 语音识别设置，将“faster-whisper模型”选择为能力更强的 large-v3 或 large-v2（首次使用需要下载，请耐心等待）。
- 使用包含清晰人声的视频进行翻译测试。如果“没有识别到任何说话声”的错误依然出现，请检查您的显卡驱动是否为最新，并确保“CUDA加速”选项被正确勾选（如果您的显卡支持）。
单独测试“人声分离”功能：
- 如果升级后，并且 faster-whisper 能够正常识别语音，但您仍然需要人声分离功能：
- 在菜单栏选择 工具/选项 -> 人声分离，尝试对您的视频文件进行人声分离。
- 如果此功能依然失败或效果不佳，这表明可能是软件内建人声分离功能依赖的底层库（如 demucs）或您的运行环境存在问题。这种情况下，可以尝试对人声分离的结果文件再进行语音识别。

总结：
“没有识别到任何说话声”通常是由语音识别模块本身的问题引起的，而“人声分离”失败则指向另一个模块。您描述的环境冲突（手动安装 Python/CUDA）很可能是导致这两个模块同时失效的根源。升级到 v3.81 并在一个干净的环境下运行，同时选择 faster-whisper 更强大的模型，应该能解决您的问题。

如果问题仍然存在，请提供最新版本 v3.81 运行后的完整日志文件（位于 软件根目录/logs/ 目录下），以便我们进行更精确的分析。

Floor #11 39.87* reply at 4 months ago

Admin

任何模型都不能完成人声背景声分离。
不要选中“保留背景声”，直接使用 faster模型

#710 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致

11 Replies

Post Your Reply

Related resource

Similar issues already exist

5 Replies 最顽固的BUG：RuntimeError: 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致

1 Replies RuntimeError: 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致

1 Replies 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致 ,请尝试取消选中CUDA加速后重试

0 Replies RuntimeError: 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致 ,请尝试取消选中CUDA加速后重试

0 Replies 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致:FasterAll

1 Replies videotrans.configure._except.SpeechToTextError: 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致:FasterAll

1 Replies RuntimeError: 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致:FasterAll

3 Replies 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致:FasterAll