#2110 这到底是什么问题?我语音识别和字幕翻译都用的阿里百炼api

46.3* Posted at: 17 hours ago 👁13

', 'startraw': '00:02:35,424', 'endraw': '00:02:38,592', 'time': '00:02:35,424 --> 00:02:38,592'}, {'line': 47, 'start_time': 159040, 'end_time': 161888, 'text': ' ', 'startraw': '00:02:39,040', 'endraw': '00:02:41,888', 'time': '00:02:39,040 --> 00:02:41,888'}, {'line': 48, 'start_time': 162112, 'end_time': 166784, 'text': ' ', 'startraw': '00:02:42,112', 'endraw': '00:02:46,784', 'time': '00:02:42,112 --> 00:02:46,784'}, {'line': 49, 'start_time': 167040, 'end_time': 172032, 'text': ' ', 'startraw': '00:02:47,040', 'endraw': '00:02:52,032', 'time': '00:02:47,040 --> 00:02:52,032'}, {'line': 50, 'start_time': 172256, 'end_time': 177056, 'text': ' ', 'startraw': '00:02:52,256', 'endraw': '00:02:57,056', 'time': '00:02:52,256 --> 00:02:57,056'}, {'line': 51, 'start_time': 177216, 'end_time': 182208, 'text': ' ', 'startraw': '00:02:57,216', 'endraw': '00:03:02,208', 'time': '00:02:57,216 --> 00:03:02,208'}, {'line': 52, 'start_time': 182240, 'end_time': 187232, 'text': ' ', 'startr
......
7,568', 'time': '00:12:12,576 --> 00:12:17,568'}, {'line': 198, 'start_time': 737600, 'end_time': 742592, 'text': ' ', 'startraw': '00:12:17,600', 'endraw': '00:12:22,592', 'time': '00:12:17,600 --> 00:12:22,592'}, {'line': 199, 'start_time': 742624, 'end_time': 743232, 'text': ' ', 'startraw': '00:12:22,624', 'endraw': '00:12:23,232', 'time': '00:12:22,624 --> 00:12:23,232'}, {'line': 200, 'start_time': 744032, 'end_time': 747616, 'text': ' ', 'startraw': '00:12:24,032', 'endraw': '00:12:27,616', 'time': '00:12:24,032 --> 00:12:27,616'}, {'line': 201, 'start_time': 747776, 'end_time': 752768, 'text': ' ', 'startraw': '00:12:27,776', 'endraw': '00:12:32,768', 'time': '00:12:27,776 --> 00:12:32,768'}, {'line': 202, 'start_time': 752800, 'end_time': 757792, 'text': ' ', 'startraw': '00:12:32,800', 'endraw': '00:12:37,792', 'time': '00:12:32,800 --> 00:12:37,792'}, {'line': 203, 'start_time': 757824, 'end_time': 758848, 'text': ' ', 'startraw': '00:12:37,824', 'endraw': '00:12:38,848', 'time': '00:12:37,824 --> 00:12:38,848'}, {'line': 204, 'start_time': 759008, 'end_time': 764000, 'text': ' ', 'startraw': '00:12:39,008', 'endraw': '00:12:44,000', 'time': '00:12:39,008 --> 00:12:44,000'}, {'line': 205, 'start_time': 764032, 'end_time': 766208, 'text': ' ', 'startraw': '00:12:44,032', 'endraw': '00:12:46,208', 'time': '00:12:44,032 --> 00:12:46,208'}, {'line': 206, 'start_time': 766432, 'end_time': 771424, 'text': ' ', 'startraw': '00:12:46,432', 'endraw': '00:12:51,424', 'time': '00:12:46,432 --> 00:12:51,424'}, {'line': 207, 'start_time': 771456, 'end_time': 775936, 'text': ' ', 'startraw': '00:12:51,456', 'endraw': '00:12:55,936', 'time': '00:12:51,456 --> 00:12:55,936'}, {'line': 208, 'start_time': 776288, 'end_time': 779104, 'text': ' ', 'startraw': '00:12:56,288', 'endraw': '00:12:59,104', 'time': '00:12:56,288 --> 00:12:59,104'}, {'line': 209, 'start_time': 779360, 'end_time': 784352, 'text': ' ', 'startraw': '00:12:59,360', 'endraw': '00:13:04,352', 'time': '00:12:59,360 --> 00:13:04,352'}, {'line': 210, 'start_time': 784384, 'end_time': 789376, 'text': ' ', 'startraw': '00:13:04,384', 'endraw': '00:13:09,376', 'time': '00:13:04,384 --> 00:13:09,376'}, {'line': 211, 'start_time': 789440, 'end_time': 792576, 'text': ' ', 'startraw': '00:13:09,440', 'endraw': '00:13:12,576', 'time': '00:13:09,440 --> 00:13:12,576'}, {'line': 212, 'start_time': 792768, 'end_time': 797184, 'text': ' ', 'startraw': '00:13:12,768', 'endraw': '00:13:17,184', 'time': '00:13:12,768 --> 00:13:17,184'}, {'line': 213, 'start_time': 797344, 'end_time': 802336, 'text': ' ', 'startraw': '00:13:17,344', 'endraw': '00:13:22,336', 'time': '00:13:17,344 --> 00:13:22,336'}, {'line': 214, 'start_time': 802368, 'end_time': 807008, 'text': ' ', 'startraw': '00:13:22,368', 'endraw': '00:13:27,008', 'time': '00:13:22,368 --> 00:13:27,008'}, {'line': 215, 'start_time': 807264, 'end_time': 812256, 'text': ' ', 'startraw': '00:13:27,264', 'endraw': '00:13:32,256', 'time': '00:13:27,264 --> 00:13:32,256'}, {'line': 216, 'start_time': 812288, 'end_time': 816480, 'text': ' ', 'startraw': '00:13:32,288', 'endraw': '00:13:36,480', 'time': '00:13:32,288 --> 00:13:36,480'}, {'line': 217, 'start_time': 816672, 'end_time': 819136, 'text': ' ', 'startraw': '00:13:36,672', 'endraw': '00:13:39,136', 'time': '00:13:36,672 --> 00:13:39,136'}, {'line': 218, 'start_time': 819360, 'end_time': 824352, 'text': ' ', 'startraw': '00:13:39,360', 'endraw': '00:13:44,352', 'time': '00:13:39,360 --> 00:13:44,352'}, {'line': 219, 'start_time': 824384, 'end_time': 824928, 'text': ' ', 'startraw': '00:13:44,384', 'endraw': '00:13:44,928', 'time': '00:13:44,384 --> 00:13:44,928'}, {'line': 220, 'start_time': 825088, 'end_time': 830080, 'text': ' ', 'startraw': '00:13:45,088', 'endraw': '00:13:50,080', 'time': '00:13:45,088 --> 00:13:50,080'}, {'line': 221, 'start_time': 830112, 'end_time': 834272, 'text': ' ', 'startraw': '00:13:50,112', 'endraw': '00:13:54,272', 'time':

1 Replies

从您提供的日志片段来看,问题非常明确:语音识别(阿里百炼API)成功生成了字幕,但所有字幕行的文本内容都是空白的('text': ' ')。

这通常意味着阿里百炼的语音识别服务在处理您的音频时,未能识别出任何有效的人声内容。可能的原因和解决方案如下:

  1. 音频质量问题:视频/音频本身可能背景噪音过大、人声过小、或使用了阿里百炼不支持的音频编码格式。

    • 检查:请先用播放器打开原视频,确认人声清晰可辨。
    • 解决:在主界面第7行,点击“设置更多参数”,勾选“降噪”选项,这会在识别前对音频进行预处理,可能提升识别率。
  2. 发音语言设置错误:您选择的“发音语言”与视频中的实际语言不符。

    • 解决:在主界面第3行,确保“发音语言”选择正确。如果不确定,请选择“auto”(自动检测)。阿里百炼API对中文普通话支持最好。
  3. 阿里百炼API模型或参数问题:虽然您使用了API,但其识别引擎可能对特定口音、语速或专业术语支持不佳。

    • 临时验证:为了快速定位问题,请暂时切换为本地模型进行测试。

      • 在主界面第2行“语音识别”处,选择“faster-whisper(本地)”。
      • 模型选择“medium”或“large-v3”。
      • 重新处理视频,观察是否能识别出文字。
    • 如果本地模型可以识别,则问题出在阿里百炼API的调用或音频兼容性上。
  4. 视频不含有效人声:请再次确认视频中是否有人物说话。软件无法处理只有背景音乐或环境音的视频。

建议操作步骤:

  1. 先验证音频:用播放器听一遍原视频。
  2. 切换识别方式:按上述方法,暂时使用 faster-whisper 本地模型进行测试。
  3. 启用降噪:如果必须使用阿里百炼API,请务必勾选“降噪”选项后重试。

如果以上步骤仍无法解决,请提供更完整的错误日志(位于软件目录下的 logs 文件夹中),以便进一步分析。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions