使用场景
有一段下载的或自己录制的音视频资料,需要把其中人物讲话提取出来,转化为文字文本内容。
推荐AI工具
巴士哥认为最方便快捷且免费的当属通义千问的“音视频速读”功能。
操作教程
这里以电脑PC端为例,打开通义千问页面:www.qianwen.com,进入下边的“音视频”功能页面。

把需要处理的音视频文件拖进入,市面上主流的音频视频格式基本都支持,视频文件最大不超过6G,音频文件最大不超过500M,最多可同时上传50个文件。右侧选择音视频文件源语种,以及要不要进行翻译处理,区分发言人等操作。之后点击“确认按钮”。

几分钟处理完成后,就可以查看并导出了,支持docx、pdf、txt、md、srt这些常用格式,识别准确率还不错。
