利益相关声明: 作者与文中产品有直接的利益相关(开发者、自家产品等)
Matrix 首页推荐
Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章,展示来自用户的最真实的体验和观点。
文章代表作者个人观点,少数派仅对标题和排版略作修改。
去年非常高兴地荣升为准爸爸,老婆的工作分配得少了一些,有更多的时间休息。
我除了照顾好她的生活起居以外,也要更关心她的精神生活。赋闲下来的她开始看起了美剧俄剧,尤其她又喜欢看冷门剧集,很快字幕组制作的速度已经不能满足她看的速度了。刚好那段时间我正在研究各种 AI 工具,我也简单看了一下国内现有的音频转文字工具,包括了剪映、讯飞听见、网易有道等工具,发现效果都不尽如人意。直到我在鼓捣 OpenAI 的 ChatGPT 的时候看到了 Whisper,打开了新世界的大门。
Whisper 模型是目前最强大的语音转录模型之一,由 OpenAI 发布,是在 68 万小时标记音频数据的数据集上训练的,支持 99 种语言,其中包括 11.7 万小时 96 种不同语言的演讲和 12.5 万小时从任意语言到英语的翻译数据。
以上这是官方给出来的介绍,安装也十分简单,稍微有点技术基础就可以用 Whisper 转录出来带有时间轴的文字,准确性也非常高,然后再把内容丢给 GPT 进行翻译,字幕文件和原视频放进剪映做简单的核对,最后导出视频,这样就翻译汉化好了一集电视剧。我实验的第一部剧就是俄剧《叶卡捷琳娜大帝》。
后来因为 M1 Pro 跑 Whisper 有点慢,而且我那段时间在玩 Stable Diffusion 出图,直接配置了台带 4090 的电脑,配置了几个脚本,下载、转文字、翻译一条龙,整个流程速度快了许多,每天只要下班回去之后找到生肉资源供老婆大人观赏就行了。
直到一天上班的时候老婆闲着无聊,想自己操作操作,但那不知道怎么怎么搞那几个脚本,于是和我说:「你要不要做一个有界面的产品,不仅我可以用,别人也可以用。或许还能赚点奶粉钱呢。」
我觉得有道理,反正那段时间 AI 产品如雨后春笋般冒出来,我也手痒痒想做一个,于是一个新的产品,就诞生了。
在产品形态上,还要做选择题。
在 PC 端和手机端之间——选择了 PC 端,字幕编辑、翻译这种内容,大多数都是长视频的需求,在 PC 端的编辑会更加符合大部分使用场景。
在客户端和网页端之间——选择了网页端,客户端不仅需要适配 Win 和 Mac 两个系统,还需要应对相同系统不同的版本,而且我也受够了 Whisper 的龟速和各种模型的限制,不如直接把运算都交给云端,让无论什么电脑配置的用户都可以顺利使用。
这个产品叫什么好呢?就叫快转字幕吧。
关于《快转字幕》
那这个产品有什么优势?
首先我们是站在巨人「OpenAI 的 Whisper 模型」的肩膀上,它代表了非常强大的底层引擎,支持非常多的语言,而且准确率很高,特别在多语言混合的情况下。这就是我们跟大厂中厂竞争的底气。
但是这个引擎是不完美的,我们要把这个引擎发挥到它的百分之二百的功力。我们做了下面这些事情:
纯净识别
Whisper 不仅识别了人的语音,还有音视频里一些背景音,比如路人的声音、音乐、甚至鸣笛声、碰撞的声音都有可能会被识别,或者出现「幻觉」的情况,使用「纯净识别」可以去除掉噪音,并且把声音音量对齐之后,再送到 Whisper 去识别。
智能重排
许多的音视频转字幕应用都会有一个问题,在转录成文字的时候,把大段的文字放在了同一时间内,导致同屏出现的字幕过长,影响观看节奏。
正确和合理的句子分割才能给观众带来好的观看感受,所以我们请朋友们分析了中日英西法 5 种语言的基本逻辑,使用小模型做语义识别,兼顾了性能和效果,上线了 AI 高级重排功能,支持对这 5 种语言的智能分句,其他的语言上线了普通分句功能,无论什么语言都能获得还不错的分句效果。
带有上下文的 AI 翻译
现在很多翻译工具上都是简单的一句对一句进行翻译,但是经常很多词语都在不同的场景下有不同的意思,在大模型出来之前,翻译效果一直都不够好。
现在有了大模型,问题就变成怎么样调优和控制输出。
我们做了很多努力,包括使用特制的 prompt,以及增加重试、兜底等方案,能现在能保证有上下文,并且能出非常准确的翻译。
后面还增加了二次润色校对,推出这个 AI Plus 的翻译,最终出来这个效果甚至比真人翻译还要好。
接下来我也分析了其它的各种竞品,增加了各种功能。
阅读视图
这个也是老婆提出来的,除了美剧以外,在散步和洗澡的时候她还会听播客,众多播客频道和动辄 1 个小时以上的时长也让她头疼应该听哪个,所以她提出来这个产品能不能把播客转为文字内容,而且不需要时间轴,换成阅读文章一样的视图。这样就可以先看看这个博客值不值得听了。
当然,各种会议记录、律师谈话等等都可以用上这种功能。
也由此增加了下面两个新的功能——
链接解析
不是所有的音视频用户都能拿到源文件,贴上国内主流音视频平台的链接,小宇宙、抖音、小红书、微博等等都适配,解析完可以直接下载这段音视频或者在线进行转录。
说话人识别
当有多个人发言时,可以分辨出每个不同的说话人发言的段落,再对说话人标题进行改名更加方便进行浏览。
标签管理
我们后面开始有专业的视频字幕公司在使用了。
翻译的项目越来越多,会出现有些已经校对完成,有些校对了一半,有些还没开始的情况,又或者是翻译的视频有英语日语法语等等多种语言,于是增加了标签以及切换列表视图功能,让用户可以更方便地管理自己的文件。
粤语识别
作为一个在广州生活了近 30 年的人,对粤语有着特殊的感情,自然也把粤语元素加到了产品中。针对粤语的视频,不仅可以直接转录出粤语口语字幕,方便粤语的本土用户观看,也可以转录为粤语的书面语,方便非粤语区的观众观看,可以让粤语博主扩宽观众面,也可以方便非粤语区的观众看没有字幕的粤语内容。
在线压制
有些用户因为不擅长使用复杂的编辑软件,会直接在我们网站上进行简单的编辑,所以我们也上线了在线压制视频功能,如果不需要加片头或者加视频特效,可以直接在我们的网站完成视频的输出。
最后
从老婆怀孕开始开发,到现在千金已经出生,用这个产品输出的内容确实陪了老婆很长一段时间,好的科技产品的确能够大大的改变我们的生活,而且项目上线后,确实解决了不少朋友的实际问题,提升了他们的生活、学习和工作效率。
高使用率的用户包括了提高工作效率的字幕组、用来学习外语视频学生、看日剧英剧美剧俄剧的爱好者、快速备份录音材料的律师,需要整理会议记录的工作党等等,期待更多的用户能够用上,解锁更多的使用场景。也欢迎各位前往网站体验,给我提供宝贵的意见。
> 关注 少数派小红书,感受精彩数字生活 🍃
> 实用、好用的 正版软件,少数派为你呈现 🚀