亚马逊发布最强AI语音模型,请定义你的赛博女友

user avatar
Bun

2月17日,继OpenAI拿出文生视频Sora、谷歌拿出最强聊天机器人Gemini后,亚马逊发布了目前最强的AI语音生成模型BASE TTS

亚马逊发布最强AI语音模型,请定义你的赛博女友

这个名为BASETTS的新模型拥有9.8亿个参数,在同类产品中最大,在规模和能力上都超越了之前的迭代版本。亚马逊开发了一个“涌现能力”测试集,专门用于评估大规模 TTS 模型文本理解和渲染的能力,目前BASE TTS 模型在语音质量、泛化能力和多语言能力方面均取得了显著的提升。

亚马逊发布最强AI语音模型,请定义你的赛博女友

去年OpenAI首届开发者大会上,山姆·奥特曼推出了文字转语音模型OpenAI TTS,即Text-to-Speech文生语音模型,能够利用AI语音克隆功能,模拟出用户自己的声音,OpenAI提供了六款内置声音,同时支持多种语言的语音生成,通过流媒体平台进行实时音频输出。

近年来,像 ChatGPT 这样的“大型语言模型”凭借其智能回答问题和生成高级文本的能力而备受关注。然而,人工智能也在逐步融入其他主流应用领域。在这个新项目中,研究人员尝试通过增加参数数量和扩充训练数据集来提升文本转语音应用的能力。

研究人员已经在 arXiv 预印本服务器上发表了一篇论文,详细描述了模型的开发和训练过程。

得益于海量数据的训练,BASE TTS模型能够生成更加逼真、自然的语音,使用 10 万小时的音频数据进行训练,与真人语音之间的差距不断缩小,亚马逊直接将AI语音生成模型的规模推到10亿参数级别,相当于此前最大 TTS 模型参数规模的 10 倍,这标志着 TTS 领域迈入了新的里程碑!

亚马逊发布最强AI语音模型,请定义你的赛博女友

亚马逊还特别强调BASE TTS也出现了像ChatGPT、Sora等模型拥有的智能“涌现”能力

从技术上看,亚马逊TTS代表着文本生成语音领域的重大突破,但是在现实生活中,也会造成不必要的困扰,BASE TTS模型能够生成非常逼真的语音,这也非常容易拿来造假,亚马逊因担心BASE TTS被不法分子使用,仅提供给学校或者商业公司的研究人员,暂时不会对公众开放。

亚马逊发布最强AI语音模型,请定义你的赛博女友

通过GPT技术加上对人类语音的模拟,再加上DALLE图像生成,未来也许我们可以自定义一款独属于自己的定制版赛博女友

声明:本站内容,如无特殊说明或标注,均为本站原创发布。未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,请联系。
0 条回复
comment avatar
{{show.info ? '确认修改' : '修改资料'}}
upImage
  1. 暂无讨论,说说你的看法吧
有新私信 私信列表
搜索