欢迎访问 智家网
当前位置: 智能家居 > 智能家居网资讯 > 市场动态 > 思必驰超自然语音合成,高度还原真人说话细节

思必驰超自然语音合成,高度还原真人说话细节

2024-03-30 09:49:45

来源:思必驰

发布者:智家网

收藏本信息

  是不是感觉和以往听到的机器合成音有些不一样,似乎是真人?

  不要怀疑,这仍然是AI生成,是由思必驰最新推出的超自然语音合成技术生成。

  作为国内专业的对话式人工智能平台型企业,思必驰自主研发了全链路智能对话系统,涵盖声学信号处理、语音识别与合成、性别/年龄/声纹识别、自然语言理解、知识图谱、对话管理、智能交互决策等技术链条。

  思必驰在专注挖掘场景需求、不断提升整体系统智能的同时,也关注单点技术的持续创新与突破。比如在语音合成领域,思必驰近年来率先推出多项技术,持续给客户和终端用户带来更人性化、智能化的体验。

  2022年,发布单人千音,实现单个音色就能生成同时覆盖多种语言、多种风格的语音合成声音,极大丰富了合成语音的表现力;

  2022年,推出发音人音色定制平台,支持客户自主完成语音合成音色模型定制,降低语音合成定制门槛;

  2022年,针对智能客服推出高情感、高拟人度的“多情感TTS”;

  2022年,发布“千语千训”系统,零人工介入、自动更新模型,语音识别系统更新频率实现了从周级到天级的跨越;

  2023年,发布“声音复刻”技术,仅需录制一句话即可复刻出自己的音色,支持任意文本的朗读;

  2023年,发布自然场景数字人生成技术,个性化对话生成与语音合成模型无缝结合,构建可自由交互的个性化IP;

  2023年,发布支持基于生成扩散模型的零样本高质量语音编辑,支持中文及英文,能够像文本一样去修改音频......

  而今天,思必驰又推出了一项全新的技术:超自然语音合成,即基于语音特征离散化技术和大语言模型等,降低预测连续语音特征的难度,还原真人说话细微的韵律特点、发音口癖,让合成效果更加自然、真实且富有表现力。该项技术适用于AI数字人、新闻播报、智能客服、智能助理等众多应用场景。

20240330_094605_045.jpg

  (在线体验)

  拿捏真人说话的“艺术”,高度还原细节

  与传统TTS生成声音的刻板、不接地气、缺乏真人声音的抑扬顿挫等相比,超自然语音合成的最大特点就是能够高度还原真人说话时的细节,特别是语气词、吸气声、停顿等。

  当我们和朋友聊天时,语气词、吸气声、停顿以及字音拖长等语言现象经常出现,这些语言现象并不是随意的,而是自然而然产生的:

  “啊”、“哦”、“嗯”等语气词能够传达说话人的情绪,吸气声表现了说话人在思考或准备说话时的心理状态,犹豫时的停顿反映了说话人的不确定性,字音拖长则强调了某个词语的重要性......

  当细微的韵律特点和发音口癖被还原时,你能感受到语音的生动性和自然性,仿佛是在与真实的人进行交流。

  以银行智能客服场景为例,用户感受到的是与“真人”沟通的亲切感和舒适度。

20240330_094605_046.jpg

  然而,要实现这样完美的语音合成效果并不容易,需要先进的语音处理技术和大量的真实语音数据来训练合成模型。与此同时,还需要对语音学和语言学有深入的理解,以便能够准确地捕捉和复现语音中的细微差别。

  关键技术创新突破,捕捉真人语音特点

  为了还原真人说话效果,思必驰对韵律的多样性进行了深入研究,并将语音特征离散化应用到语音合成领域。

  语音特征离散化是指将连续的语音信号转换为一系列离散值的过程。这种离散值通过使用自监督(Self-Supervised Learning,SSL)模型提取得到,而自监督模型则使用海量语音数据训练得到。在语音生成的过程中,用声音模型将文本转换成语音特征,离散化处理可以降低模型预测连续语音特征的难度,使其更容易捕捉到自然和多样化语音的特点。

  2022 年 4 月份,思必驰首席科学家、上海交通大学计算机系教授俞凯博士带领的研究团队发表了将语音特征离散化技术应用于文本到语音生成的关键成果,即《 VQTTS: High-Fidelity Text-to-Speech Synthesis with SelfSupervised VQ Acoustic Feature 》,这是业界首次将语音特征离散化应用于从文本到语音生成的建模,使语音生成效果取得了突破性进展。

20240330_094605_047.jpg

  在思必驰和上海交通大学计算机系跨媒体语言智能实验室的共同努力下,基于VQTTS 技术的思必驰情感音色悦悦取得了高达 4.7 的 MOS 分数,达到业内一流水平。

  思必驰也将VQTTS 技术应用于超自然语音合成,结合大语言模型技术的成果,以及海量自然风格的数据,思必驰超自然语音合成技术可以更好地捕捉语言的韵律和语调,从而生成更贴近人类发音的语音。

  全新的语音交互体验,赋能千行百业多场景

  罗伊·泽扎纳在《未来生活简史》一书中提到,三场科技革命将在未来改变人类的工作、生活和思维方式。这三场革命分别是:个性化制造革命、智能革命和生物革命。在智能革命中,计算机开始模仿人类的部分语言和思维能力,人类也在此过程中得到提升。

  思必驰DFM-2大模型已经在智能家居、电商客服、在线教育、智能汽车等众多场景落地应用,基于语音大模型技术的超自然语音合成,将让更多产品具有更好的人机交互体验,让更多用户体验到了科技创新的成果:

20240330_094605_048.jpg

  在线上教学场景中,学生可以听到自然、流畅且富有感情的授课内容,激发学习热情;在居家生活场景中,不仅能分享自己的喜怒哀乐,还能得到“真人”情感上的安慰和支持。

  每一次科技进步,都让人类的生活更美好。基于超自然语音合成技术,思必驰成将为千行百业的不同场景提供“真人”个性化声音,助力开启全新的语音交互之旅。

  扫描下方二维码,输入文本即可获得一段自然流畅、声情并茂的“真人”音频,快去动手试试吧。

免责声明:凡本网注明“来源:XXX(非本网)”的作品均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。

为您精选推荐更多加盟好项目

本周已有 568 人提交加盟信息

智家网客服中心竭诚为您服务

官方客服电话:0371-55283600

官方客服QQ:2248064978 官方客服QQ

谷经理:173-2940-8867(手机/微信) 加我好友

刘经理:173-2940-3639(手机/微信) 加我好友

贺经理:181-3777-8751(手机/微信) 加我好友

广东智能家居群 加我好友

特别提示:多留言、多打电话、多咨询、实地考察,可降低投资风险。

扫一扫:关注我们

帮助中心 | 关于我们| 联系我们| 版权信息| 营业执照| 隐私保护| 使用协议| 网站地图| 智家网移动站| 智能家居网| 在线问答| 知识产权投诉

中华人民共和国电信与信息服务业务经营许可证: 粤ICP备19160419号-2 深圳智和家科技有限公司版权所有

智家网【www.znjjvip.com】,是智能家居智能家居控制系统信息在线展示平台,对具体交易过程不参与也不承担任何责任,望供求双方谨慎交易。

国家高新技术企业

中原股权交易中心

诚信龙头单位

银盾诚信

中文网站

加盟网站

知识产权管理认证

4687 优质品牌商

88670 精准加盟商

快速获取热门加盟项目