小智头像图片
AI配音教程 2025年06月19日
0 收藏 0 点赞 80 浏览 2064 个字
摘要 :

AI配音-AI声音模型+数字人语音驱动,可以把视频搞得有声有色: 刚过去的这个周末,刚好遇到高考,然后就想着搓个有趣的卡通动画,给高考学子加油一下。发现效果挺不错的……

哈喽!伙伴们,我是小智,你们的AI向导。欢迎来到每日的AI学习时间。今天,我们将一起深入AI的奇妙世界,探索“AI配音-AI声音模型+数字人语音驱动,可以把视频搞得有声有色”,并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知,只需唤醒你的潜能!”跟着小智的步伐,我们终将学有所成,学以致用,并发现自身的更多可能性。话不多说,现在就让我们开始这场激发潜能的AI学习之旅吧。

AI配音-AI声音模型+数字人语音驱动,可以把视频搞得有声有色

AI配音-AI声音模型+数字人语音驱动,可以把视频搞得有声有色:

刚过去的这个周末,刚好遇到高考,然后就想着搓个有趣的卡通动画,给高考学子加油一下。发现效果挺不错的,索性就多弄了2个语音克隆,发个文章记录一下。

看看效果

用的是海螺MiniMax的Speech-02-hd + 腾讯混元的数字人语言驱动模型HunyuanVideo-Avatar,大家直观的感受一下,Speech-02的语音合成能力有多强。


 
我就扔了一段30秒的原声进去复刻,说实话,这音调,这起伏,这音色,真的感觉真假难分。

现在,这个新模型,MiniMax Speech-02-hd,已经可以在MiniMax官网用了,目前只有海外版有声音克隆,别问我为什么只有海外版有。

网址在此:https://www.minimax.io/audio

语音克隆如何使用
进入Minimax的Audio官网后,点击左边的Voices。

AI配音-AI声音模型+数字人语音驱动,可以把视频搞得有声有色

免费用户,可以免费克隆3个声音。

我花了3美元买了10万的credits,应该有百来分钟的语音合成。

点进去以后,直接上传你的素材,然后正常命名,选择主语言就行,很简单。

AI配音-AI声音模型+数字人语音驱动,可以把视频搞得有声有色

上传的语音最少上传10s的音频片段就可以克隆了,不过这个样本其实不是特别够,所以我一般推荐音频素材最好在30s左右。

然后只需要十几秒,一个新鲜的声音模型,就克隆好了。

后续使用的时候,直接在右边的声音选择界面里面找到自己的tab,正常使用就行。

AI配音-AI声音模型+数字人语音驱动,可以把视频搞得有声有色

数字人语音驱动如何使用
视频生成用到了来自腾讯混元发布并开源的语音数字人模型HunyuanVideo-Avatar。

用户可上传人物图像与音频,HunyuanVideo-Avatar模型会自动理解图片与音频,比如人物所在环境、音频所蕴含的情感等,让图中人物自然地说话或唱歌,生成包含自然表情、唇形同步及全身动作的视频。

体验入口:https://hunyuan.tencent.com/modelSquare/home/play?modelId=126

使用非常的方便,上传音频及一张图片,就可以驱动生成相应的视频。

AI配音-AI声音模型+数字人语音驱动,可以把视频搞得有声有色

音频需要是WAV格式的,目前只支持14秒的音频,所以如果你要生成比较长的视频,可以把音频切割成几段,分别生成视频,再进行拼接。

多语种混合尝试

目前海螺的Speech-02-hd 已经支持32种语言,为了测试其他语言的音频生成,我搞了一个比较复杂的,甄嬛传的皇四郎。

文本是这样的:

妈的,开个周会而已,至于吗?
负责人(突然拍桌):
“Listen team, we need to optimize the workflow as soon as possible”
(突然摸下巴切换法语)
“Ah oui, et rajoutez une touche de créativité, s’il vous plaît~”
(转向我,切日语)
「これはマジでイラっとするわ〜」
(突然拍大腿切西语)
“¡Caramba! ¿No hay nadie aquí que entienda el valor de la eficiencia?”
(我默默打开翻译软件,他又切德语扶眼镜)
“Entschuldigt, aber ich finde, wir sollten first prioritieren…”
我(拍桌,中文暴走): 你是在玩语言接龙吗?!到底说人话还是 ——
众人(摔笔): 所以刚才那堆「c’est la vie」「santé」都是 AI 在装逼?!
哦,他是 MiniMax Speech two,新模型。

真的,实在太好玩了。

很有趣的是,他们在讲故事的场景中,如果你只用一个声音的话,在一些不同角色那里,它甚至会有不同的音调变化和情绪变化。

说说使用感受

目前海螺的Speech-02-hd 语音合成模型,使用起来感受很好,而且也很顺滑,它会根据提供的文本内容会有不同的音调变化和情绪变化,语音克隆还原度也非常的高。我用了几次就爱上了,现在已经开始充值使用了。

要说不足,就是对某些语境的理解还是需要加强,比如我想让它合成如下这段文字的语音:

“厦门的佛教文化氛围浓厚,阿公阿嬷们每逢初一十五都有去寺庙拜拜”

这里面的“阿嬷”讲出来就没有闽南的味道,发音也不太对,还有“拜拜”直接读成“bye bye”的声音,正确的读法应该是第四声。

不管怎样,在普通话的表现已经让人很惊喜了。

另外,视频的生成,因为每次只能生成14秒的视频,想要生成长视频,就得分段生成,再拼接,这样拼接处,就会有跳帧的感觉,不知现在有没有人去开发个AI agent ,专门处理视频无痕拼接的功能,这对视频剪辑的人应该是一个强烈的需求。

嘿,伙伴们,今天我们的AI探索之旅已经圆满结束。关于“AI配音-AI声音模型+数字人语音驱动,可以把视频搞得有声有色”的内容已经分享给大家了。感谢你们的陪伴,希望这次旅程让你对AI能够更了解、更喜欢。谨记,精准提问是解锁AI潜能的钥匙哦!如果有小伙伴想要了解学习更多的AI知识,请关注我们的官网“AI智研社”,保证让你收获满满呦!

微信打赏二维码 微信扫一扫

支付宝打赏二维码 支付宝扫一扫

版权: 转载请注明出处:https://www.ai-blog.cn/18453.html

下一篇:

已经没有下一篇了!

相关推荐

AI配音-AI声音模型+数字人语音驱动,可以把视频搞得有声有色: 刚过去的这个周末,刚好遇到高考,…

小智头像图片
80

AI配音-GPT-SoVITS实现AIyoyo声音克隆: 让 AI 成为你声音的画笔,绘制出独一无二的声音艺术作品。…

小智头像图片
139

AI配音合成应用方案 – 语言声音AI模型: 语言声音AI模型​ ​ 使用 AI 的实时语音转换器 (Tra…

小智头像图片
80

AI配音合成应用方案 – 实时变声: 实时变声​ 实时变声的 sovits 一键包!基于 sovits4.0​ 一…

小智头像图片
80

AI配音合成应用方案 – 异步变声: 异步变声​ 可以在 bilibili 看教程部署 https://www.bilib…

小智头像图片
80

Deeplx-whisper-turbo字幕配音:低成本视频出海终极指南: 想让你的视频在全球范围内爆红吗?还在…

小智头像图片
371

Deeplx-whisper-turbo轻松实现视频双语字幕和AI配音: 想让你的视频轻松出海,进军日语教程蓝海市…

小智头像图片
612

新版Open Webui一键包:本地构建AI女友,畅聊NSFW小说: 想拥有一个懂你的 AI 女友,还能一起畅聊…

小智头像图片
234
发表评论
暂无评论

还没有评论呢,快来抢沙发~

助力原创内容

快速提升站内名气成为大牛

扫描二维码

手机访问本站

二维码
vip弹窗图片