小智头像图片
AI动态资讯 2025年02月19日
0 收藏 0 点赞 156 浏览 1818 个字
摘要 :

阶跃星辰与吉利联合开源两款多模态大模型: 2025 年 2 月 18 日,阶跃星辰和吉利汽车集团联合宣布,将双方合作的阶跃两款 Step 系列多模态大模型向全球开发者开源。其中……

哈喽!伙伴们,我是小智,你们的AI向导。欢迎来到每日的AI学习时间。今天,我们将一起深入AI的奇妙世界,探索“阶跃星辰与吉利联合开源两款多模态大模型”,并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知,只需唤醒你的潜能!”跟着小智的步伐,我们终将学有所成,学以致用,并发现自身的更多可能性。话不多说,现在就让我们开始这场激发潜能的AI学习之旅吧。

阶跃星辰与吉利联合开源两款多模态大模型

阶跃星辰与吉利联合开源两款多模态大模型:

2025 年 2 月 18 日,阶跃星辰和吉利汽车集团联合宣布,将双方合作的阶跃两款 Step 系列多模态大模型向全球开发者开源。其中,包含 目前全球范围内参数量最大、性能最好的开源视频生成模型阶跃 Step-Video-T2V(https://github.com/stepfun-ai/Step-Video-T2V),以及行业内首款产品级开源语音交互大模型阶跃 Step-Audio(https://github.com/stepfun-ai/Step-Audio)。即日起可在跃问 APP 内体验。

吉利汽车集团 CEO 淦家阅表示:“吉利致力成为智能汽车 AI 科技的引领者和普及者,早在 2021 年,吉利就围绕芯片、软件操作系统、数据和卫星网搭建了端到端的自研体系和生态联盟,构建了完善的‘智能吉利科技生态网’,驱动用户在智能驾驶、智能座舱上的体验不断进化。目前,吉利全栈自研的星睿 AI 大模型已经与阶跃 Step-Video-T2V、Step-Audio 等大模型完成了深度融合,将为用户带来更智能、更高阶的座舱交互与智驾出行体验,推动 AI 科技在智能汽车领域的普及。”

据了解,这也是阶跃星辰首次开源其 Step 系列基座模型。阶跃星辰创始人、CEO 姜大昕博士表示:“阶跃星辰一直以实现 AGI 为目标坚持研发基座大模型。我们深知 AGI 的实现离不开全球开发者的共同努力,开源的初心,一方面是希望跟大家分享最新技术成果,为开源社区贡献一份力量;另一方面,我们相信多模态模型是实现 AGI 的必经之路,但目前尚处于早期阶段,期待与社区开发者集思广益,共同拓展模型技术边界,并推动产业落地。”

阶跃 Step-Video-T2V:300 亿参数,可直接生成高分辨率视频
阶跃 Step-Video-T2V 是目前全球范围内参数量最大、性能最好的开源视频生成大模型。阶跃 Step-Video-T2V 模型的参数量达到 300 亿,可以直接生成 204 帧、540P 分辨率的高质量视频,这意味着能确保生成的视频内容具有极高的信息密度和强大的一致性。

从生成效果来看,阶跃 Step-Video-T2V 在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力,且语义理解和指令遵循能力突出,能够高效助力视频创作者实现精准创意呈现。用户可以在跃问网页端和跃问 App 上体验阶跃 Step-Video-T2V 的视频生成能力 。

为了对开源视频生成模型的性能进行全面评测,阶跃星辰还发布并开源了针对文生视频质量评测的新基准数据集 Step-Video-T2V-Eval。该测试集包含 128 条源于真实用户的中文评测问题,旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等 11 个内容类别上质量。

阶跃星辰与吉利联合开源两款多模态大模型
Step-Video-T2V-Eval 评测结果

评测结果显示,阶跃 Step-Video-T2V 的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现,均显著超过市面上既有的效果最佳的开源视频模型。

据了解,目前在 跃问网页端 和跃问 App 上,都可以体验 阶跃 Step-Video-T2V 的视频生成能力 。

阶跃 Step-Audio:业内首款产品级开源语音交互模型
据阶跃星辰介绍,这款阶跃 Step-Audio 是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地高质量对话。模型生成的语音具有超自然、高情商等特征,同时也能实现高质量的音色复刻并进行角色扮演,满足影视娱乐、社交、游戏等行业场景下应用需求。

阶跃星辰与吉利联合开源两款多模态大模型

在 LlaMA Question、Web Questions 等 5 大主流公开测试集中,阶跃 Step-Audio 模型性能均高于行业内同类型开源模型,取得了最高得分。阶跃 Step-Audio 在 HSK-6(汉语水平考试六级)评测中的表现尤为突出,是更懂中国话的开源语音交互大模型。

阶跃星辰与吉利联合开源两款多模态大模型
StepEval-Audio-360 基准测试

此外,由于目前行业内语音对话测试集相对缺失,阶跃星辰自建并开源了多维度评估体系 StepEval-Audio-360 基准测试,从角色扮演、逻辑推理、生成控制、文字游戏、创作能力、指令控制等 9 项基础能力的维度对开源语音模型进行全面测评。通过人工横评后的结果显示,阶跃 Step-Audio 的模型能力十分均衡,且在各个维度上均超过了此前市面上效果最佳的开源语音模型。

嘿,伙伴们,今天我们的AI探索之旅已经圆满结束。关于“阶跃星辰与吉利联合开源两款多模态大模型”的内容已经分享给大家了。感谢你们的陪伴,希望这次旅程让你对AI能够更了解、更喜欢。谨记,精准提问是解锁AI潜能的钥匙哦!如果有小伙伴想要了解学习更多的AI知识,请关注我们的官网“AI智研社”,保证让你收获满满呦!

微信打赏二维码 微信扫一扫

支付宝打赏二维码 支付宝扫一扫

版权: 转载请注明出处:https://www.ai-blog.cn/4429.html

相关推荐

教育部新规禁止中小学生直接使用AI生成作业答案: 教育部于2025年5月发布的《中小学生成式人工智能…

小智头像图片
175

Anthropic的Claude 3.7 Sonnet系统提示曝光: 一、对话引导范式重构 曝光的26,491 Token系统提示…

小智头像图片
173

多方消息称GPT-5将基于全新模型架构开发: 基于多方技术动态与行业分析,GPT-5的架构革新确如传闻…

小智头像图片
54

文远知行在阿布扎比试运营Robotaxi: 文远知行(WeRide)在阿布扎比的纯无人Robotaxi试运营标志着…

小智头像图片
118

张朝阳警示AI双刃剑效应: 在2025年搜狐科技年度论坛上,搜狐创始人张朝阳以物理学博士与技术企业…

小智头像图片
23

谷歌I/O亮出”钛金瞳”:Gemini眼镜点燃人机交互终局战: 行业核爆篇 硅谷人机交互史…

小智头像图片
106

深圳亮出AI眼镜杀手锏:全球55%份额背后的光学霸权: 行业核爆篇 当硅谷还在鼓捣VR头显,深圳已…

小智头像图片
54

OpenAI沙漠造”星际之门”:5千兆瓦算力熔炉重塑AI文明: 地缘算力篇 当全球科技巨头…

小智头像图片
71
发表评论
暂无评论

还没有评论呢,快来抢沙发~

助力原创内容

快速提升站内名气成为大牛

扫描二维码

手机访问本站

二维码
vip弹窗图片