Copyright 2018-2025 报纸迷 版权所有 京ICP备2018136890号
刚刚,文心5.0正式发布了!
全新一代主打原生全模态,最开始就把语言/图像/视频/音频放在同一套自回归统一架构里,做统一的理解与生成训练。
所以,最终模型能够做到支持全模态输入(文字/图片/音频/视频)+全模态输出(文字/图片/音频/视频),创意写作、指令遵循、智能体规划方面也更强了。

在官方展示中,上传一个电影片段,它立马就能分析出最紧张的情节,具体到第几秒到第几秒的那种。

同时上传一段视频和一段音频,就能让它指出视频里是否有用到音频里的音乐,还能说出节点:

做音视频融合生成也行,简单操作即可爆改甄嬛传滴血认亲(佟掌柜版):
