腾讯混元大模型:130亿参数开源视频生成模型惊艳亮相
摘要:
...
腾讯混元大模型近期正式上线视频生成能力,并在腾讯元宝APP开放试用,企业客户也可通过腾讯云接入API。该模型参数量达130亿,是目前参数量最大的开源视频生成模型之一。
混元视频生成模型支持中文和英文输入,可生成5秒钟的视频,涵盖写实、动画、电影、黑白、赛博朋克等多种风格。用户可以通过指令功能精确调整景别、光线、镜头运动等细节。
该模型的优势在于:超写实风格和细节处理能力;强大的语义理解能力,能够准确理解多元化指令;流畅的多镜头转换,增强视频叙事性;以及连续动作生成的强大能力,即使在多主体、大幅度运动场景下也能保持动作连贯,主体一致。
混元采用自研3D视觉编码器和先进的图像视频混合VAE技术,优化了编码器训练算法,提升了细节呈现能力,尤其在小人脸和高速动作场景中表现突出。
在实际测试中,混元展现出优秀的语义理解能力,能够根据提示词生成符合要求的视频画面,即使是复杂场景或多人物互动,也能准确捕捉人物表情和动作细节,保持画面流畅自然。其镜头转换功能也十分出色,能够实现不同镜头间的自然切换,并保持主体一致性,展现出专业的“导演模式”。
此外,混元在连续动作生成方面也表现不俗,能够生成包含多个连续动作的视频,例如滑雪、狗狗与人的互动等场景,展现出强大的时空建模能力。
目前,混元视频生成模型的画质支持720P,并提供每日6次免费试用机会。
发表评论