字节跳动近日开源了统一多模态模型 Lance,该模型参数量为30亿(3B),能够在单一框架内完成图像理解、图像生成、图像编辑、视频理解以及视频生成等任务。
核心能力
Lance 的定位为“原生统一多模态模型”,即在一个模型内实现多模态输入与输出的统一处理。根据项目文档,该模型在以下任务上提供了支持:
- t2i:文本到图像生成
- t2v:文本到视频生成
- image_edit:图像编辑
- video_edit:视频编辑
- x2t_image:图像到文本理解
- x2t_video:视频到文本理解
训练与硬件
Lance 基于分阶段多任务训练流程(staged multi-task recipe)从零构建。除了视觉Transformer(ViT)和变分自编码器(VAE)编码器之外,主干网络完全从零开始训练。整个训练过程使用了约128张NVIDIA A100 GPU。推理阶段需要至少40GB显存的GPU。
获取与运行
模型检查点可通过Hugging Face 下载。项目提供了统一的命令行接口 inference_lance.sh,用户可配置任务类型(TASK_NAME)、模型路径、分辨率、帧数等参数后运行推理。软件依赖Python 3.10+ 和CUDA 12.4+。项目同时提供了Gradio交互界面脚本以及多组benchmark评估脚本。
编注:转译自GitHub项目文档,系源码级说明而非新闻报道。材料提供任务列表与技术规格,未含性能对比数据或应用场景案例。信源为官方repo,时效以发布时间为准。