字节跳动开源Lance：30亿参数统一多模态模型，图文视频生成理解一体化

字节跳动近日开源了统一多模态模型 Lance，该模型参数量为30亿（3B），能够在单一框架内完成图像理解、图像生成、图像编辑、视频理解以及视频生成等任务。

核心能力

Lance 的定位为“原生统一多模态模型”，即在一个模型内实现多模态输入与输出的统一处理。根据项目文档，该模型在以下任务上提供了支持：

t2i：文本到图像生成
t2v：文本到视频生成
image_edit：图像编辑
video_edit：视频编辑
x2t_image：图像到文本理解
x2t_video：视频到文本理解

训练与硬件

Lance 基于分阶段多任务训练流程（staged multi-task recipe）从零构建。除了视觉Transformer（ViT）和变分自编码器（VAE）编码器之外，主干网络完全从零开始训练。整个训练过程使用了约128张NVIDIA A100 GPU。推理阶段需要至少40GB显存的GPU。

获取与运行

模型检查点可通过Hugging Face 下载。项目提供了统一的命令行接口 inference_lance.sh，用户可配置任务类型（TASK_NAME）、模型路径、分辨率、帧数等参数后运行推理。软件依赖Python 3.10+ 和CUDA 12.4+。项目同时提供了Gradio交互界面脚本以及多组benchmark评估脚本。

编注：转译自GitHub项目文档，系源码级说明而非新闻报道。材料提供任务列表与技术规格，未含性能对比数据或应用场景案例。信源为官方repo，时效以发布时间为准。