字节跳动开源Lance:30亿参数统一多模态模型,图文视频生成理解一体化

字节跳动开源Lance:30亿参数统一多模态模型,图文视频生成理解一体化

_

字节跳动近日开源了统一多模态模型 Lance,该模型参数量为30亿(3B),能够在单一框架内完成图像理解、图像生成、图像编辑、视频理解以及视频生成等任务。

核心能力

Lance 的定位为“原生统一多模态模型”,即在一个模型内实现多模态输入与输出的统一处理。根据项目文档,该模型在以下任务上提供了支持:

  • t2i:文本到图像生成
  • t2v:文本到视频生成
  • image_edit:图像编辑
  • video_edit:视频编辑
  • x2t_image:图像到文本理解
  • x2t_video:视频到文本理解

训练与硬件

Lance 基于分阶段多任务训练流程(staged multi-task recipe)从零构建。除了视觉Transformer(ViT)和变分自编码器(VAE)编码器之外,主干网络完全从零开始训练。整个训练过程使用了约128张NVIDIA A100 GPU。推理阶段需要至少40GB显存的GPU。

获取与运行

模型检查点可通过Hugging Face 下载。项目提供了统一的命令行接口 inference_lance.sh,用户可配置任务类型(TASK_NAME)、模型路径、分辨率、帧数等参数后运行推理。软件依赖Python 3.10+ 和CUDA 12.4+。项目同时提供了Gradio交互界面脚本以及多组benchmark评估脚本。

编注:转译自GitHub项目文档,系源码级说明而非新闻报道。材料提供任务列表与技术规格,未含性能对比数据或应用场景案例。信源为官方repo,时效以发布时间为准。


SBCL 内联汇编实战:环形寄存器栈的 VM 实现 2026-05-20
Intuit裁减17%员工约3000人 欲简化架构全力押注AI 2026-05-21