CogVLM 是一个强大的开源视觉语言模型(VLM)。
一个开源的视觉语言(VL)模型,旨在用于现实世界的视觉和语言理解应用。
LLaVA-NeXT 模型在 LLaVA-NeXT 中提出,旨在改善推理能力、OCR 和世界知识。
Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。