cogvlm-base-490-hf icon

cogvlm-base-490-hf

打开

CogVLM 是一个强大的开源视觉语言模型(VLM)。

CogVLM 是一个强大的开源视觉语言模型(VLM),以其卓越的能力在多个跨模态基准测试中表现出色。CogVLM-17B 模型结合了 100 亿视觉参数和 70 亿语言参数,在 10 个经典的跨模态基准上达到了最先进的性能水平,包括 NoCaps、Flicker30k captioning 和 GQA 等。该模型在 VQAv2、OKVQA、TextVQA 等方面也表现不俗,通常位于排名前列,与其他顶尖模型如 PaLI-X 55B 不相上下。使用者可通过线上 demo 深入体验 CogVLM 的多模态对话能力,无论是在学术研究还是实际应用中,这一模型都展现出了广泛的适用可能性。CogVLM 的发布为开源社区提供了一个强有力的工具,推动了视觉与语言结合的研究和应用发展。

基本信息

数据统计

  • 月访问量245
  • 域名评分91
  • 权威分数90