CogVLM 是一个强大的开源视觉语言模型(VLM),以其卓越的能力在多个跨模态基准测试中表现出色。CogVLM-17B 模型结合了 100 亿视觉参数和 70 亿语言参数,在 10 个经典的跨模态基准上达到了最先进的性能水平,包括 NoCaps、Flicker30k captioning 和 GQA 等。该模型在 VQAv2、OKVQA、TextVQA 等方面也表现不俗,通常位于排名前列,与其他顶尖模型如 PaLI-X 55B 不相上下。使用者可通过线上 demo 深入体验 CogVLM 的多模态对话能力,无论是在学术研究还是实际应用中,这一模型都展现出了广泛的适用可能性。CogVLM 的发布为开源社区提供了一个强有力的工具,推动了视觉与语言结合的研究和应用发展。
cogvlm-base-490-hf
CogVLM 是一个强大的开源视觉语言模型(VLM)。
基本信息
- 网站https://huggingface.co/deepseek-ai/deepseek-vl-7b-base
- 社交媒体
- 发布日期2024-12-03
数据统计
- 月访问量245
- 域名评分91
- 权威分数90