cogvlm-base-490-hf

CogVLMは、優れた能力を持つ強力なオープンソースの視覚言語モデル（VLM）であり、数々のクロスモーダルベンチマークで優れたパフォーマンスを発揮しています。CogVLM-17Bモデルは、100億の視覚パラメータと70億の言語パラメータを組み合わせ、NoCaps、Flicker30kキャプショニング、GQAなどの10の古典的なクロスモーダルベンチマークで最先端のパフォーマンスレベルを達成しています。また、VQAv2、OKVQA、TextVQAなどの分野でも優れたパフォーマンスを示し、他のトップモデルであるPaLI-X 55Bと肩を並べています。ユーザーはオンラインデモを通じてCogVLMの多モーダル対話能力を深く体験することができ、学術研究や実際のアプリケーションの両方においてこのモデルは広範な適用可能性を示しています。CogVLMの公開はオープンソースコミュニティに強力なツールを提供し、視覚と言語の統合研究と応用の発展を促進します。

基本情報

データ統計

カテゴリとタグ