社内エンジニア・リサーチャー勉強会の発表資料「LLaVA」を公開しました! 画像エンコーダとLLMを組み合わせることで、画像とテキストの処理を行う、大規模マルチモーダルモデルのLLaVAとその後続モデル(LLaVA-1.5〜LLaVA-One...
社内エンジニア・リサーチャー勉強会の発表資料「LLaVA」を公開しました! 画像エンコーダとLLMを組み合わせることで、画像とテキストの処理を行う、大規模マルチモーダルモデルのLLaVAとその後続モデル(LLaVA-1.5〜LLaVA-OneVision)について紹介しています。 This introduces LLaVA, a large-scale multimodal model that processes images and text by combining an image encoder with an LLM, along with its subsequent models (LLaVA-1.5 to LLaVA-OneVision).