Tag: MultiModal | Zhangzhe's Blog

0%

MultiModal Tag

2025

01-14

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

2024

10-11

LLaVA: Visual Instruction Tuning

10-11

Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

10-11

CLIP: Learning Transferable Visual Models From Natural Language Supervision