What is contrastive vision-language pretraining (CLIP-style models)?

Updated May 15, 2026

Short answer

CLIP learns joint embeddings for images and text using contrastive learning.

Deep explanation

CLIP trains two encoders (image and text) to map inputs into a shared embedding space. It uses contrastive loss to maximize similarity of correct image-text pairs while minimizing similarity of incorrect pairs. This enables zero-shot classification, retrieval, and cross-modal reasoning without task-specific training.

Unlock with a Pro subscription to view this section.

View pricing