En vision par ordinateur, l'estimation de pose de caméra à partir de correspondances entre des entités géométriques 3D et leurs projections dans l'image est un problème largement étudié. Alors que la plupart des méthodes de l'état de l'art exploitent des primitives simples comme des points ou des droites, et nécessitent donc des modèles de scène relativement denses, les performances atteintes dernièrement par les détecteurs d'objets à base de réseaux de neurones convolutifs permettent d'envisager l'utilisation de modèles 3D beaucoup plus légers, composés seulement de quelques éléments sémantiquement pertinents. Dans ce contexte, nous proposons une nouvelle approche basée modèle pour l'estimation de pose de caméra, dans laquelle la scène est représentée par un ensemble d'ellipsoïdes. Nous montrons qu'il est possible d'optimiser uniquement les trois paramètres d'orientation de la caméra pour résoudre le problème, et que deux correspondances entre ellipses 2D et ellipsoïdes 3D sont nécessaires en pratique.