Les réseaux de neurones convolutifs sont utilisés pour les voitures autonomes, les caméras intelligentes et les smartphones en raison de leurs performances impressionnantes. Cependant, le déploiement de ces modèles sur des systèmes embarqués présente des limites. Les couches convolutionnelles et les couches fortement connectées ont des millions de paramètres et sont coûteuses en calcul. Il est donc impératif de compresser ces couches. De nombreux travaux ont proposé des techniques de compression telles que, par exemple, l'élagage, la quantification et le calcul matriciel optimisé. Cet article présente l'état de l'art dans la compression des réseaux de neurones profonds. Il propose également une étude numérique sur l'efficacité de la quantification uniforme et non-uniforme afin de réduire la taille des réseaux de neurones.