Compression des réseaux de neurones profonds à base de quantification uniforme et non-uniforme
Diana Resmerita  1, 2@  , Rodrigo Cabral Farias  2@  , Benoît Dupont De Dinechin  1@  , Lionel Fillatre  2@  
1 : Kalray
Kalray
2 : Laboratoire dÍnformatique, Signaux, et Systèmes de Sophia Antipolis
Université Nice Sophia Antipolis, Centre National de la Recherche Scientifique

Les réseaux de neurones convolutifs sont utilisés pour les voitures autonomes, les caméras intelligentes et les smartphones en raison de leurs performances impressionnantes. Cependant, le déploiement de ces modèles sur des systèmes embarqués présente des limites. Les couches convolutionnelles et les couches fortement connectées ont des millions de paramètres et sont coûteuses en calcul. Il est donc impératif de compresser ces couches. De nombreux travaux ont proposé des techniques de compression telles que, par exemple, l'élagage, la quantification et le calcul matriciel optimisé. Cet article présente l'état de l'art dans la compression des réseaux de neurones profonds. Il propose également une étude numérique sur l'efficacité de la quantification uniforme et non-uniforme afin de réduire la taille des réseaux de neurones.


Personnes connectées : 1