Aller au contenu

ImageNet

Un article de Wikipédia, l'encyclopédie libre.
ImageNet
Typologie
Producteur
ImageNet
Décrit par
ImageNet: A large-scale hierarchical image database (d)Voir et modifier les données sur Wikidata
Diffusion
Licence
BSD-3-Clause
Site web

ImageNet est une base de données d'images annotées produit par l'organisation du même nom, à destination des travaux de recherche en vision par ordinateur.

En 2016, plus de dix millions d'URLs ont été annotées à la main pour indiquer quels objets sont représentés dans l'image ; plus d'un million d'images bénéficient en plus de boîtes englobantes autour des objets. La base de données d'annotations sur des URL d'images tierces est disponible librement, ImageNet ne possédant cependant pas les images elles-mêmes.

De 2010 à 2017, le projet ImageNet a organisé un concours annuel : ImageNet Large Scale Visual Recognition Challenge (ILSVRC), ou « Compétition ImageNet de Reconnaissance Visuelle à Grande Échelle ». Elle consistait en une compétition logicielle dont le but était de détecter et classifier précisément des objets et des scènes dans les images naturelles.

Évolution du taux d'erreur du concours sur ImageNet (meilleurs résultats par équipe et par 10 entrées par an).

La chercheuse Fei-Fei Li a commencé a travailler sur l'idée du dataset ImageNet en 2006. Alors que les chercheurs travaillent à améliorer les modèles et les algorithmes, Li décide d'augmenter et d'améliorer les données disponibles pour entraîner les algorithmes d'apprentissage automatique[1]. En 2007, Fei-Fei Li rencontre Christiane Fellbaum (en), professeure à l'Université de Princeton et une des créatrices de WordNet pour discuter du projet. À la suite de cette rencontre, Li construit ImageNet à partir de la base lexicale WordNet, en ré-utilisant plusieurs de ses caractéristiques[2].

La base de données ImageNet a été présentée pour la première fois lors des sessions de présentation de posters en 2009 à la Conférence sur la Vision par Ordinateur et Reconnaissance de formes (CVPR) en Floride, par des chercheurs du département d'Informatique à l'Université de Princeton[2],[3].

Le jeu de données

[modifier | modifier le code]

ImageNet utilise la production participative dans son processus d'annotation. L'annotation à l'échelle de l'image indique la présence ou l'absence d'une classe d'objet dans celle-ci, par exemple « il y a des tigres dans cette image » ou « il n'y a pas de tigres dans cette image ». Pour l'annotation d'objets, il s'agit de fournir une boîte englobante autour de l'objet ou de sa partie visible. ImageNet utilise une variante de la structure WordNet de catégorisation d'objets, augmentée de 120 catégories de races de chiens, afin de présenter la classification sémantique fine[4].

Le jeu de données ImageNet le plus utilisé, ILSVRC 2012-2017, est composé d'environ 1.5 million d'images, réparties en environ 90 % d'images d'entraînement, 3 % de validation et 7 % de test[5].

La compétition ILSVRC

[modifier | modifier le code]

Lancée en 2010, ILSVRC est une compétition annuelle où des équipes de recherche évaluent leurs algorithmes de traitement d'images sur le jeu de données ImageNet (un jeu de validation non accessible). Elles concourent pour la meilleure précision sur plusieurs tâches de vision par ordinateur.

L'ILSVRC s'inspire du challenge à plus petite échelle PASCAL VOC (créé en 2005 et qui ne contient qu'environ 20 000 images et une vingtaine de classes d'objets.

Les années 2010 ont vu des progrès spectaculaires dans le domaine du traitement d'images. En 2011, les plus faibles taux d'erreur de classification de la compétition ILSVRC étaient d'environ 25 %. En 2012, l'apprentissage profond permet de faire baisser ce record à 16 %, et les deux années suivantes ce taux tombe à quelques pourcents[6]. En 2015, les chercheurs[Qui ?] estiment que les algorithmes dépasseront bientôt les performances des humains sur les tâches du challenge ILSVRC[7]. Cependant, comme l'un des organisateurs du défi, Olga Russakovsky, l'a souligné en 2015, les algorithmes en compétition n'ont qu'à discriminer un nombre de classes de l'ordre du millier, alors que les humains peuvent en discriminer bien plus. De plus, l'opérateur humain peut comprendre facilement le contexte d'une image, ce qui n'est pas le cas des solutions automatisées[8].

En 2014, plus de cinquante institutions ont participé à la compétition ILSVRC.

En 2015, des scientifiques de Baidu ont été bannis un an pour l'utilisation de comptes multiples afin de dépasser très largement la valeur limite de deux soumissions par semaine[9],[10]. Baidu a déclaré plus tard que le chef de l'équipe impliquée a été destitué et qu'il mettrait en place un groupe de conseil scientifique[11].

La dernière édition du défi ILSRVC eut lieu en 2017[12] mais le jeu de données continue à être utilisé dans de nombreux projets, comme principal benchmark des algorithmes développés[13] ou encore comme exemple des biais dans les données utilisées en apprentissage automatique[14].

Notes et références

[modifier | modifier le code]
  1. Jesse Hempel, « Fei-Fei Li's Quest to Make AI Better for Humanity », Wired,‎ (lire en ligne, consulté le ).
  2. a et b (en) Dave Gershgorn, « The data that transformed AI research—and possibly the world », sur Quartz, Atlantic Media Co., (consulté le ).
  3. Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li et Li Fei-Fei, 2009 conference on Computer Vision and Pattern Recognition, .
  4. Olga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg and Li Fei-Fei. (* = equal contribution) ImageNet Large Scale Visual Recognition Challenge.
  5. « ImageNet », sur www.image-net.org (consulté le ).
  6. (en) Martin Robbins, « Does an AI need to make love to Rembrandt's girlfriend to make art? », The Guardian,‎ (lire en ligne, consulté le ).
  7. (en) John Markoff, « A Learning Advance in Artificial Intelligence Rivals Human Abilities », The New York Times,‎ (lire en ligne, consulté le ).
  8. (en) Jacob Aron, « Forget the Turing test – there are better ways of judging AI », New Scientist,‎ (lire en ligne, consulté le ).
  9. (en) John Markoff, « Computer Scientists Are Astir After Baidu Team Is Barred From A.I. Competition », The New York Times,‎ (lire en ligne, consulté le ).
  10. (en) « Chinese search giant Baidu disqualified from AI test », BBC News,‎ (lire en ligne, consulté le ).
  11. (en) « Baidu fires researcher involved in AI contest flap », PCWorld,‎ (lire en ligne, consulté le ).
  12. « Beyond ILSVRC workshop 2017 », sur image-net.org (consulté le ).
  13. (en) « Papers with Code - ImageNet Benchmark (Image Classification) », sur paperswithcode.com (consulté le ).
  14. Bastien L., « ImageNet Roulette : découvrez à quel stéréotype l’IA vous associe », sur LeBigData.fr, (consulté le ).