SpaCy

bibliothèque logicielle de traitement automatique du langage naturel

SpaCy est une bibliothèque logicielle Python de traitement automatique des langues.

SpaCy
Description de l'image SpaCy logo.svg.

Informations
Développé par Matt Honnibal (d)Voir et modifier les données sur Wikidata
Première version Voir et modifier les données sur Wikidata
Dernière version 3.7.5 ()[1]Voir et modifier les données sur Wikidata
Dépôt github.com/explosion/spaCyVoir et modifier les données sur Wikidata
Écrit en PythonVoir et modifier les données sur Wikidata
Type Natural language processing software (d)
Research tool (d)Voir et modifier les données sur Wikidata
Licence Licence MITVoir et modifier les données sur Wikidata
Site web spacy.ioVoir et modifier les données sur Wikidata

Histoire

spaCy a été lancé en 2015 par Explosion, une société fondée par Matthew Honnibal et Ines Montani. Son développement a été motivé par le besoin d'une bibliothèque NLP moderne qui pourrait fonctionner efficacement en production, contrairement aux outils académiques disponibles à l'époque. Depuis sa création, spaCy a évolué grâce à une communauté active et de nombreuses contributions, devenant l'une des bibliothèques NLP les plus populaires[2].

Principales fonctionnalités

Les principales fonctionnalités de spaCy sont[3] :

  • tokenisation, divise le texte en unités de base (tokens) comme les mots, les ponctuations ;
  • lemmatisation, réduit les mots à leur forme de base ou lemme ;
  • part-of-Speech (POS) Tagging, identifie les catégories grammaticales de chaque mot (nom, verbe, adjectif)  ;
  • reconnaissance d'entités nommées (NER) : détecte et classifie les entités nommées dans un texte (personnes, organisations, lieux) ;
  • parsing dépendanciel : analyse la structure grammaticale des phrases et établit les relations entre les mots ;
  • vecteurs de mots : utilise des modèles de vecteurs de mots (word vectors) pour capturer les similarités sémantiques entre les mots ;
  • pipeline de traitement : spaCy permet de construire des pipelines de traitement personnalisés en ajoutant ou en modifiant des composants ;
  • support multilingue : prend en charge plusieurs langues avec des modèles pré-entraînés.

Notes et références

  1. « Release 3.7.5 », (consulté le )
  2. Conor McDonald, « A short introduction to NLP in Python with spaCy », sur Towards data science, (consulté le ).
  3. Benoît Prieur, Traitement automatique du langage naturel avec Python : Le NLP avec spaCy et NLTK, Éditions ENI, , 277 p. (ISBN 2-409-04498-0) .

Bibliographie

  • Benoît Prieur, Traitement automatique du langage naturel avec Python : Le NLP avec spaCy et NLTK, Éditions ENI, , 277 p. (ISBN 2-409-04498-0) 
  • Constance-Louise Gauriau et Benoît Prieur, « Introduction au TALN (Traitement Automatique du Langage Naturel) avec spaCy », Programmez!, no 244,‎ , p. 75-79 (ISSN 2729-5001, BNF 38522176) 

Articles connexes

Liens externes