Liste Swadesh

La liste Swadesh est une liste de mots appartenant à une partie du lexique la plus résistante au changement, établie par le linguiste et anthropologue américain Morris Swadesh, dans les années 1940-1950. Elle est utilisée en linguistique comparée, en linguistique historique et aussi en anthropologie pour notamment identifier le lexique de base de toute langue étudiée pour la première fois, ainsi qu'établir le degré de proximité de deux ou plusieurs langues.

Établissement de la liste

Swadesh étudia de nombreuses langues, surtout une vingtaine de langues amérindiennes du Canada, des États-Unis et du Mexique. Devant faire des recherches sur des langues presque éteintes, avec des moyens limités, il éprouva le besoin d’une procédure standardisée pour rassembler des données essentielles concernant la parenté entre langues. À cet effet, il créa une liste de mots selon le postulat suivant :

Bien que des mots disparaissent de toute langue, étant remplacés par d’autres au cours du temps, certaines parties du lexique sont moins exposées au changement que d’autres. C’est pourquoi on peut définir un lexique de base se rapportant à des notions véhiculées dans toutes les langues. Les pronoms, les numéraux, certains adjectifs (« grand », « petit », « long », « court »), certains termes désignant des degrés de parenté (« mère », « père »), des parties du corps (« œil », « oreille », « tête »), des événements ou des objets naturels (« pluie », « pierre », « étoile »), des états et des actions élémentaires (« voir », « entendre », « venir », « donner ») sont peu sujets au remplacement par des emprunts.

Par exemple, le lexique général de l’anglais est emprunté à 50 % environ, mais ce pourcentage diminue à 6 % pour ce qui est du lexique de base. Ainsi, dans la liste Swadesh de 100 mots de l’anglais, il n’y a qu’un seul mot qui ne provienne pas du lexique de base proto-germanique (mountain – « montagne », d’origine française, introduit par les Normands). Un autre exemple est celui de l’albanais et du grec moderne. L’albanais a perdu 90 % de ses mots propres d’origine indo-européenne, beaucoup plus que le grec, mais si l’on considère la liste Swadesh de 100 mots, le pourcentage de pertes est à peu près égal pour les deux langues (25 à 26 %).

Pour créer sa liste, Swadesh a choisi un lexique de base que l’on retrouve dans le plus de langues possible, le plus indépendant possible de l’environnement naturel et de la culture locale. Il a commencé par une liste de 225 mots^[1], qu’il a réduite plus tard à 215^[2], puis à 200^[3], arrivant finalement à une variante de 100 mots^[4]. On utilise fréquemment une liste de 207 mots, formée de la liste de 200, plus sept de la liste de 100 absents de celle de 200^[5].

Utilisation

Mesure du degré de parenté de deux langues

Swadesh a utilisé sa liste pour mesurer la ressemblance, c’est-à-dire le degré de parenté de deux langues, par la méthode quantitative de la lexicostatistique, en établissant le pourcentage de mots d’origine commune. Plus la ressemblance entre les lexiques des deux langues est grande, plus elles sont proches génétiquement, et plus le temps écoulé depuis le moment où elles se sont séparées est court. Selon lui, si le lexique de base de deux langues contient des mots apparentés à raison de 70 %, on peut considérer qu’elles ont évolué à partir d’une même langue. Si ce pourcentage dépasse 90 %, alors ces langues sont des parentes proches.

Établir le degré de proximité de deux ou plusieurs langues données permet ensuite d'établir, à partir d’une matrice de ressemblances quantitativement pertinentes, un dendrogramme à portée phénétiques ou cladistiques des langues comparées. L'élicitation des concepts de la liste dans un ensemble précis de langues permet donc de mesurer les distances interlinguistiques à des fins phylogénétiques.

Datation des langues d’origine (la glottochronologie)

Dans ce but, Swadesh a pris comme postulat que le taux de perte du lexique de base initial ne change pratiquement pas, les mots étant remplacés à un rythme à peu près constant, alors que dans le cas du reste du lexique, qui est étroitement lié à des facteurs culturels, le taux de perte variant en fonction des contacts que les locuteurs ont eu avec des cultures qui leur sont étrangères. À cause de ce postulat, la méthode de datation des langues proposée par Swadesh fut comparée à la détermination de l’âge des fossiles à partir de la désintégration radioactive du carbone 14, qui est constante.

À la suite d’une recherche sur treize langues (indo-européennes pour la plupart) qui ont des attestations écrites sur une longue période, à partir de la liste Swadesh de 100 mots, on a calculé un taux de conservation de 86 % sur une période de 1 000 ans, qu’on a considéré comme constant et généralisé à toutes les langues.

Étant donné le pourcentage de mots d’origine commune et le taux de conservation du lexique de base sur 1 000 ans, le temps écoulé depuis la séparation de deux langues qui résultent d’une même langue d’origine peut être déterminé, avec une marge d’erreur calculable, selon la formule :

t = (log c) / (2 log r),

où c est le pourcentage de mots d’origine commune et r – le taux de conservation.

Par exemple, si le lexique de base de deux langues est apparenté à 70 %, alors on peut considérer qu’elles ont évolué à partir d’une même langue qui a existé douze siècles auparavant.

Discussions sur la pertinence de la liste

L’utilisation de la liste Swadesh fut contestée dès le début. On lui oppose les objections suivantes :

Le lexique de base n’est pas exempt d’emprunts de manière égale dans toutes les cultures. Par exemple, un objet naturel comme le soleil peut tenir du lexique religieux (tel est le cas en Asie du Sud) et, de ce fait, sa dénomination est empruntée. Par ailleurs, des mots du lexique de base peuvent devenir tabous et être remplacés par d’autres, d’une langue voisine, pour compenser l’interdiction. Le lexique de base n’est pas indépendant non plus du statut socio-culturel des locuteurs. Dans les langues dravidiennes, par exemple, dans le lexique de base, il y a relativement beaucoup d’emprunts au sanskrit, d’autant plus que le locuteur est plus instruit^[6].
Certains mots ne se retrouvent pas dans toutes les langues, à cause de spécificités de l’environnement naturel, par exemple du climat^[7]. Ainsi, les mots « neige » et « glace » sont-ils absents des langues des tropiques. Dans la liste de 207 mots il y a, de plus, des mots qui ne se retrouvent pas dans toutes les langues pour des raisons culturelles (Swadesh lui-même a réduit sa liste à cent mots).
Un mot peut avoir pour correspondant dans une autre langue non pas un mot, mais plusieurs mots, voire des affixes, parmi lesquels il faut choisir, ce qui rend plus arbitraire la comparaison des langues^[8].
Il est fort peu probable que le taux de conservation soit constant pour toutes les langues et à toutes les époques^[7]. Dans des conditions particulières qui tiennent de l’isolement du groupe de locuteurs, de sa cohésion sociale, de l’éventuelle observation d’une norme littéraire ou religieuse, ce taux peut varier considérablement^[9]. Un exemple d’Europe est celui de l’islandais, langue d’une stabilité exceptionnelle, ce qui invalide partiellement la méthode, infirmant son universalité. En effet, le taux de perte de l’islandais n’est que de 4 %, alors que celui du norvégien littéraire est de 20 %, bien que ces deux langues soient très proches génétiquement l’une de l’autre^[10].
L’identification des mots apparentés est problématique. Lorsqu’on applique la technique de la lexicostatistique, à défaut d’une autre possibilité, sur une aire géographique très étendue et sur des centaines de langues pour lesquelles l’information est très lacunaire, les descriptions étant partielles et récentes, il est impossible, faute de matière première, d’établir les lois des changements phonétiques. De ce fait, l’élimination du lexique emprunté, qui devrait se fonder sur la connaissance de ces lois, est très difficile. Par conséquent, l’identification du lexique réellement apparenté et, donc, hérité en parallèle, est problématique.
L’identification des mots apparentés est en général aléatoire^[9]. Des mots très différents peuvent avoir la même origine, par exemple le mot français « chef » (au sens premier de « tête ») et le mot anglais head « tête ». Les deux proviennent de la racine indo-européenne *kauput-, *kaput-^[11]^,^[12]. En revanche, des mots qui se ressemblent peuvent ne pas être directement apparentés, par exemple le mot latin dies et l’anglais day, les deux signifiant « jour ». Le mot latin a pour origine *dyḗws « ciel »^[13], et l’anglais – *dʰegʷh- « brûler, brûlant »^[14]. Un autre exemple de ressemblance sans fondement est le latin habere et l’allemand haben « avoir ». L’origine du mot latin est *gʰh₁bʰ- « prendre »^[15] et celle du mot allemand – *keh₂p- « saisir, attraper »^[16].

Malgré les objections, on reconnaît que la liste Swadesh et la lexicostatistique peuvent servir pour les investigations linguistiques de base, dans les situations où ni les techniques comparatives classiques ni la reconstitution interne ne sont praticables, ce qui était d’ailleurs l’idée de départ de Swadesh^[7], ou comme simple outil de classification génétique préliminaire en anthropométrie^[17]^,^[18].

Un exemple d’une telle situation est celui où l’on ne dispose que de listes incomplètes de lexique, comme dans le cas de groupes de langues très grands, récemment attestées, telles les langues austronésiennes (1 000 environ) ou celles des aborigènes d'Australie (autour de 250). Pour de telles langues, la liste Swadesh peut être utilisée pour faire une première ébauche de leur répartition en groupes et sous-groupes, servant de point de départ pour une investigation historique à part entière, qui continue les classements et les reconstitutions.

Développements de la liste Swadesh

À partir des mêmes principes, d’autres linguistes ont à leur tour élaboré des listes de lexique de base, en éliminant des mots de la liste Swadesh et en introduisant d’autres mots et/ou sens. Un exemple est la liste de 114 sens proposée par une équipe de l’Université russe d’État de sciences humaines^[19], qui se trouve à la base du projet Global Lexicostatistical Database (Base de données lexicostatistique globale) (GDL)^[20]. Une autre base de données de ce genre est Indo-European Lexical Cognacy Database (Base de données de mots apparentés indo-européens), à laquelle travaille une équipe de l’Institut de psycho-linguistique Max-Planck de Nimègue (Pays-Bas)^[21], à partir d’une liste de 200 mots proposée par Isidore Dyen^[22].

Liste Swadesh de 207 mots du français

Les mots en gras figurent également dans la liste de 100 mots.

je
tu, vous (formel)
il
nous
vous (pluriel)
ils
ceci, celui-ci
cela, celui-là
ici
là
qui
quoi
où
quand
comment
ne ... pas
tout
beaucoup
quelques
peu
autre
un
deux
trois
quatre
cinq
grand
long
large
épais
lourd
petit
court
étroit
mince
femme
homme (mâle adulte)
homme (être humain)
enfant
femme (épouse)
mari
mère
père
animal
poisson
oiseau
chien
pou
serpent
ver
arbre
forêt
bâton
fruit
graine
feuille (d'un végétal)
racine
écorce
fleur
herbe
corde
peau
viande
sang
os
graisse
œuf
corne
queue (d'un animal)
plume (d'un oiseau)
cheveux
tête
oreille
œil
nez
bouche
dent
langue (organe)
ongle
pied
jambe
genou
main
aile
ventre
entrailles, intestins
cou
dos
poitrine
cœur (organe)
foie
boire
manger
mordre
sucer
cracher
vomir
souffler
respirer
rire
voir
entendre
savoir
penser
sentir (odorat)
craindre
dormir
vivre
mourir
tuer
se battre
chasser (le gibier)
frapper
couper
fendre
poignarder
gratter
creuser
nager
voler (dans l'air)
marcher
venir
s'étendre, être étendu
s'asseoir, être assis
se lever, se tenir debout
tourner (intransitif)
tomber
donner
tenir
serrer, presser
frotter
laver
essuyer
tirer
pousser
jeter, lancer
lier
coudre
compter
dire
chanter
jouer (s'amuser)
flotter
couler (liquide)
geler
gonfler (intransitif)
soleil
lune
étoile
eau
pluie
rivière
lac
mer
sel
pierre
sable
poussière
terre (sol)
nuage
brouillard
ciel
vent
neige
glace
fumée
feu
cendre
brûler (intransitif)
route
montagne
rouge
vert
jaune
blanc
noir
nuit
jour
an, année
chaud (température)
froid (température)
plein
nouveau
vieux
bon
mauvais
pourri
sale
droit (rectiligne)
rond
tranchant
émoussé
lisse
mouillé, humide
sec
juste, correct
près
loin
droite
gauche
à
dans
avec (ensemble)
et
si (condition)
parce que
nom

Notes et références

↑ Swadesh 1950, p. 161.
↑ Swadesh 1952, p. 456-457.
↑ Swadesh 1955.
↑ Swadesh 1971, p. 283.
↑ ComparaLex.
↑ Sjoberg 1956.
↑ ^{a b et c} Strazny 2005.
↑ Hoijer 1956, p. 53.
↑ ^{a et b} Kálmán 2007, p. 118.
↑ Bergsland 1962.
↑ Wiktionary, article chef.
↑ Wiktionary, article head.
↑ Wiktionary, article dies
↑ Wiktionary, article day.
↑ Wiktionary, article habeo
↑ Wiktionary, article haben.
↑ (en) J. Vansina, « New linguistic evidence and the Bantu expansion », Journal of African History, 1995, vol. 36, n^o 2, p. 173-195
↑ (en) I. Ribot, « Differentiation of modern sub-Saharan African populations: craniometric interpretations in relation to geography and history », Bulletins et mémoires de la Société d’Anthropologie de Paris, vol. 16, n^os 3-4,‎ 2004 (lire en ligne)
↑ Kassian 2010.
↑ Global Lexicostatistical Database.
↑ Evolutionary Processes in Language and Culture (Processus d’évolution en langue et culture).
↑ Dyen 1992.

Voir aussi

Une catégorie est consacrée à ce sujet : Listes Swadesh dans Wikipédia.

Sur les autres projets Wikimedia :

Liste Swadesh, sur le Wiktionnaire

Bibliographie

(en) Bergsland, K. et Vogt, H., « On the validity of Glottochronology » [« Sur la validité de la glottochronologie »], Current Anthropology, n^o 3, p. 115-153
(en) Dyen, Isidore ; Kruskal, Joseph B. ; Black, Paul, « An Indoeuropean Classification: A Lexicostatistical Experiment » [« Classification indo-européenne. Expérience lexicostatistique »], Transactions of the American Philosophical Society, vol. 82, n^o 5, 1992
(en) Hoijer, Harry, « Lexicostatistics: A critique » [« Regard critique sur la lexicostatistique »], Language, n^o 32, 1956, p. 49-60 (consulté le 19 juin 2017)
(hu) Kálmán, László et Trón, Viktor, Bevezetés a nyelvtudományba [« Introduction à la linguistique »], 2^de édition, augmentée, Budapest, Tinta, 2007 (ISBN 978-963-7094-65-1) (consulté le 5 avril 2023)
(en) Kassian, Alexei et al., « The Swadesh wordlist. An attempt at semantic specification » [« La liste Swadesh. Essai de spécification sémantique »], Journal of Language Relationship, n^o 4, 2010, p. 46-89 (consulté le 19 juin 2017)
(en) Sjoberg, Andrée et Sjoberg, Gideon, « Problems in glottochronology », American Anthropologist, n^o 58 (2), p. 296-308 (consulté le 19 juin 2017)
(en) Strazny, Philipp, « Morris Swadesh: critical essay » [« Morris Swadesh: essai critique »], Strazny, Philipp (dir.), The Encyclopedia of Linguistics [« Encyclopédie de la linguistique »], New York, Fitzroy Dearborn, 2005 (consulté le 19 juin 2017)
(en) Swadesh, Morris, « Lexicostatistic dating of prehistoric ethnic contacts » [« Datation lexicostatistique des contacts ethniques préhistoriques »], Proceedings of the American Philosophical Society, n^o 96, p. 452-463
(en) Swadesh, Morris, « Salish internal relationships » [« Relations entre les langues salish »], International Journal of American Linguistics, n^o 16, p. 157-167
(en) Swadesh, Morris, « Towards greater accuracy in lexicostatistic dating » [« Vers une plus grande exactitude dans la datation lexicostatistique »], International Journal of American Linguistics, n^o 21, p. 121-137
(en) Swadesh, Morris, The Origin and Diversification of Language [« Origine et diversification de la langue »], édition post mortem de Joel Sherzer, Chicago, Aldine, 1971 (ISBN 0-202-01001-5)

Bibliographie supplémentaire

(en) Arndt, Walter W., « The performance of glottochronology in Germanic » [« Performance de la glottochronologie dans le domaine des langues germaniques »], Language, n^o 35, 1959, p. 180-192
(en) Bynon, Theodora, Historical Linguistics [« Linguistique historique »], Cambridge, Cambridge University Press, 1977, p. 266-272
(en) Callaghan, Catherine A., « Utian and the Swadesh list » [« Les langues miwok et la liste Swadesh »], Redden, J. E. (dir.), Papers for the American Indian language conference, held at the University of California, Santa Cruz, July and August, 1991, Occasional papers on linguistics, n^o 16, 1991, Carbondale, Department of Linguistics, Southern Illinois University, p. 218-237
Chaker, Salem, « Glottochronologie », Chaker, Salem (dir.) Encyclopédie berbère (consulté le 19 juin 2017)
(en) Crowley, Terry, An Introduction to Historical Linguistics [« Introduction à la linguistique historique »], Oxford University Press, 1992, p. 168-190
(en) Gudschinsky, Sarah C., « The ABC's of Lexicostatistics (Glottochronology) » [« Les ABC de la lexicostatistique (glottochronologie) »], Hymes, Dell H., Language in Culture and Society. A Reader in Linguistics and Anthropology [« Langue et culture dans la société. Guide de linguistique et d’anthropologie »], New York, Harper & Row, 1964, p. 612-623 (consulté le 19 juin 2017)
(en) Haarmann, Harald, « Basic vocabulary and language contacts; the disillusion of glottochronology » [« Lexique de base et contacts entre les langues ; la désillusion de la glottochronologie »], Indogermanische Forschungen, n^o 95, 1990, p. 1-37
(en) Hockett, Charles F., A course in modern linguistics [« Cours de linguistique moderne »], New York, Macmillan, 1958, chap. 6
(de) Holm, Hans J., « Genealogische Verwandtschaft » [« Parenté généalogique »], Köhler, R. ; G. Altmann ; R. Piotrowski (dir.), Quantitative Linguistik; ein internationales Handbuch [« Linguistique quantitative ; guide international »], Berlin, Walter de Gruyter, 2005, chap. 45
(en) Holm, Hans J., « The Proportionality Trap. Or: What is wrong with lexicostatistical Subgrouping » [« Le piège de la proportionnalité ou Qu’est-ce qui ne va pas dans la classification lexicostatistique »], Indogermanische Forschungen, n^o 108, 2003, p. 38-46
(en) Hymes, Dell H., « Lexicostatistics so far » [« La lexicostatistique jusqu’à présent »], Current Anthropology, n^o 1, 1960, p. 3-44
(en) Jeffers, Robert J. et Lehiste, Ilse, Principles and Methods for Historical Linguistics [« Principes et méthodes en linguistique historique »], Cambridge (Massachusetts) / Londres, The MIT Press, 1982, p. 133-137
(en) Lees, Robert, « The basis of glottochronology » [« Bases de la glottochronologie »], Language, vol. 29, n^o 2, p. 113-127
(en) Lehmann, Winfred P., Historical Linguistics: an Introduction [« Introduction à la linguistique historique »], Londres, Routledge, 1992, p. 175-182
(en) McMahon, April et McMahon, Robert, Language Classification by Numbers [« Classification des langues par les nombres »], Oxford, Oxford University Press, 2005
(en) McWhorter, John, The Power of Babel [« Le Pouvoir de Babel »], New York, Freeman, 2001
Métoz, Laurent, « La convergence pluridisciplinaire dans la recherche de l’origine des langues: l’exemple américain de la «Nouvelle Synthèse» – Aspects historiques, théoriques et étude critique », Marges linguistiques, n^o 11, 2006, p. 281-296
(en) Nettle, Daniel, « Linguistic diversity of the Americas can be reconciled with a recent colonization » [« La diversité linguistique des Amérique peut être réconciliée avec une colonisation récente »], PNAS, vol. 96, n^o 6 1999, p. 3325-3329 (consulté le 19 juin 2017)
Penchoen, Thomas-G., « La Glottochronologie », Martinet, A. (dir.), Le Langage, Paris, Gallimard, 1968, p. 865-884
(en) Renfrew, Colin ; McMahon, April ; Trask, Larry, Time Depth in Historical Linguistics [« Profondeur temporelle en linguistique historique »], Cambridge (Angleterre), The McDonald Institute for Archaeological Research, 2000
(en) Sankoff, David, « On the Rate of Replacement of Word-Meaning Relationships » [« Sur le taux de remplacement des relations mot-sens »], Language vol. 46, n^o 3, 1970, p. 564-569
(de) Tischler, Johann, Glottochronologie und Lexikostatistik [« Glottochronologie et lexicostatistique »], Innsbruck, Institut für Sprachwissenschaft, 1973
(en) Wittmann, Henri, « A lexico-statistic inquiry into the diachrony of Hittite » [« Enquête lexicostatistique dans la diachronie du hittite »] Indogermanische Forschungen, vol. 74, 1969, p. 1-10
(en) Wittmann, Henri, « The lexicostatistical classification of the French-based Creole languages » [« Classification lexicostatistique des créoles à base française »], Dyen, Isidore (dir.), Lexicostatistics in genetic linguistics: Proceedings of the Yale conference, April 3-4, 1971, La Haye, Mouton, 1973, p. 89-99

Articles connexes

[1] Swadesh 1950, p. 161.

[2] Swadesh 1952, p. 456-457.

[3] Swadesh 1955.

[4] Swadesh 1971, p. 283.

[5] ComparaLex.

[6] Sjoberg 1956.

[strazny-7] {a b et c} Strazny 2005.

[8] Hoijer 1956, p. 53.

[kalman-9] {a et b} Kálmán 2007, p. 118.

[10] Bergsland 1962.

[11] Wiktionary, article chef.

[12] Wiktionary, article head.

[13] Wiktionary, article dies

[14] Wiktionary, article day.

[15] Wiktionary, article habeo

[16] Wiktionary, article haben.

[17] (en) J. Vansina, « New linguistic evidence and the Bantu expansion », Journal of African History, 1995, vol. 36, n^o 2, p. 173-195

[18] (en) I. Ribot, « Differentiation of modern sub-Saharan African populations: craniometric interpretations in relation to geography and history », Bulletins et mémoires de la Société d’Anthropologie de Paris, vol. 16, n^os 3-4,‎ 2004 (lire en ligne)

[19] Kassian 2010.

[20] Global Lexicostatistical Database.

[21] Evolutionary Processes in Language and Culture (Processus d’évolution en langue et culture).

[22] Dyen 1992.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

v · m Liste Swadesh
Langues indo-européennes	Albanais Alsacien Afrikaans Allemand (p) Arménien Anglais (p) Arpitan Biélorusse Breton Bulgare (t) Catalan Croate Danois (p) Écossais Espagnol (castillan) (p) Féroïen Frioulan Grec (t,p) Hindi (t) Irlandais Islandais Italien (p) Kurde (Kurmandji) Letton Lituanien Luxembourgeois Macédonien (t) Néerlandais Norvégien (bokmål) Norvégien (nynorsk) Occitan Persan (t) Polonais (p) Portugais (p) Roumain Russe (p) Serbo-croate Slovène Suédois Tadjik Tchèque
Langues afro-asiatiques	Arabe (t,p) (égyptien (p), tunisien (t)) Haoussa Hébreu
Langues nigéro-congolaises	Ayizo-gbe Bangala Kikongo Kiswahili Lingala Zoulou
Langues altaïques	Bachkir Japonais (t) Turc
Langues austronésiennes	Gilbertin Indonésien Malais Malgache Tahitien Tagalog
Langues caucasiennes	Avar Géorgien (t,p)
Langues ouraliennes	Estonien Finnois Hongrois
Autres familles de langues ou langues isolées	Basque Créole haïtien Créole martiniquais Espéranto Guarani Kichwa Koriak (t,p) Mandarin Quechua Sranan Vietnamien
La liste peut comporter également la transcription (t) des mots en caractères latins ou / et leur transcription phonétique (p).