Alceste
Alceste est un logiciel d'Analyse de Données
Textuelles, issu du C.N.R.S. avec le soutien de l'ANVAR, développé et commercialisé par la société IMAGE. C'est
un outil fondamental d'aide à l'analyse automatique
des données textuelles (questions ouvertes, oeuvres littéraires,
articles de revues, essais, etc).
Le logiciel Alceste trouve ses
applications en sociologie, psychologie,
traitement d'enquêtes, analyse de discours,
conseils en marketing, publicité, journalisme, histoire,
droit, linguistique, médecine, recherche
documentaire, analyse de presse, enfin dans les domaines dans
lesquels on trouve de grandes quantités de texte à traiter. |
|
L'objectif est de
quantifier un texte pour en extraire
les structures signifiantes les plus fortes, afin
de dégager l'information essentielle contenue dans
les données textuelles. Les recherches ont montré
( J.P. Benzecri, M. Reinert ) que ces structures sont étroitement
liées à la distribution
des mots dans un texte et que cette distribution
se fait rarement au hasard. Décrire, classer, assimiler,
synthétiser automatiquement un texte, tel est l'intérêt
présent du logiciel Alceste.
|
Méthode
utilisée
La Classification Descendante Hiérarchique
est la méthode utilisée par Alceste. Cette méthode procède par fractionnements successifs du texte. Elle repère les oppositions les plus fortes
entre les mots du texte et extrait ensuite des classes
d'énoncés représentatifs. Cette méthologie
n'exige aucune connaissance à priori sur le texte à analyser.
|
Caractéristiques
Le logiciel Alceste traite tous types
de textes, saisis à l'aide d'un traitement de texte, d'un scanner ou
par reconnaissance vocale.
Il fonctionne sous environnements Win 2000,
Win XP et Mac OS X.
L'ergonomie et la convivialité
de son interface graphique "relookée",
ses fonctions de bases robustes et performantes lui
confèrent une structure fondamentale
et en font un outil pertinent d'analyse de données textuelles
et d'aide à l'interprétation.
Alceste est
doté d'un écran panoramique résumant
l'essentiel des résultats qui permet de faire un balayage et
d'avoir une vue d'ensemble, afin de comparer,
sélectionner, éditer, zoomer, exporter les différents
résultats pour une rédaction de rapport final.
Un module graphique d'Analyse Factorielle des Correspondances (A.F.C.)
permet de visualiser, filtrer, affiner, confirmer, interpréter l'essentiel
des résultats.
Grâce à ses dictionnaires (Français,
Anglais, Espagnol, Portugais, Italien, Allemand), Alceste répond aux besoins de
tout utilisateur de logiciel d'Analyse de Données
Textuelles soucieux de traiter des corpus
dans différentes langues. Ces dictionnaires sont fournis
et restent ouverts à toute personnalisation.
Fonctions
Analyse du vocabulaire
L' analyse du vocabulaire représente la première étape:
- La reconnaissance des mots,
- La catégorisation grammaticale,
- Le dénombrement des mots,
- La réduction du vocabulaire,
- La création des dictionnaires du corpus.
Classification
C'est ici que nous allons trouver une originalité de la méthodologie Alceste, car Alceste utilise une méthode de classification descendante et hiérarchique, contrairement à d'autres logiciels fondés sur une classification ascendante. En effet, dans la classification descendante hiérarchique, utilisée par la méthodologie Alceste, on part de la totalité du texte, et on découpe ce texte en unités textuelles, ces unités représentent des morceaux de texte dont la taille est d'ordre de la phrase. A partir de ces unités textuelles, Alceste va ensuite dissocier deux groupes d'unités dont les vocabulaires sont les plus différents possibles. ces deux groupes obtenus en utilisant la métrique du khi2, Alceste repère ensuite le plus grand des deux groupes et continue le processus, de manière itérative, jusqu'à l'obtention d'un nombre de classes généralement prédéfinies à l'avance.
En standard, Alceste procède à deux classifications descendantes hiérarchiques, en faisant varier la taille des unités de contexte. Cette double classification confère à Alceste une méthodologie originale, robuste et pertinente.
Description des classes d'énoncés
Après avoir croisé les deux classifications obtenues précédemment et conservé les classes d'énoncés stables, Alceste recherche pour chaque classe les présences significatives et les absences significatives, c'est-à-dire le vocabulaire caractéristique de la classe.
Ensuite, Alceste va représenter graphiquement les oppositions entre les classes à l'aide d'une analyse factorielle des correspondances, puis Alceste va opérer des calculs complémentaires, comme la recherche des segments répétés. Les segments répétés sont des suites de deux ou plusieurs mots présents au moins deux fois dans le texte.Pour finir, Alceste procède à une classification ascendante hiérarchique par classer afin de déterminer les distances de proximité entre les mots caractéristiques d'une classe.
Analyses Tris-croisés
Une analyse tri-croisée permet
de croiser une variable ou un mot avec la totalité du
texte.
Dans le cas d'un croisement entre une variable et le texte, on obtient un discours caractéristique pour chaque modalité de la variable.
En revanche, dans le cas du croisement d'un mot avec le texte, on obtient la provenance du mot dans le texte, ainsi que le vocabulaire associé à ce mot.
Exemple
Comme exemple d’application, nous avons choisi l’extrait d’une enquête menée auprès d’adolescents toulousains.
Le corpus est formé de 61 réponses à la question « Quels sont vos projets d’avenir dans le domaine professionnel, familial ou autre ? ».
Voici un extrait de ce jeu de données:
0001 *sexe_m *association_oui [U.C.I. n°1, sexe masculin, adhérent d’association]
je voudrais continuer mes études, mais pas trop longtemps, je veux passer mon brevet, et ensuite voir du coté d’une formation technique, un truc de mécanicien, enfin des études pas longues. ma vie sentimentale, je pense me marier, après mes études, après avoir une super maison et aussi une ou plein de voitures. je suis ceinture noire de judo, et je voudrais continuer à consacrer du temps pour la compétition, dans le club ou je suis je donne des cours à des enfants
0002 *sexe_m *association_non [U.C.I. n°2, sexe masculin, non adhérent d’association]
dans cinq ans, avoir un travail, le faire pendant deux ans, puis avoir un accident du travail pour toucher de l’argent tranquillement. je veux me marier cinq fois, avoir une maison secondaire une masse de voitures, rentrer dans la politique pour dormir, avoir un énorme lit pour dormir avec plein de femmes, et des femmes de chambre pour faire tout le travail, tuer les personnes qui m’agacent et mourir vieux sans donner d’argent à personne
0003 *sexe_m *association_non [U.C.I. n°3, sexe masculin, non adhérent d’association]
je veux continuer mes études jusqu’au baccalauréat et faire un boulot qui me plaît je veux avoir une belle voiture de sport, une femme et un enfant minimum
0004 *sexe_f *association_non [U.C.I. n°4, sexe féminin, non adhérent d’association]
je voudrais faire de longues études, et avoir un bon métier, aussi passer mon permis un appartement être indépendante et avoir un chat, il ne faut pas que je fasse tout en même temps je ne veux pas me sentir bousculer, pour la famille l’idéal c’est d’avoir un mari et des enfants, après je mets de l’argent de côté pour pouvoir partir en voyage. j’ai fais un voyage dernièrement et j’aime bien, c’est pour cela que je veux voyager, bon je veux faire des longues études dans le grand cycle, après je me marie mais je profite de la vie avant de m’attacher
0005 *sexe_f *association_oui [U.C.I. n°5, sexe féminin, adhérent d’association]
ce que je veux faire comme projet depuis toujours, avoir un bon métier qui paie, ne pas avoir d’enfants, ne pas me marier, avoir mon indépendance, avoir une super voiture, être biologiste, ça depuis l’âge de quinze ans, aller depuis toujours en Amérique, depuis toujours, aller en haut, ça aussi à l’âge de quinze ans, depuis toujours avoir plein de téléphones dans mon appartement, depuis toujours, avoir la pilule quand j’aurai envie de faire l’amour avec un mec, avoir un corps d’athlète, depuis toujours, avoir mon permis provisoire depuis trois mois.
A partir de ce corpus toiletté et formaté, on lance l’analyse. Après différents calculs, Alceste nous fournit un ensemble important de résultats qui vous seront présentés de manière didactique dans l’ordre logique d’aide à l’interprétation.
Voici le premier écran dit écran de synthèse regroupant les trois classes d’énoncés retenues :
Cet écran permet de découvrir la synthèse des résultats de l’analyse par Alceste.
On observe sur la partie gauche le nom du texte, avenir.txt, sa date de modification, sa taille 25Ko, le plan d’analyse avenir.pl (Pour chaque analyse par Alceste, il faut un plan d’analyse contenant l’ensemble des paramètres de l’analyse en question).
Le texte est formé de 61 entretiens, 4280 mots, dont 826 formes distinctes qui se décomposent après réduction du vocabulaire en 96 formes réduites, 84 formes supplémentaires qui vont être des mots outils (articles, pronoms, marqueurs de temps, de lieu, d’espace) et 7 modalités de variables.
Dans la partie sélection des U.C.E., on trouvera 67,5% d’U.C.E. classées, en d’autres termes 67,5% de discours retenu et classé.
La partie droite de l’écran présente les trois classes obtenues, qui correspondent aux trois types de discours (présences significatives des formes dans la classe, leurs absences significatives, et les catégories grammaticales correspondantes).
Après avoir validé cet écran, on retrouve un écran panoramique permettant à l'utilisateur de naviguer et de consulter en détail l’ensemble des résultats tout en naviguant d'un résultat à l'autre avec convivialité et ergonomie, une approche originale d'aide à l'interprétation:
Comme on l’observe, cet écran se décompose en fenêtres indépendantes et autonomes. Chaque fenêtre représente un résultat important.
On peut passer d’une classe à l’autre à l’aide des boutons situés en bas de l’écran.
Après la segmentation et l'analyse, Alceste retient 3 classes de discours.
On observe dans la fenêtre de classification descendante (figure n°1) que la classe n°2 est la première à être dissociée. La classe n°2 représente 20% du discours classé avec comme vocabulaire spécifique formation, technique, continuer, baccalauréat, études, année, passer etc. Cette classe est plutôt issue de garçons appartenant à une association de quartier, car l’on trouve les deux modalités de variables, à savoir sexe masculin et membre d’une association (*sexe_m, *assoc_oui) dans les présences significatives. Le discours de cette classe est centré autour de termes tels que formation,technique, examen,continuer, ce qui évoque l’avenir scolaire et professionnel des jeunes.
S’oppose à la classe n°2, la classe n°1 est plus spécifique des garçons n'appartenant pas à une association, ce discours évoque un monde imaginaire, représentatif d'impacts publicitaires. La classe n°1 comprend 25% des énoncés de discours classé, avec un vocabulaire spécifique comme belle, maison, voiture, femme etc. Les termes que l’on y trouve sont totalement différents de ceux de la classe n°2.
La classe n°3 représentant 55% du discours est issue principalement de la population féminine, le vocabulaire spécifique plutôt raisonné tourne autour de termes comme projet, vie, professionnel, métier, jeune, réaliser, mari, difficulté, décide, pour que etc. Ce discours évoque les difficultés présentes dans l'élaboration d'un projet d'avenir, d'où des revendications sociales. En observant les énoncés spécifiques de la classe on comprend que ces mots évoquent les difficultés dans l’élaboration d’un projet d’avenir, ci-dessous un extrait des U.C.E. de cette classe :
Ces U.C.E. sont numérotées suivant l’ordre du texte, ce qui permet de localiser leur emplacement d’origine dans le corpus. On lit également pour chaque U.C.E. sa valeur de Chi2 d’association dans la classe. Plus la valeur du Chi2 est grande, plus le lien est fort.
Nous retrouvons les termes métier, réaliser , projet dans les U.C.E. n°111 et 87 avec les Chi2 d’association les plus forts, ce qui confirme leur appartenance à la classe n°3.
Pour visualiser et afficher la totalité des formes caractéristiques (présences significatives) d’une classe, il suffit de cliquer sur le bouton correspondant dans la barre d’outils :
Voici par exemple les formes significatives associées à la classe n°1 :
Pour chaque forme on obtient son Chi2 d’association ainsi que son effectif dans la classe, son effectif total, sa catégorie grammaticale et son concordancier.
Vous observez sur cet écran le concordancier du mot «belle», c’est-à-dire les unités textuelles qui contiennent le mot belle.
Remarque :
En ce qui concerne les catégories grammaticales, si une classe est marquée par des adjectifs son discours sera plutôt descriptif. De même, la présence significative de marqueurs de temps, de lieux et d’espace donnera des indications importantes pour l’interprétation des résultats.
De même, en cliquant sur , on obtient la classification ascendante par classe :
La classification ascendante par classe nous permet de mettre en évidence des groupes de mots suivant leur distance de proximité.
Comme l’indique la figure ci-dessus pour la classe n°1, on a positionné la réglette à un niveau de coupure donné, afin de mettre en évidence des paquets de mots agrégés comme : (belle-femme), (maison-voiture-marier), (monde-devenir). En cliquant sur chacune des branches on obtiendra une concordance multiple des mots formant la branche.
Voici quelques concordonciers pour la branche de l’arbre formée des mots belle et femme : Mes projets seraient d’avoir une belle maison , une femme, un enfant. Je compte me marier avec une femme brune qui aura de beaux yeux, et belle physiquement , je veux avoir une belle voiture de sport, une femme et un enfant minimum, etc.
Voici le module d’Analyse Factorielle des Correspondances :
Le module d’Analyse Factorielle des Correspondances nous donne les représentations en corrélations, contributions et coordonnées des classes, des individus et des formes. En cliquant sur un point, on affichera le mot associé. On peut également filtrer les formes en fonction de leur effectif, de leur Chi2 (X²) d’association à la classe, modifier les axes factoriels pour les projections, etc.
L’Analyse Factorielle des Correspondances confirme la forte opposition entre le discours de la classe n°1 et celui de la classe n°2, on constate ainsi l’impact que pourraient avoir les associations sur le comportement des jeunes. La classe n°3 est proche du centre d’inertie, d’où un discours peu marqué.
Par ailleurs, un module 3D permet de visualiser les graphiques d’A.F.C., bien sûr lorsque le nombre d’axes est supérieur ou égal à 3.
Dans un cas où l’on a 3 axes, on obtiendra le graphique suivant :

Ce module nous permet de visualiser les relations entre les classes dans un espace en trois dimensions, par des représentations en corrélations, contributions et coordonnées. Les possibilités de zoom, de rotation du graphique, de modification des axes de projection ou des options de visualisation des classes font de ce module un outil indispensable pour l’aide à l’interprétation.
Le module statistique nous présente l’écran ci-dessous :
Le module statistique présente différents graphiques portant sur les répartitions des classes dans le corpus en fonction des unités de contexte classées et non-classées.
Indépendamment des classes obtenues, on a accès au dictionnaire des formes, que ce soient les formes complètes ou les formes réduites, avec leurs effectifs respectifs.
Voici le dictionnaire des formes complètes :
On pourra par un double-click sur un mot demander une concordance dans le texte. On peut également obtenir des concordances multiples.
Bien sûr Alceste ne s’arrête pas là, il tient aussi sa puissance de ses modules de paramétrage, suivant les valeurs de paramètres, l’outil adapte votre corpus à une analyse plus fine et donc riche. Deux paramétrages sont possibles, à savoir le paramétrage simplifié pour tous, et un paramétrage expert pour les utilisateurs plus avertis.
L’écran de paramétrage simplifié se présente de la manière suivante :
Vous observez que les 4 étapes de calcul sont cochées, ainsi que les valeurs des différents types d’analyse, ces valeurs pouvant être modifiées suivant le besoin de l’utilisateur. Par exemple, un utilisateur peut ne pas faire une classification double et lancer une classification simple, dans le but de traiter des réponses aux questions ouvertes, ou désactiver une lemmatisation, etc.
Le paramétrage expert est représenté dans un écran muni de petites cases contenant les différentes valeurs des paramètres : c’est une approche intelligente et d’une grande transparence qui permet à l’utilisateur de modifier à tout moment une ou plusieurs valeurs données dans ce tableau, puis de relancer l’analyse pour aller encore plus loin dans l’interprétation.
Pour faire un tri-croisé sous Alceste, il suffit de croiser les modalités d’une variable avec le corpus, afin d’obtenir des classes propres à chaque modalité, ou alors de croiser un mot avec le texte, afin de scinder le texte en partie contenant le mot et partie ne le contenant pas.
Enfin Alceste est le logiciel d’Analyse de données textuelles pouvant travailler en différentes langues (Français, Anglais, Allemand, Italien, Portugais, Espagnol), grâce à ses dictionnaires de langue. Il suffit alors de sélectionner un dictionnaire donné pour pouvoir analyser dans cette langue. Ces dictionnaires restent ouverts, l’utilisateur peut les modifier ou les enrichir à sa volonté. De même, de nombreux autres modules de traitement existent sous Alceste, que nous ne pouvons pas tous détailler dans un document aussi synthétique.
Exemples de traitements réalisés
Enquêtes Qualitatives :
Analyse d'interviews, de questions ouvertes, d'articles de magazines,
de débats télévisés, etc...
Socio-psychologie : Analyse de contenus d'entretiens semi-directifs,
interviews, récits d'enfants, de rêves,
de cauchemars, etc...
Sciences : Analyse de textes techniques, comptes rendus, rapports,
diagnostics médicaux, pannes et messages système, etc...
Lettre : Analyse et synthèse de livres, poésies, pièces de
théâtre, textes philosophiques, etc...
Textes multilangues : Analyse de textes en français, anglais,
catalan, espagnol, gascon, italien, portugais, allemand, russe, etc...