L'AFC pour les nuls
Mise à jour du 8 août 2010
Rémi Bachelet
La version à jour de ce cours
d’analyse factorielle des composantes
est disponible http://rb.ec-lille.fr
Cette formation est également
enregistrée en vidéo
Source des images indiquées au-dessous
Cours distribué sous licence Creative Commons,
selon les conditions suivantes :
Comment utiliser ce
cours :
1. Mettre les diapos en format plein écran en cliquant sur
2. Faire défiler l’animation en cliquant sur les diapositives
(attention : cliquer sur une image ou un lien ouvre la page web correspondante)
août 10
Utilisation ou copie interdites sans citation
Rémi BACHELET – Ecole Centrale de Lille
2
Objectifs du cours d’Analyse Factorielle
des Correspondances
Méthode développée notamment par Jean-Paul Benzécri (1970+)
1. Comprendre les fondements de l’Analyse Factorielle
des Correspondances
2. Savoir quel est le processus de calcul et ses logiques
3. Pouvoir expliquer le mapping produit par une AFC
4. Également :
• Connaître quelques logiciels d’administration d’enquêtes et de
traitement de données
• Avoir des éléments de comparaison AFC – ACP (ACP = Analyse en Composantes
Principales).
août 10
Utilisation ou copie interdites sans citation
Chapitre 1/4
Principes de l’AFC et
données d’entrées
1. Principe général de l’AFC
2. Exemples :
– Les limites des représentations graphiques intuitives
– Comment donner du sens aux informations
août 10
Utilisation ou copie interdites sans citation
Principe général de l’analyse
factorielle des correspondances (AFC)
« L’analyse factorielle traite des tableaux de nombres.
Elle remplace un tableau de nombres difficile à analyser par une série de
tableaux plus simples qui sont une bonne approximation de celui-ci »
Ces tableaux sont « simples », car ils sont exprimables sous forme de
graphiques
Pourquoi « des correspondances » ?
variables numériques
Corrélation
variables nominales
Correspondance
Pourquoi « factorielle » ?
Il s’agit de décomposer le tableau original en une somme de tableaux/matrices
qui sont chacun le produit de facteurs simples.
Autrement dit, on les « met en facteurs »
Principale source d’informations, et de l’exemple utilisé pour ce
cours : Que sais-je ? « L' analyse factorielle » - N°2095, Philippe
août 10 CIBOIS, ed. PUF, épuisé Util
, ex isati
tra o
it n
ou cop
dispo ie in
niblterd
e eites sa
n ligns cita
ne tion
Exemple : que deviennent les
bacheliers ?
destination
université classes prépa
autres total
A
13
2
5
20
BDD'
20
2
8
30
CE
10
5
5
20
FGH
7
1
22
30
total
50
10
40
100
100
Stats MEN 1975 - 1975 204 489 lycéens
août 10
Utilisation ou copie interdites sans citation
Une représentation graphique
intuitive
20 A
30 BDD'
20 CE
30 FGH
Univ ersité
Clas ses Prépa
Autr es
août 10
Utilisation ou copie interdites sans citation
Exemple : quels souhaits d’orientation ?
t
,
a
t
i
i
t
t
r
d
n
t
e
e
u
u
e
, n
d
e
A
n
e
n
el
n
m
e
-
o
m
o
t
n
e
a
e
e
i
i
oi
el
u
i
el
h
r
t
t
n
g
e
e s st
t
l
q
c
l
c
Premiers vœux 2003
p
c
p
r
r
o
a
n
s
e
n
c
ei
it
ei
e
i
n
u
n
e
ti
u
r
e
r
e
r
t
é
rt o
c
m
u
è
a
d
t
si
m
t
h
de Génie / filière.
t
s
s
r
n
v
s
s
c
n
e
m
i
t
n
v
o
d
s
o
or u
go m u
e
E
o
n
d
d
G
A
o
n
C
r
y
P
L
o
R
C E
P S nI
nI
C nI
Mécanique Avancée
0
0
2
7
5
1
6
Génie Civil
1
2
24
0
0
1
0
Matière,Energie et
Vivant
0
1
2
0
5
1
1
Ondes, Nano-
Electronique, Télécoms
2
1
0
1
0
1
6
Systèmes Electriques
et Electroniques
0
0
3
2
0
1
1
Systèmes Automatisés
0
0
1
1
0
2
10
Génie des systèmes
de production
0
5
0
0
4
4
0
Génie Informatique
0
0
0
3
1
5
2
Informatique de
Gestion
2
11
0
0
0
2
1
Services et Systèmes
Socio-Economiques
1
6
3
0
0
2
1
Systèmes de Transport
et Logistiques
0
2
0
0
1
8
0
août 10
Utilisation ou copie interdites sans citation
.. Pas toujours suffisante :
21 Méc anique A vancée
28 Génie Civil
10 Matière,Energie et V ivant
11 Ondes, Nano-Electr onique, Télécoms
7 Sys tèmes Electriques et Electroniques
14 Sys tèmes A utomatisés
10 Génie des s ystèmes de production
11 Génie Informatique
14 Infor matique de Ges tion
11 Serv ices et Systèmes Socio-Economiques
10 Sys tèmes de Trans port et Logistiques
Entr epreneuriat
Ges tion - Audit
Aménagement, Construction, Envir onnement
Conception de Produits et Systèmes Innov ants
Production Industriel e
Logistique Commerc iale et Industriel e
Rec herche
août 10
Utilisation ou copie interdites sans citation
Comment donner du sens à ces
données
Idée : ce qui est intéressant, c’est de mettre en
évidence ce qui est inattendu dans ces
répartitions
Inattendu = en quoi on dévie d’une répartition
uniforme
On va donc :
1. Évaluer ce que serait une situation d’uniformité, d’indépendance
2. Calculer en quoi la situation constatée en diffère
3. Exprimer cette différence graphiquement pour pouvoir l’analyser
4. Interpréter le mapping obtenu …
5. et en optimiser la lisibilité
août 10
Utilisation ou copie interdites sans citation
Chapitre 2/4
Première opérations sur
les matrices
1. Matrice « T » des données d’entrée
– Matrice R des écarts à l’indépendance
2. Mise en facteur d’une matrice
– Exprimer « simplement » R
août 10
Utilisation ou copie interdites sans citation
Matrice « T » des données d’entrée
destination
université classes prépa
autres total
A
13
2
5
20
BDD'
20
2
8
30
CE
10
5
5
20
FGH
7
1
22
30
total
50
10
40
100
100
Ce tableau est aussi une matrice, appellons-la « T »
Quelle matrice aurait-on si la répartition dans les filières
post-Bac ne dépendait pas du type de Bac ?
août 10
Utilisation ou copie interdites sans citation
1/ S’il y avait situation d’indépendance…
10
2
8
10 = 50 * 20%
20
(produit matriciel /100
puisqu’on raisonne en %)
15
3
12
30
10
2
8
20
15
3
12
30
50 10 40
On reconstitue
la matrice à
partir de ses
Appellons cette matrice « T »
0
marges
août 10
Utilisation ou copie interdites sans citation
2/ La matrice des écarts à l’indépendance est
T – T = R
0
13
2
5
10
2
8
3
0
-3
20
2
8
15
3
12
5
-1
-4
-
=
10
5
5
10
2
8
0
3
-3
7
1
22
15
3
12
-8
-2
10
Quelle est la particularité de R ?
août 10
Utilisation ou copie interdites sans citation
3/ Comment exprimer simplement R ?
On décompose la matrice des écarts à l’indépendance en
une somme de matrices..
R = T
T
1 +
2
.. Chacune de ces matrices étant mise en facteur (le
produit d’un vecteur ligne et d’un vecteur colonne).
T = C L
1
1
1
(une matrice dont la plus petite dimension est N « rang N » est décomposable
au maximum en N matrices pouvant se mettre en facteurs …
ici T = T + T + T ).
0
1
2
T est de rang 3, mais R est de rang 2….
août 10
Utilisation ou copie interdites sans citation
Produit matriciel : exemple
août 10
Utilisation ou copie interdites sans citation
Mise en facteur d’une matrice: exemple
1
1
2
3
3
6
1
2
T CL
=
On met en facteur T comme le produit
d’une matrice colonne C par une
matrice ligne L
– T (2X2)
Attention les règles de présentation du produit matriciel ne
sont pas bien respectées dans nos diapos
– C (1X2)
De plus, la multiplication des matrices n'est pas commutative
–
(LC CL)
L (2X1)
août 10
Utilisation ou copie interdites sans citation
R = T
T
C L
C L
1 +
2 =
1
1 +
2
2
3
0
-3
1
1
-2
1
2
-1
-1
1
5
-1
-4
1
1
-2
1
4
-2
-2
2
=
+
0
3
-3
2
2
-4
2
-2
1
1
-1
-8
-2
10
-4
-4
8
-4
-4
2
2
-2
1
1
-2
2
-1
-1
Attention le sens de multiplication écrit ici
est LC au lieu de CL
août 10
Utilisation ou copie interdites sans citation
Chapitre 3/4
D’une matrice à une
présentation graphique
Production et interprétation du mapping
– Vecteurs colonne et vecteurs ligne
– Produit scalaire
août 10
Utilisation ou copie interdites sans citation
3/ bis Comment représenter
graphiquement la décomposition ?
Un vecteur colonne (resp. ligne) correspond à une
modalité des données en colonnes (resp. lignes)
Un axe unidimensionnel + un axe unidimensionnel =
un repère
août 10
Utilisation ou copie interdites sans citation
Un vecteur colonne correspond à une
modalité des données en colonnes
3
0
-3
1
1
-2
1
2
-1
-1
1
5
-1
-4
1
1
-2
1
4
-2
-2
2
=
+
0
3
-3
2
2
-4
2
-2
1
1
-1
-8
-2
10
-4
-4
8
-4
-4
2
2
-2
1
1
-2
2
-1
-1
août 10
Utilisation ou copie interdites sans citation
Un vecteur colonne correspond à une
modalité des données en colonnes
A
1
BDD’
2
CE
-1
FGH
-2
Univ
CPGE
Autres
2
-1
-1
août 10
Utilisation ou copie interdites sans citation
Un axe unidimensionnel + un axe
unidimensionnel = un repère
A
1
1
CE
BDD’
2
1
Univ.
CPGE
BDD’
CE
-1
2
A
FGH
-2
-4
Univ
2
1
Aut.
CPGE
-1
1
Autres
-1
-2
FGH
août 10
Utilisation ou copie interdites sans citation
4/ Que veut dire ce mapping ?
1. Conjonction :
Produit scalaire positif
CE
A
Les Bac CE ont une affinité pour la prépa
Prépa
2. Opposition
Produit scalaire négatif
Les Bacs A ne vont pas vers les « autres »
(IUT, BTS)
3. Quadrature
Produit scalaire nul
Autres
Les bacs A ne vont ni plus ni moins vers
les prépas que la moyenne des
bacheliers
août 10
Utilisation ou copie interdites sans citation
Chapitre 4/4
Optimisation de la
factorisation
1. Le Chi-2 ( 2) comme métrique
– Degrés de liberté
2. Retour aux applications
– Analyse de mappings
août 10
Utilisation ou copie interdites sans citation
5/ Mais ….. Quelle est la meilleure
décomposition possible pour R ?
En effet R = T
T … mais il existe aussi
1 +
2
R = T’ T’ = T’’ T’’ …
1 +
2
1 +
2
Quel est le critère (la métrique) qui permet de définir les
meilleurs T et T ?
1
2
Pour une matrice de rang n, on cherche d’abord à trouver
la meilleure T , puis la meilleure T de telle manière à
1,
2
ce que le premier axe soit celui qui exprime le plus de
sens..
août 10
Utilisation ou copie interdites sans citation
La métrique que nous cherchons, c’est
le Chi-2 ( 2)
Le 2 représente l’écart à l’indépendance
• or cette indépendance, est exprimée par T0
• … l’écart à l’indépendance peut donc se mesurer comme l’écart à T
0
À partir de la matrice des données pour chaque cellule de T et
1
T , on calcule
2
1. L’écart avec la cellule correspondante de T au carré (d’où le « 2 » du 2 )
0
2. On divise par l’effectif théorique de cette cellule (on parle de 2 pondéré)
3. Le 2 de la matrice est la somme de toutes les « contributions au 2 » de ses
cellules
4. Le pourcentage des contributions de T et T par rapport au 2 de R donne les
1
2
contributions relatives de T et T au 2 de T
1
2
août 10
Utilisation ou copie interdites sans citation
Note sur le 2 : ses degrés de liberté
2 (R) = 2 (T ) + 2 (T )
1
2
2491 = 1998 + 493
Attention à considérer le 2 en proportion de la richesse en information le
la matrice = de son nombre de ddl.
À partir des distributions marginales on peut obtenir plusieurs matrices
T , mais pour chaque ligne et chaque colonne, la dernière “case” est
n
imposée par la contrainte du total marginal
Définition :
• On appelle degré de liberté par ligne (ddll) le nombre de colonnes (de
modalités) diminué de 1.
• On appelle degré de liberté par colonne (ddlc) le nombre de lignes (de
modalités) diminué de 1.
• Le degré de liberté du khi-deux de la matrice est le produit ddll x ddlc = ddl.
• Pour une matrice donnée, le 2 à prendre en compte est en fait 2 / ddl
http://brassens.upmf-grenoble.fr/IMSS/MathSHS/SHS1/Stat1/Diapo/COURS9_fichiers/frame.htm
août 10
Utilisation ou copie interdites sans citation
Matrice T maximisant le 2 dans
1
notre cas
2 (R) = 2 (T ) + 2 (T )
1
2
2491 = 1998 + 493
100% = 80.2% + 19.8%
Cette ‘concentration’ de ce que l’on appelle le pourcentage de
la variance expliquée par un axe est particulièrement
intéressante lorsque la taille du tableau de données
augmente…
2 (R) = 2 (T ) + 2 (T ) + 2 (T ) + 2 (T ) ..
1
2
3
4
Pourquoi ?
On ne peut que représenter que deux axes à la fois sur un
mapping … autant représenter les plus significatifs.
août 10
Utilisation ou copie interdites sans citation
On obtient alors ce nouveau
mapping
Axe 2 (19.8%)
.. De plus, la taille des
points est proportionnelle à
CE
l’effectif qu’ils
Clas ses Prépa
représentent
FGH
Axe 1 (80.2%)
A
Univ ersité
Autr es
Pour relativiser leur
BDD'
importance, les axes sont
dilatés proportionnellement
au 2 qu’ils expriment …
août 10
Utilisation ou copie interdites sans citation
Application : quels souhaits d’options?
t
,
a
t
i
i
t
t
r
d
n
t
e
e
u
u
e
, n
d
e
A
n
e
n
el
n
m
e
-
o
m
o
t
n
e
a
e
e
i
i
oi
el
u
i
el
h
r
t
t
n
g
e
e s st
t
l
q
c
l
c
Premiers vœux 2003
p
c
p
r
r
o
a
n
s
e
n
c
ei
it
ei
e
i
n
u
n
e
ti
u
r
e
r
e
r
t
é
rt o
c
m
u
è
a
d
t
si
m
t
h
de Génie / filière.
t
s
s
r
n
v
s
s
c
n
e
m
i
t
n
v
o
d
s
o
or u
go m u
e
E
o
n
d
d
G
A
o
n
C
r
y
P
L
o
R
C E
P S nI
nI
C nI
Mécanique Avancée
0
0
2
7
5
1
6
Génie Civil
1
2
24
0
0
1
0
Matière,Energie et
Vivant
0
1
2
0
5
1
1
Ondes, Nano-
Electronique, Télécoms
2
1
0
1
0
1
6
Systèmes Electriques
et Electroniques
0
0
3
2
0
1
1
Systèmes Automatisés
0
0
1
1
0
2
10
Génie des systèmes
de production
0
5
0
0
4
4
0
Génie Informatique
0
0
0
3
1
5
2
Informatique de
Gestion
2
11
0
0
0
2
1
Services et Systèmes
Socio-Economiques
1
6
3
0
0
2
1
Systèmes de Transport
et Logistiques
0
2
0
0
1
8
0
août 10
Utilisation ou copie interdites sans citation
Mapping des choix de filière / génie
Axe 2 (26.9%)
Gest ion - Audit
Infor matique de Gestion
Services et Systèmes Socio-Economiques
Systèmes de Tr ansport et Logistiques
Génie des systèmes de production
En treprenariat
Lo gistique C ommerciale et Indust rielle
Matière,Energie et Vivant
Axe 1 (34.4%)
Génie C ivil
Product ion Indu st rielle
Ondes, N ano-Electronique, Télécoms
Génie Infor matique
R ech erche
Systèmes Eléctriq ues et Electr oniques
Systèmes Automatisés
Amén ag em en t, C onstruction, Enviro nnement
Mécaniq ue Avancée
C oncept io n de Pro duit s et Systèmes Innov an ts
Premiers choix de génie / filière des 147 G2 en 2003
août 10
Utilisation ou copie interdites sans citation
C’était les deux premiers axes = 62% de la variance
expliquée On peut aussi regarder l’axe 3.. = 18%
Axe 3 (18.0%)
Entrepreneuriat
Ondes, Nano-Electronique, Télécoms
Systèmes Automatisés
Informatique de Gestion
Recherche
Gestion - Audit
Génie Civil
Aménagement, Construction, Environnement
Services et Systèmes Socio-Economiques
Axe 2 (28.6%)
Systèmes Eléctriques et Electroniques
Conception de Produits et Systèmes Innovants
Logistique Commerciale et Industriel e
Génie Informatique
Mécanique Avancée
Systèmes de Transport et Logistiques
Génie des systèmes de production
Matière,Energie et Vivant
Production Industrielle
août 10
Utilisation ou copie interdites sans citation
Conclusion
1. Mise en œuvre logicielle
– Sphinx, SPSS, SAS
2. Généralisation de l’AFC
– Comparaison avec l’Analyse en Composantes
Principales (ACP)
– Généralisation de l’AFC
– Pour approfondir
août 10
Utilisation ou copie interdites sans citation
Mise en œuvre logicielle de l’AFC :
Sphinx
août 10
Utilisation ou copie interdites sans citation
Mise en œuvre logicielle : SPSS
août 10
Utilisation ou copie interdites sans citation
Mise en œuvre logicielle : SAS
août 10
Utilisation ou copie interdites sans citation
Généralisations de l’AFC
• Les ‘catégories’ des questionnaires sont souvent
mutuellement exclusives :
– Sexe : H ou F
– Politique : gauche, centre, droite
Tableau disjonctif
• Aux croisements de plus de deux caractéristiques : Analyse
des Composantes Multiples (ACM)
– Bac X Orientation X sexe
Tableau de Burt
août 10
Utilisation ou copie interdites sans citation
Autre méthode d’analyse de données proche :
l’Analyse en Composantes Principales
AFC
ACP
Données
Catégorielles
Métriques
Décomposition T - T0 = T1 + T2 T = T1 + T2 + T3
2
2
Métrique
pondéré
Attention, le poids des cellules à faible
ef a
fe oût
ct 10
if
est renforcé
Utilisation ou copie interdites sans citation
Rapports entre ACP et AFC
• Si on a des données permettant de faire une AFC, peut-on
y appliquer une ACP ?
– Non
• Si on a des données permettant de faire une ACP, peut-on
y appliquer un AFC ?
– Oui !
• .. Mais alors ?
– .. Alors on traite les données numériques, les nombres comme des
catégories
– Si par exemple on travaille sur des notes, 18/20 n’est plus
« supérieur à » 10/20, il n’est pas non plus « plus proche » de
16/20 que de 10/20.
août 10
Utilisation ou copie interdites sans citation
Effet particulier lorsque l’on traite des Likert
• Que voit-on sur une AFC s’il existe une relation linéaire entre
deux Likert corrélées, comme par exemple
– Q1 Aimez-vous les mathématiques (beaucoup/assez/un peu/pas du tout)
– Q2 Avez-vous de bonnes notes en mathématiques (très
bonnes/bonnes/moyennes/mauvaises)
→ Les points du mapping suivent une parabole (c’est l'effet Guttman)
août 10
Utilisation ou copie interdites sans citation
Pour en savoir plus
– Approches simples : rares
• Site web de Philippe Cibois, professeur émérite de sociologie
– texte d’où est tiré l’exemple développé dans ce cours
– Trideux : logiciel libre de dépouillement d'enquête
• Analyse factorielle des correspondances dans Wikipédia
• Leçon Analyse factorielle des correspondances du CNAM
– Plus complexe : de nombreuses références
• "Statistique textuelle" de Lebart et Salem, Chapitre 3
• …
août 10
Utilisation ou copie interdites sans citation
Autres cours de méthodologie:
1. Explorer ou vérifier ? Deux catégories d’approches
2. Éventails des démarches de recueil de données
3. Conception de questionnaires
4. Techniques d’entretien et reformulation
5. Validité et Fiabilité des données
6. Mesurer, tester des hypothèses
août 10
Utilisation ou copie interdites sans citation
Merci de votre attention !
août 10
Utilisation ou copie interdites sans citation
Rémi BACHELET
Enseignant-chercheur,
Ecole Centrale de Lille
Mon CV est disponible http://rb.ec-lille.fr
Mes principaux cours à Centrale
Gestion de projet, sociologie des organisations, recueil, analyse et traitement de données,
prévention du plagiat, module de marchés financiers, cours de qualité et méthodes de
résolution de problèmes, établir des cartes conceptuelles, utiliser Wikipédia et CentraleWiki,
formation au coaching pédagogique et à l'encadrement
août 10
Utilisation ou copie interdites sans citation
août 10
Utilisation ou copie interdites sans citation