Analyse des données
jean-Claude Liquet
1
4 séances
1- Les données: nature, traitement quanti-quali.
Analyse univarié et bivarié.
2- L’analyse de variance, l’analyse factorielle ACP
AFC AFCM
3-Les méthodes explicatives : régression linéaire et
multilinéaire, l’analyse structurelle des variables
latentes.
4-Analyse discriminante. Analyse conjointe et
analyse multidimensionnelle des similarités
jean-Claude Liquet
2
Bibliographie : analyse de données en marketing.
Proposée par J.C. Liquet :
Audigier 1995 “ les études marketing ” Dunod fiches express.
Bouroche et Saporta 1992 “ l’analyse des données ” P.U.F. Que sais je n=°1854.
Cibois 1995 “ l’analyse factorielle ” Que Sais Je 2095.
Baleo JN et al 2003 « Méyhodologie expérimentale Tech et Doc
Bon , Gregory 1995 “ les techniques marketing ” Vuibert.
Croutsche Jean-Jacques 1997 “ Pratique de l’Analyse des données ” Editions Eska
Dickes P et al 1994 “ la psychométrie” Puf.
Foucart Thierry 1997 “ l’analyse de données ”presses universitaires de Rennes
Escoffier et Pagès 1988 “ analyses factorielles simples et multiples : objectifs, méthodes et interprétation ” Dunod.
Escoffier et Pagès 1997 « Initiation aux traitements statistiques, méthodes, méthodologie » Presse Universitaire de Rennes.
Evrad et Lemaire 1976 “ information et décision en marketing ” Dalloz.
Fenelon 1992 “ qu’est ce que l’analyse des données ”, Lefonen.
Gianelloni, Vernette 1994 “ étude de marché ” Vuibert.
Giard 7ième ed 1995 “ statistique appliquée à la gestion ” Economica.
Green,Tull 1974 “ recherche et décisions en marketing ”, Presses Universitaires de Grenoble.
Hooley et Hussey 1994 “ quantitative methods in marketing ” The Dryden Press.
Lagarde Jean de 1995(réedition) “ initiation à l’analyse de données ” Dunod
Ladwein 1996 “ les études marketing ” Economica.
Lambin 1993 “la recherche en marketing ” Ediscience.
Liquet J C, Flambard S, Jean S 2003 « Cas d’analyse des données en marketing Tech et Doc»
Moscarola. 1990 “ enquêtes et analyse des données ” Vuibert.
Perrien Cherron 1984 “ recherches en marketing , méthodes de décision ” Gaëtan Morin.
Pras, Evrad, Roux 1994 “ market ” Vuibert
S.P.S.S. manuels d’utilisation.
jean-Claude Liquet
3
Biblio suite
Roussel P et al 2002 « Méthodes d’équation structurelles: recherche et applications en gestion » Economica
Saporta 1990 “ probabilités, analyse des données et statistique ” éditions Technip.
Thiétart Alain et al. 1999 “Méthodes de recherche en management ” Dunod.
Vedrine J.P . 1991 “ Le traitement des données ” éditions d’organisation.
Vandercammen, Gauthy-Sinéchal 1999 « Recherche Marketing, outil fondamental du marketing » De
Boeck Université
Volle M. 1989 “ analyse des données ” Economica.
Wonnacott. 1972, 4ième ed 1994. “ statistique ” Economica
La collection Sage et Amos user guide
jean-Claude Liquet
4
Origine des données
Données primaires
Observation
Expérimentation
Enquête
Données secondaires
Insee
Organisme public
Observatoire spécialisé (Xerfi etc.)
jean-Claude Liquet
5
Nature des données
Les données nominales
Genre homme femme que l’on peut coder 0 et 1
Les données ordinales
Relation d’ordre antisymétrie et transitivité
Les données quantitatives de ratio
Y=aX
Les données quantitatives d’intervalle
Y=aX +b (la température et les échelles de lickert ou à différentiel
sémantique)
jean-Claude Liquet
6
les échelles de Lickert ou à différentiel
sémantique
Différentiel sémantique
Pour vous le produit est
Amer___1 __2 __3 __4 __5__ 6__ 7__ Doux
Echelle de lickert
Le produit que je viens de goûter est amer
Pas du tout Pas d’accord
ni d’accord
d’accord Tout à fait
d’accord ni pas d’accord
d’accord
/___1____/______2______/______3________/_____4_____/____5_/
jean-Claude Liquet
7
L'organisation matricielle des
données
Individu
Varible1 /
Variable 2 / Variable 3
Variable 3 /
Le poids en La taille en
Le sexe
Le rang au
kg
m
100 M
papillon
masculin
universitaire
Pierre
75
1,80
Masculin
1
Marie
60
1,65
Féminin
Jasmina
56
1,60
Féminin
Jacques
80
1,90
Masculin
2
Paul
72
1,70
Masculin
3
Denis
60
1,60
Masculin
7
Anne
50
1,60
Féminin
Jean
74
1,75
Masculin
5
Josué
90
2
Masculin
4
Idriss
85
1,83
Masculin
6
Etienne
85
1,70
Masculin
8
jean-Claude Liquet
8
L'analyse univariée ou tri à plat
Variables quantitatives
n
x =
x
n
∑i
1
où x
est
la
moyenne
x est
un
élément
quelconque de la
var iable
i
n est
le
nombre d 'éléments
jean-Claude Liquet
9
Distribution
Courbe de Gauss
F
R
E
Q
U
E
N
A
C
E
M
ceneuqreF
moyenne
Valeurs de la variable étudiée
Variable étudiée
n
2
n
(x
M
∑ − )
i
2
dispersion = ∑(x M )
(x
M )
i
i −
Variance = 1
écart t ype σ
∑ −
=
1
n
n
jean-Claude Liquet
10
Propriétés de la loi normale
Courbe de Gauss
σ
ecneuqreF
Variable étudiée
68 % de la
population
entre - σ et +σ
95 % de la population
entre - 2 σ et +2σ
jean-Claude Liquet
11
Les autres indicateurs de
tendance centrale
La médiane : C'est la valeur de la variable
qui divise la population en deux sous
populations d'effectif égal.
Le mode : C'est la valeur de la variable qui a
la fréquence la plus importante.
jean-Claude Liquet
12
Variables qualitatives
Pour les variables ordinales ou nominales le tri à plat est essentiellement
constitué par le calcul des fréquences des modalités.
En ce qui concerne les variables ordinales, des indicateurs de dispersion
constitués par les fractiles peuvent être utiles.
Exemple : Echantillon utilisé lors d'une étude
Quel e est votre profession ?
Fréquence Pour cent
Agriculteur
14
4,38
Cadre supérieur, Profession libérale
69
21,56
Profession intermédiaire
67
20,94
Employé
70
21,88
Ouvrier
30
9,38
Retraité
18
5,63
Inactif
30
9,38
Etudiant
22
6,88
Total
320
100
jean-Claude Liquet
13
Retour sur
l'échantillonnage
Population mère
appelée A qui présente
une moyenne m pour
une variable V et un
écart type σ
C Mc et σc
B
Mb et σb
E Me et σe
D Md et σd
σ
σ b
σ c
σ d
σ e
=
=
=
=
N
nb -1
nc -1
nd -1
ne -1
V
∆ =
V
96
,
1
±
∆ =
56
,
2
±
p 1
( − p)
∆ = ± 9
,
1 6
N
N
N
Pour α=0,05
Pour α=0,01
jean-Claude Liquet
14
Incertitude sur échantillonnage
Population
1/N
Incertitude
100
0,01
0,1
400
0,0025
0,05
500
0,002
0,044
1000
0,001
0,031
40000
0,000025
0,005
jean-Claude Liquet
15
L'analyse bivariée descriptive
ou tri croisé
Deux variables quantitatives
Covariance
de
de
ux vari bl
a es e
X
t Y
R = (écart typ d
e e X
)(écart t
Y
de
ype
)
(x − m )(y − m )
i
1
i
2
∑
−
i
n 1
R =
(x − m )2
( y − m )2
∑
∑
i
1
i
1
i
i
n -1
n -1
∑(x m )(y m )
i −
1
i −
2
R =
i
∑(x m ) (y m )
i −
2
1
∑ i − 2
1
i
i
jean-Claude Liquet
16
Représentation graphique
R=-1
R=0
R=1
Anticorrélation
Indépendance
Corrélation parfaite
jean-Claude Liquet
17
Deux variables qualitatives
Le but de l'analyse est de déterminer si deux variables
qualitatives sont indépendantes ou dépendantes. Autrement
dit, il s’agit de déterminer l’existence ou non d’un lien.
D'où les hypothèses suivantes.
Ho : Les deux variables sont indépendantes
H1 : Les deux variables sont dépendantes.
Le test consiste à rejeter l'hypothèse Ho
Le test le plus fréquemment utilisé est le test de Chi2.
jean-Claude Liquet
18
Tableau de contingence
En
E col
n li onne
gne l va
a ri
var a
i b
a l
b e
l
e
m1
m2
m3
V1
V2
L1
A
B
C
L2
D
E
F
l3
G
H
I
jean-Claude Liquet
19
Tableau des effectifs théoriques
En
E col
n li onne
gne l va
a ri
var a
i b
a l
b e
l
e
m1
m2
m3
V1
V2
L1
A'
B'
C'
L2
D'
E'
F'
l3
G'
H'
I'
jean-Claude Liquet
20
Différence entre théorie et observation
En
E col
n li onne
gne l va
a ri
var a
i b
a l
b e
l
e
m1
m2
m3
V1
V2
L1
A-A'
B-B'
C-C'
L2
D-D'
E-E'
F-F'
l3
G-G'
H-H'
I-I'
jean-Claude Liquet
21
Carré des valeurs
En
E col
n li onne
gne l va
a ri
var a
i b
a l
b e
l
e
m1
m2
m3
V1
V2
L1
(A-A')x(A-A')
(B-B')x(B-B')
(C-C')x(C-C')'
L2
(D-D')x(D-D')
(E-E')x(E-E')
(F-F')x(F-F')
l3
(G-G')x(G-G')
(H-H')x(H-H')
(I-I')x(I-I')
jean-Claude Liquet
22
Carrés relatifs
En
E col
n li onne
gne l va
a ri
var a
i b
a l
b e
l
e
m1
m2
m3
V1
V2
L1
(A-A')x(A-A')/A'
(B-B')x(B-B')/B'
(C-C')x(CxC')/C'
L2
(D-D')x(D-D')/D'
(E-E')x(E-E')/E'
(F-F')x(F-F')F'
l3
(G-G')x(G-G')/G'
(H-H')x(H-H')/H'
(I-I')x(I-I')/I'
(effectif obs
ervé - effectif théori
)
que 2
∑
2
i, j
Χ =
effectif théorique
jean-Claude Liquet
23
En colonne variable
V1
En ligne la variable
m1
m2
m3
Somme des
V2
lignes
L1
A
B
C
A+B+C
L2
D
E
F
D+E+F
l3
G
H
I
G+H+I
Somme des
A+D+G
B+E+H
C+F+I
N
colonnes
A' = (la probabilité d'appartenir à la première ligne x par la probabilité d'appartenir à la première colonne)X N
A + B + C A + D + G
A'=
×
× N
N
N
jean-Claude Liquet
24
Ce calcul est réitéré autant de fois qu'il y a de cellules.
Si les deux variables sont indépendantes, le résultat apporte
peu de sens pour l'étude. Par contre si un lien existe, il faut
expliquer le sens sous-jacent. C'est l'écart entre l’effectif
théorique et l’effectif observé qui sera déterminant, les plus
grands écarts permettront de déterminer les écarts de
l'expérimentation à un contexte dû au hasard.
jean-Claude Liquet
25
La comparaison de
moyennes
ou
m1
m2
m1
m2
H0 : m1 est égal à m2
H1 : m1 est différent de m2
jean-Claude Liquet
26
Ce qui revient à calculer une valeur z qui sera comparée à la valeur du z de la loi normale centrée réduite au risque α.
m1- m2
z = (écart typ 1
de
e
)2
(écart typ
2)
de
e
2
+
n −1
n −1
1
2
Dans le cas de deux proportions le calcul se fait de façon semblable
p1- p2
z =
n p + n p
1 1
2 2
1
1
p =
p 1
( − p)(
+
)
n + n
1
2
n
n
1
2
Pour répondre au test il faut comparer ce z à la valeur limite de la table, autrement dit de vérifier au risque de 5% si z est supérieur à 1,96, car
l'hypothèse de départ est la normalité des distributions
jean-Claude Liquet
27
L’analyse de variance
On cherche à comparer deux (ou plusieurs) expérimentations, c'est à dire à
mettre en relation une série de résultats avec une autre série de résultats.
Ce qui peut se traduire par l'expression " on recherche la relation entre
une variable quantitative(les résultats) et une variable qualitative ( la
première ou la deuxième mesure)".
Par exemple la couleur de l'emballage d'un paquet de lessive est-il un
élément qui a de l'influence sur la quantité de vente ? Les quantités de
vente constituent une variable quantitative, la couleur est qualitative
même si elle est codée 1 ou 2 .
Comparer deux populations revient à comparer les moyennes d'une
variable commune
jean-Claude Liquet
28
analyse à un facteur.
tableau d'expérimentation.
modalité du traitement.
Observation
1
2
j
k
n°
1
Y
1 j
2
...
...
Y
∑ ij
I
Y
ij
...
N
Y
nj
∑Y = n.m
ij
j
∑ ∑Y = N.M
ij
jean-Claude Liquet
29
Le modèle
Y = +
µ α+ε
ij
j
ij
µ est la moyenne de l'ensemble des résultats
α est le coefficient du au traitement particulier, ainsi un traitement particulier s'écritµ α
+
j
j
ε correspond à un facteur résiduel.
ij
Y
M est la grande moyenne, elle s'écrit : M
∑
= ∑ij C'est à dire la somme de toutes les valeurs
i
j
n.k
du tableau divisée par le nombre de cases.
jean-Claude Liquet
30
Première grandeur
caractéristique
Pour chacune des colonnes, c'est à dire pour chacune des modalités on peut calculer la moyenne
du traitement.
∑
Y
m =
ij
j
i
n
jean-Claude Liquet
31
Deuxième grandeur
caractéristique
Chaque résultat contenu dans chacune des cases du tableau est une mesure, l'ensemble de
l'information de toutes ces mesures peut être mis sous la forme de la dispersion de ces mesures
autour de la moyenne des mesures, la dispersion est mesurée ici comme la somme des distances
carrées à la moyenne, notée SC
SCT
∑
∑
= (Y −2
M)
ij
i
j
La dispersion des facteurs autour de la grande moyenne constitue la dispersion factorielle.
SCF n ∑
=
.
(m −2
M)
j
j
Cette dispersion est aussi appelée dispersion entre colonnes ou entre modalités ou beetwen.
jean-Claude Liquet
32
Troisième grandeur
caractéristique
Une troisième grandeur peut être définie c'est la somme des dispersion autour de chacune des
modalités appelée aussi dispersion résiduelle ou dispersion intra ou dispersion within;
SCR
∑
= ∑
(Y
m )
ij +
2
j
i
j
Ce qui revient à calculer l’ensemble des dispersions de chaque modalité autour de sa propre
moyenne et ensuite d'additionner toutes ces dispersions, on a bien la dispersion des résidus autour
des moyennes de modalité.
jean-Claude Liquet
33
L'équation d'analyse de
variance.
SCT=SCF+SCR
. La dispersion est commode pour le raisonnement mais ce
qui a une signification pour comparer des mesures c'est la
variance, c'est à dire la dispersion ramenée à
l'unidimensionnalité.
Le nombre de degrés de liberté doit être déterminé pour faire
la liaison entre la dispersion et la variance.
jean-Claude Liquet
34
Retour à l’unidimensionnalité
La dispersion factorielle ou dispersion inter a été calculée à partir d'une relation entre les
différents facteurs, cette relation fait baisser d'une unité la dimension du ddl, c'est ainsi que pour
k facteurs le degré de liberté est k-1.
La dispersion résiduelle ou dispersion intra est une dispersion de toutes les mesures n.k autour
des moyennes au nombre de k : le nombre de degré de liberté est donc n.k-k ou N-k.
D'où les variances :
VF=SCF/(k-1)
VR=SCR/(N-k)
jean-Claude Liquet
35
Le test de Fischer.
On recherche si l'hypothèse nulle d'égalité des moyennes est vraie. Elle le sera si les données de
chaque colonne sont extraites d'une même loi de probabilité. Dans ce cas la variance factorielle
est approximativement égales à la variance résiduelle et donc on peut émettre la proposition
suivante :
L'hypothèse H0 sera retenu si le rapport F=VF/.VR est inférieur à la valeur de F au degré
de liberté près, qui est la limite de la signification.
Plus ce rapport est élevé 'au dessus du F limite) plus on s'éloigne de l'hypothèse nulle.
jean-Claude Liquet
36
Tableau récapitulatif
D'où le tableau de l'analyse d'e variance :
d.d.l.
Somme des
carrés
F
carrés
moyens
Variance
k-1
SCF
VF=SCF/K-
factorielle
1
variance
N-k
SCR
VR=SCR/N
F=VF/VR
résiduelle
-k
total
N-1
SCT
F suit une loi de Fischer-Snedecor dans la mesure de trois conditions
Les traitements sont additifs
les observations sont indépendantes
Les résidus ont une distribution normale
Le F calculé à partir de la table précédente doit être comparé au Fα lu sur la table de Fisher-
Snedecor dans la colonne k-1 et la ligne N-k pour le seuil de risque accepté α.
jean-Claude Liquet
37
Analyse à deux facteurs
croisés.
Il est possible d'étendre le raisonnement précédent à plusieurs facteurs contrôlés, dans le cas
précédent on recherchait l'effet de la couleur d'un paquet de lessive par exemple sur les ventes,
maintenant on rajoute un facteur , la couleur. Il y a deux variables qualitatives.(par exemple A et
B)
On veut arriver à l'élaboration d'un modèle.
Y =μ +α +β +ε
ij1
j
1
ij1
Cette quantité est la vente de chacun des paquets de lessive ayant une couleur et une forme, c'est
à dire deux caractéristiques A et B.
α représente le résultat de la vente d'un paquet ayant la couleur j et β l'effet de la modalité 1
j
1
du facteur B
jean-Claude Liquet
38
Généralisation
Le tableau se présente sous la forme suivante :
Modalités du facteur A
Modalité
1
2
j
k
du facteur B
A
1
Y
1 j
2
...
...
i
Y
Y
Y
I1
ij
Im
...
K
Y
B
nj
∑Y = K m
∑ ∑Y = N.M
ij
ij
j
ij
L'équation de dispersion s'écrit :
SCT=SCF(A)+SCF(B)+SCR
jean-Claude Liquet
39
Tableau ANOVA
D'où la table ANOVA:
d.d.l.
somme des
carrés moyens
F
carrés
Variance
SCF(A)
SCFA
factorielle A
d = k −1
VF(A) =
VF(A)/VF(R)
k −1
A
A
A
Variance
SCF(B)
SCFB
factorielle B
d = k −1
VF(B) =
VF(B)/VF(R)
k −1
B
B
B
variance
dT-
SCR
résiduelle
d − d
SCR
A
B
VR =
d −d −d
T
A
B
total
dT=N-1
SCT
F est testé séparément par comparaison au F de fisher-Snedecor lu sur la table avec les degrés de
liberté correspondant et la significativité recherchée.
jean-Claude Liquet
40
l'interdépendance.
Ainsi l'analyse de variance permet de traiter en même temps plusieurs facteurs, cependant nous
avons fait l'approximation de l'indépendance de ces facteurs.
Une hypohèse forte est que le modèle est additif
Y = µ +α +β +α
ijk
j
k
ijk
Cependant s'il y interaction on peut améliorer le modèle par un terme de confusion:
Y = µ +α +β +(αβ) +α
ijk
j
k
jk
ijk
Il suffit de considérer ce terme comme l'introduction d'un nouveau facteur et le considérer ainsi.
Extension à n facteurs.
Par extension on peut reprendre l'ensemble des raisonnements précédents qui s'appliquent à n
facteurs avec autant de facteurs de confusion le modèle général s'écrit :
Y = µ +α +β +γ +(αβ) +(αγ) +(βγ) +(αβγ) +ε
ijkl
j
k
l
jk
jl
ki
jkl
ijkl
jean-Claude Liquet
41
Un exemple L’âge de mariage
des hommes et des femmes
Moyennes
Tableau de bord
Age lors de votre (premier) mariage
Sexe du répondant
Moyenne
N
Ecart-type
Homme
24,16
492
4,87
Femme
21,84
710
4,93
Total
22,79
1202
5,03
Oneway
ANOVA
La vie est-elle excitante ou ennuyeuse ?
Somme
Moyenne
des carrés
ddl
des carrés
F
Signification
Inter-groupes
,383
1
,383
1,029
,311
Intra-groupes
370,652
995
,373
Total
371,035
996
jean-Claude Liquet
42
Le salaire des hommes et des
femmes
Moyennes
Tableau de bord
Revenu du répondant
Sexe du répondant
Moyenne
N
Ecart-type
Homme
14,14
482
5,23
Femme
11,55
512
5,69
Total
12,80
994
5,62
Oneway
ANOVA
Revenu du répondant
Somme
Moyenne
des carrés
ddl
des carrés
F
Signification
Inter-groupes
1670,855
1
1670,855
55,798
,000
Intra-groupes
29705,282
992
29,945
Total
31376,137
993
jean-Claude Liquet
43
l’analyse factorielle ACP
Analyse en composantes principales
Cette analyse est la base de toutes les analyses multifactorielles. Elle consiste à regrouper des
variables quantitatives en combinaisons linéaires appelées composantes ou facteurs.
Du point de vue de sa résolution mathématique, la position du problème est simple. elle consiste
à partir de n variables quantitatives quelconques constituant un repère à n dimensions (la matrice
des données) à passer à un repère orthonormé à n dimension. Ces nouvelles dimensions sont les
facteurs. La résolution de ce problème consiste à diagonaliser la matrice des variances
covariances, les composantes principales sont constituées des facteurs dont les valeurs propres
sont les plus importantes.
jean-Claude Liquet
44
Réduire la dimensionnalité
- un bilan des liaisons entre variables (on peut ainsi déterminer celles qui sont liées
positivement entre elles ou celles qui s'opposent, déterminer des groupes de variables corrélées
entre elles, trouver une typologie des variables, etc.), donc diminuer la dimensionnalité des
données en colonnes.
C'est cette étude des variables qui permettra de résumer l'ensemble des variables à un petit
nombre de variables synthétiques appelées composantes principales (une composante principale
représentant un groupe de variables liées entre elles).
jean-Claude Liquet
45
La révolution copernicienne
Le soleil tourne-t-il autour de la terre ou est
ce le contraire?
Quid du référentiel?
jean-Claude Liquet
46
La matrice de variance
covariance
1
R
R
R
12
13
14
R
1
R
R
21
23
24
R
R
1
R
31
32
34
R
R
R
1
41
42
43
jean-Claude Liquet
47
Une matrice carrée symétrique
est diagonalisable
λ
0
0
0
1
0 λ
0
O
2
0
0
λ
0
3
0
0
0
λ4
jean-Claude Liquet
48
Les résultats
Il est possible de conserver tous les axes, cependant cela devient très vite sans objet. A partir du
moment où un axe contient moins d'information que n'importe quelle autre variable de départ, il
n'a plus beaucoup de sens. C'est pourquoi l'habitude est de ne conserver que les axes dont les
valeurs propres sont supérieures à 1. D'autres règles de conservation des axes existent comme par
exemple le critère du coude (la perte d'information entre deux axes consécutifs est dans un
rapport nettement inférieur aux gains précédents). Dans la pratique plusieurs essais sont faits qui
permettent de mieux décrire le contexte, il ne faut pas oublier à ce niveau que l'ACP est une
méthode descriptive, par conséquent le but est de décrire le mieux possible un contexte.
Il est à noter que le nouveau repère constitué est une hyper sphère trigonométrique. La projection
des variables sur les axes sont des cosinus qui permettent de calculer les contributions de chaque
variable au facteur considéré.
jean-Claude Liquet
49
Une application à l’analyse
sensorielle
Le but de l’étude est de rechercherles
descripteurs permettant d’élaborer un profil
sensoriel de 4 spoupes aux légumes verts
Existe-t-il des différences significatives entre
les soupes?
Peut on valider un profil sensoriel issu de
cette analyse
jean-Claude Liquet
50
Mode opératoire
Reconnaissance des saveurs fondamentales
Dégustation par 24 personnes entraînées de 4
soupes : Royco minute soupe aux sept légumes,
Auchan velouté de légumes vert, Knorr moulinée
aux légumes verts Maggi panier de légumes
moulinés légumes verts persillés
jean-Claude Liquet
51
Les descripteurs
Aspects : 8 descripteurs
Odeur : 11 descripteurs
Flaveur : 11descripteurs
Texture : 3 descripteurs
On recherche à réduire le nombre de
descripteurs afin de ne retenir que les plus
pertinents
jean-Claude Liquet
52
Organisation des données
RESULTATS COTATION :
AVANT dégustation :
PENDANT dégustation :
ASPECT :
ODEUR :
FLAVEUR :
asp mat-bril ant
coul jaune
od de pomme de terre
od de poireaux
od de petits pois
int d'odeur
int d'od chimiquefl de poireaux
fl de pomme de terre
fl acide
fl de carotte
int de flaveur
fl astingente
T visqueuse liq- visq
T onctueuse
fl astringente
t col antT visqueuse liq- visq
T hom ( morc-phase)
individu n°1
068
2
1
2
1
3
4
0
3
4
1
3
2
2
3
4
4
4
3
1
0
4
3
2
3
5
4
609
4
1
4
4
4
2
0
4
4
2
3
3
3
2
3
5
5
1
2
2
2
2
3
4
1
1
207
0
4
0
0
1
1
3
3
3
1
3
3
3
2
5
4
3
2
3
0
4
2
4
0
4
5
502
5
4
5
5
2
1
1
3
4
0
3
2
2
2
4
4
4
1
1
0
4
1
1
5
4
1
individu n°2
068
3
3
5
5
2
5
0
0
1
0
5
5
0
5
3
1
2
2
4
0
5
2
0
5
4
0
609
4
4
5
3
4
0
2
1
3
1
4
5
2
3
3
2
2
1
3
3
2
1
0
5
0
1
207
0
1
0
0
3
0
3
4
5
2
3
3
0
0
2
5
4
0
2
1
3
0
0
0
4
5
502
5
3
5
5
2
0
4
4
5
4
4
2
1
0
3
3
4
2
0
2
3
2
0
5
4
0
jean-Claude Liquet
53
Analyse des données
Analyse de chaque descripteur (univariée)
permettant de vérifier les normalités.
Analyse ACP afin de déterminer des
regroupements
jean-Claude Liquet
54
Calcul des valeurs propres
Variance expliquée totale
Valeurs propres initiales
Sommes des carrés chargées
Somme des carrés pour la rotation
% de la
% de la
% de la
Composante
Total
variance ==
% cumulés
Total
variance ==
% cumulés
Total
variance ==
% cumulés
1
4,512
17,355
17,355
4,512
17,355
17,355
4,174
16,053
16,053
2
3,516
13,522
30,876
3,516
13,522
30,876
2,391
9,195
25,248
3
2,062
7,930
38,806
2,062
7,930
38,806
2,171
8,351
33,599
4
1,859
7,149
45,955
1,859
7,149
45,955
1,804
6,938
40,537
5
1,700
6,537
52,492
1,700
6,537
52,492
1,802
6,933
47,470
6
1,502
5,778
58,270
1,502
5,778
58,270
1,717
6,604
54,074
7
1,389
5,342
63,612
1,389
5,342
63,612
1,574
6,056
60,129
8
1,286
4,948
68,560
1,286
4,948
68,560
1,504
5,785
65,915
9
1,134
4,362
72,922
1,134
4,362
72,922
1,493
5,740
71,655
10
1,005
3,866
76,788
1,005
3,866
76,788
1,335
5,133
76,788
11
,851
3,274
80,062
12
,779
2,996
83,058
13
,646
2,485
85,543
14
,494
1,900
87,444
15
,448
1,725
89,169
16
,425
1,635
90,804
17
,387
1,490
92,293
18
,332
1,276
93,570
19
,321
1,233
94,803
20
,292
1,123
95,926
21
,259
,997
96,923
22
,222
,854
97,776
23
,198
,762
98,538
24
,150
,577
99,115
25
,140
,539
99,654
26
8,995E-02
,346
100,000
Méthode d'extraction : Analyse des principaux composants.
jean-Claude Liquet
55
Regroupement des variables en
facteur
Matrice des composantesa
Composante
1
2
3
4
5
6
7
8
9
10
coul homog-hétero
,888
T granuleuse abs-prés
,834
asp homogé- héterog
,826
Prés de morceaux
,822
T onctueuse
-,758
coul jaune
-,599
,366
fl de poireaux
,742
od de poireaux
,621
,459
-,324
od de pomme de terre
,599
,325
,368
-,342
int d'od chimique
-,592
,367
-,323
fl sucrée
-,521
,321
-,324
prés de coul vert fluo
-,515
,402
salée
,482
,309
,362
T visqueuse liq- visq
,634
,427
flaveur acide
,496
-,426
-,348
fl de carotte
-,439
-,409
amère
,623
-,335
int d'od herbacée
,380
-,304
,500
,317
int d'od arômate
-,454
,487
,438
fl astingente
,466
fl de pomme de terre
,392
,480
,341
,377
int d'odeur
,377
,665
,327
od de petits pois
-,437
,454
-,302
asp mat-bril ant
-,314
,303
-,642
,363
int de flaveur
,398
,350
,590
int de coul vert cl à fon
-,415
,370
,427
Méthode d'extraction : Analyse en composantes principales.
a. 10 composantes extraites.
jean-Claude Liquet
56
Interprétation
Élimination des descripteurs non pertinents
Nommer les facteurs
Scorer les facteurs
jean-Claude Liquet
57
AFC AFCM
L'analyse factoriel e des correspondances (AFC) est une application spécifique de l'analyse en
composantes principales (ACP) au cas des tableaux de contingence.
Un tableau de contingence est un tableau d'effectifs croisant les modalités de deux variables
qualitativ es définies sur n individus. Il permet donc de mesurer le lien entre deux variables
qualitatives, voir le tri croisé de deux variables qualitatives et l’indication du lien par le Chi2.
Lorsqu'un tableau de contingence est de grande dimension, il est difficile d'en retirer les
informations essentielles. L'utilisation de l'AFC présente donc un double intérêt :
- faciliter l'étude des liens éventuels existant entre les modalités des deux variables ;
- offrir des possibilités de représentation graphique relativement simple à interpréter.
jean-Claude Liquet
58
Un exemple pédagogique
Un étudiant observateur regarde les jeunes filles qui entrent dans notre institut un matin
ordinaire. Son observation sur deux variables le type de vêtement et la couleur du vêtement sont
consignés dans un tableau de contingence (de contexte).
Pantalon
Jupe
Robe
Bleu
45
11
7
Noir
55
20
15
vert
5
7
6
Rouge
11
8
14
L’analyse habituelle d’un tel tableau est la recherche du lien qui peut exister entre le
type de vêtement et la couleur de celui-ci. Le lien est mesuré par le chi2. Un chi2 significatif
indique une liaison non due au hasard. Dans ce cas il est possible de rechercher une
représentation graphique. La représentation graphique obtenue par l’application de l’AFC a la
m^me signifacation que l’analyse du Chi2. Cependant pour des tableaux de contingence
important, l’AFC permet une interprétation facilitée.
jean-Claude Liquet
59
Représentation graphique
jean-Claude Liquet
60
Analyse factorielle des
correspondances multiples.
L’AFCM est une technique qui permet de visualiser plus de deux variables qualitatives.
Elle se déduit de l’AFC à la condition de transformer le tableau de contingence en tableau
disjonctif complet. Elle permet de visualiser plus de deux variables croisées. Son intérêt est
essentiellement la constitution d’un mapping qui résume une étude de croisements multiples.
Un exemple étudié est l ‘étude de la lecture des magazines par les femmes.
Les variables explicatives étaient
- Les tranches d’âge
- Les PCS
- Les magazines eux mêmes
- Le niveau scolaire
jean-Claude Liquet
61
Le mapping obtenu
3
ouvrières qu
ouvrières no
agricultrice
2
CAP-BEP
employées
aucun diplôme
1
26 à 40 ans
femmes au foyer
mag féminins
BEPC
pqr
mag déco/mai
artisans, co mag sant 4
é 1
/
e à
n 60 ans
0
mag TV
revues loisi
autres revue
Bac/BP/BT
mag fin de s
certificat d
plus de 60 ans
retraitées
-1
DEUG/DUT/BTS
mag économiq
mag culturel
Pro inter
mag scientifique
hebdo d'info
-2
pqn
2/3èmes cycl
-3
cadres et pr
-4
-2
-1
0
1
2
3
4
jean-Claude Liquet
62
Les méthodes explicatives
La régression linéaire
La régression simple
jean-Claude Liquet
63
Recherche d’une équation
Il s’agit de trouver la droite moyenne de la forme y=ax+b. Les mathématiques élémentaires
nous ont appris à tracer des droites connaissant les paramètres a et b. Ici, c’est la position
inverse, les couples (x,y) sont déterminés, il s’agit de déterminer les paramètres a et b.
Deux inconnues à déterminer appellent deux équations indépendantes à écrire.
La première est relative au centre de gravité des points.
_
_
y
a
b
+
=
x
La deuxième est un calcul d’optimisation sous contrainte de linéarité.
jean-Claude Liquet
64
Quelques rappels
Il s’agit de trouver la droite moyenne de la forme y=ax+b. Les mathématiques élémentaires
nous ont appris à tracer des droites connaissant les paramètres a et b. Ici, c’est la position
inverse, les couples (x,y) sont déterminés, il s’agit de déterminer les paramètres a et b.
Deux inconnues à déterminer appellent deux équations indépendantes à écrire.
La première est relative au centre de gravité des points.
_
_
y
a
b
+
=
x
La deuxième est un calcul d’optimisation sous contrainte de linéarité.
jean-Claude Liquet
65
Détermination des paramètres
Comme il est d’usage pour une distribution de points, et donc une sommation, c’est les
distances quadratiques qui sont les plus pertinentes, d’où l’expression :
E2
∑
n
=
( y
Y 2
)
i −
i
1
La minimisation de cette expression consiste en une dérivée partielle par rapport aux deux
paramètres et l’égalisation à 0.
Les deux expressions permettent la résolution du système d’équations et par, conséquent, les
expressions de a et de b.
La résolution complète permet de déterminer a
cov(xy)
a =
varx
_
_
et b se déduit de la première expression y
a
b
+
=
x
_
_
cov(xy)
b
y -
=
x
varx
jean-Claude Liquet
66
Résolution graphique
jean-Claude Liquet
67
Validation
Deux précautions
- Les résidus doivent avoir une distribution normale
- La pente de la droite doit être significativement différente de 0, une droite parallèle à
l’axe des x indique une corrélation nulle.
La distribution normale des résidus permet de vérifier que ces résidus sont bien du au hasard,
qu’il n’y a pas d’autres éléments qui interviennent dans l’observation. Le test KS est possible.
C’est une condition nécessaire, elle n’est pas suffisante.
Par ailleurs vérifier que la pente n’est pas nulle (que a n’est pas nul) revient à comparer a à o.
Le test approprié est le test de Student à n degré de liberté.
Il suffit donc de calculer le t de Student et de vérifier qu’il est supérieur à 1,96 pour un risque
alpha de 0,05.
jean-Claude Liquet
68
Régression multiple
La régression multiple est utilisée lorsqu’il y a plusieurs variables explicatives.
Dans le cas de deux variables explicatives, le nuage de points est représenté dans un espace à
3 dimensions, la régression consiste à rechercher un plan de régression de la même manière
que précédemment.
Une hypothèse forte est cependant introduite. Le raisonnement étant fait dans un espace
orthogonal, les variables explicatives doivent être indépendantes. Chacun des coefficients de
régression doit faire l’objet d’un test de Student selon les mêmes modalités que pour le cas de
la régression simple.
L’expression générale s’écrit de la manière suivante :
Y
a X
a X
a X
1
1
2
2
3
ε
+
+
+
+
=
......
3
Les a sont les coefficients qui doivent être non nuls qui font donc l’objet d’un test t.
i
Les X sont les variables explicatives. Celles qui sont affectées d’un coefficient non nul
i
interviennent dans l’observation et réciproquement.
ε
est l’incertitude ou le résidu.
jean-Claude Liquet
69
L'analyse structurelle
L’analyse structurelle a pour objet l’analyse de modèles. Se basant sur les liens linéaires entre les
variables mesurant des concepts, il s’agit de tester un modèle par rapport à un autre.
Il importe de faire une analyse des variances et covariances, ainsi que des régressions
linéaires. Des indices d’ajustement permettent de tester l’expérimentation par rapport au
modèle théorique.
Cette technique fait partie des méthodes dites de deuxième génération, elle a le mérite de
combiner des méthodes statistiques habituelles en une combinatoire maintenant admise. Les
techniques sous jacentes sont d’une part l’analyse factorielle et d’autre part les équations
simultanées (système d’équations linéaires).
Les logiciels les plus couramment utilisées sont EQS, LISREL, PLS et AMOS
jean-Claude Liquet
70
Les variables latentes.
Q1
e1
Q2
e2
engagement
Q3
e3
Q4
e4
Quatre équations sont générées :
Q1=a1(engagement) +e1
Q2=a2(engagement) +e2
Q3=a3(engagement) +e3
Q4=a4(engagement) +e4
Les ei sont les incertitudes de mesure.
jean-Claude Liquet
71
Les structures
1
1
e10
e1
1
Q5
e5
1
1
1
Q1
1
e2
Q6
e6
µ
1
1
Q2
engagement
fidelite
Q7
e7
e3
1
1
1
Q3
Q8
e8
e4
Q4
1
Q9
e9
C’est la détermination de µ qui est l’objet du problème. L’équation déterminante est la
suivante :
Fidélité=µ * engagement+ e10
Les deux variables latentes étant déterminées par le même type d’équation que dans le
paragraphe précédent.
A ce stade c’est un ensemble d’équations de régression linéaire qui va lever les
indéterminations et permettre de calculer les coefficients de régression. Les tests de pertinence
sont les mêmes que dans les systèmes linéaires.
Cependant les moments statistiques que sont les variances covariances vont permettre de
tester la pertinence de la structure.
Le principe consiste à comparer la matrice de variance covariance O des variables observées
avec la matrice théorique T.
La comparaison est naturellement le chi2, nous verrons par la suite les limites de cette
distance entre deux matrices.
jean-Claude Liquet
72
Comme pour un tableau de contingence la question de l’optimisation théorique est délicate.
Ici l’optimisation est fondée sur une fonction de maximum de vraisemblance.
X est la matrice des variables observée. (p variables sur n observations)
L la matrice des variables latentes
I la matrice des incertitudes de mesure
C la matrice des contributions.
Le modèle peut s’écrire
X=CL+I
L’analyse de structure de variance covariance s’écrira :
T=C£C’+E
T est la matrice théorique que l’on calcule à partir de
C calculé précédemment comme matrice des contributions, C’ étant sa transposée
£ la matrice de variance covariance des variables latentes
E est la matrice des résidus.
jean-Claude Liquet
73
Le « fit » ou ajustement global sera jugé par le chi2 ou mieux le chi2 relatif=chi2/ddl la
probabilité du chi2 est d’autant meilleure qu’elle est proche de 1. On admet un chi2 relatif
inférieur à 2 comme reflétant un bon ajustement.
Du fait de la très forte sensibilité du chi2 à la taille de l’échantillon, d’autres indices
d’ajustement sont employés, less plus courants sont :
- Le GFI et l’AGFI qui varient de 0 à 1 indiquent la part de variances et covariances des
variables observées pris en compta par le modèle. L’AGFI est ajusté au nombre de degré de
liberté.
- Le RMR Root Mean Square Residual est la mesure de la variance résiduelle La limite
supérieure couramment admise est 0,08.
- Le RMSEA a lui aussi une limite supérieure de 0,08.
Les limites n’ont de sens que dans l’absolu, en fait il est beaucoup plus intéressant de
comparer les modèles et de retenir celui qui a les meilleurs indices d’ajustement, et de
continuer à rechercher des modèles qui infirment le premier et ainsi de suite.
jean-Claude Liquet
74
Un exemple agro-alimentaire
Figure 1 :
Modèle structurel complet et principaux résultats
OSL1
0.32
VSK1
OSL2
VSK2
Tendance à la
0.57
OSL3
recherche de
VSK3
variété en
OSL4
OSL
alimentaire
VSK4
OSL5
VSK5
0.45
OSL6
0.20
VSK6
Appréciation
OSL7
VSK7
sensorielle
VSK8
Golden
Royal Gala
Red Chief
Jonagold
jean-Claude Liquet
75
Recherche de variété et perceptions
sensorielles
jean-Claude Liquet
76
Plan de l ’exposé
La spécificité de comportements alimentaires
La recherche de variété
Les préférences
Problématique
Mesure
Résultats, limites et perspectives.
jean-Claude Liquet
77
Les comportements alimentaires
Importance, risque ,plaisir
Pilgrim 1957
Les déterminants généraux
Shepherd 1985
Les déterminants du goût
Sirieix 1999
Rôle de la recherche de variété
jean-Claude Liquet
78
La recherche de Variété
Comme facteur de stimulation (Van Trijp
1992)
Réduction de monotonie
Un optimum (le niveau optimum de
stimulation OSL) Berlyne 1960, Driver et
Streufert 1964
jean-Claude Liquet
79
Les préférences sensorielles
Les déterminants des préférences de couleur : l ’âge, le
sexe,la personnalité, la culture ( Divard et Urier 2001)
On peut s ’attendre à des déterminants du même ordre en
ce qui concerne le goût
Le déterminisme socio-culturel selon Bourdieu (1979),
des socio styles selon le CCA : La golden pour le
conservateur la Granny pour l ’aventurier
jean-Claude Liquet
80
La problématique
Un lien existe entre la tendance à la
recherche de variété en alimentaire et les
préférences gustatives.
Plus un individu présente une forte tendance
à la recherche de variété plus son
appréciation sensorielle est élevée
jean-Claude Liquet
81
Modèle simplifié
OSL
Tendance à
la recherche
de variété
Appréciation
sensorielle
jean-Claude Liquet
82
Mesure de l ’OSL
Le choix s’est porté sur CSI version courte
en 7 items de Giannelloni (1997)
Les autres échelles à disposition
Steenkamp et Baumgartner (1992) ont
comparé SSS, AST-II, CSI, NES, ils
proposent CSI
jean-Claude Liquet
83
Mesure de la tendance à la
recherche de Variété
Choix de VARSEEK de Van
Trijp et Steenkamp, 1992 ; cette
échelle est en anglais, elle est ici
traduite et testée.
jean-Claude Liquet
84
Mesure de l ’appréciation
sensorielle
Élaboration d’un index de préférence sur un
produit de consommation courante : la
pomme. La Granny Smith, la Golden, la
Royal Gala, la Red Chief et la Jonagold
jean-Claude Liquet
85
Échantillon et mise en œuvre
empirique
79 répondants en laboratoire d ’analyse
sensorielle (contrôle des variables externes),
les répondants sont des volontaires de
l ’univers de l ’Institut Agroalimentaire de
Lille
39 répondants goûtent avant de remplir le
questionnaire, 40 après.
jean-Claude Liquet
86
Contrôle de l ’échelle
unidimensionnelle OSL
Item
Communautés Loading
% Var.
α
OSL 1
0,496 (0,56)
0,704 (0,75)
OSL 2
0,553 (0,69)
0,743 (0,83)
OSL 3
0,511 (0,58)
0,715 (0,76)
OSL 4
0,554 (0,63)
0,744 (0,79)
53,2 (57,6) 0, 852 (0,876)
OSL 5
0,604 (0,61)
0,776 (0,78)
OSL 6
0,517 (0,41)
0,719 (0,64)
OSL 7
0,492 (0,55)
0,702 (0,74)
Tableau 1 : Analyse en composantes principales exploratoire de l’OSL (les valeurs entre parenthèses
rappellent les résultats de Giannel oni, 1997)
jean-Claude Liquet
87
Traduction et validation de
l ’échelle VARSSEK
Item
Communa Loading
% Var.
α
utés
VSK1
0,626
0,791
VSK2
0,331
0,575
VSK3
0,715
0,846
VSK4
0,647
0,805
VSK5
0,617
0,785
59,0
0,896
VSK6
0,701
0,837
(0,58)
(0,90)
VSK7
0,498
0,706
VSK8
0,590
0,768
Tableau 2 : Analyse en composantes principales exploratoire de la tendance à la recherche de variété (les
valeurs entre parenthèses rappellent les résultats de Van Trijp et Steenkamp, 1992)
jean-Claude Liquet
88
Le modèle structurel
OSL1
VSK1
OSL2
VSK2
OSL3
0,32
VSK3
0,57
OSL4
OSL
Tendance à la
VSK4
recherche de variété
OSL5
en alimentaire
VSK5
OSL6
VSK6
0,45
OSL7
0,20
VSK7
SENSOR
VSK8
Golden
Royal Gala
Red Chief
Jonagold
Figure 1 : Modèle structurel complet et principaux résultats
jean-Claude Liquet
89
Indices d ’ajustement
χ2 = 133,58 (ddl : 100 ; p : 0,014) ;
χ2 /ddl = 1,33 ;
CFI = 0,93 ;
TLI = 0,92.
jean-Claude Liquet
90
Limites perspectives et
implications
Une échelle est traduite et testée
Les relations cherchées sont montrées
Reste à valider les variables pertinentes de
recherche de variété.
Si il y a recherche de variété cela implique que dans
le temps les goûts évoluent
L ’élaboration des gammes doit se faire en fonction
de cette nouvelle donnée
jean-Claude Liquet
91
Analyse discriminante
Cette méthode est connue aussi sous le nom de scoring. Elle est très employée par les
organisations qui veulent prédire le comportement des clients.
Lors d'un prêt le banquier se pose inévitablement la question "est ce que mon client va bien
rembourser ou non ?». En fait il souhaite pouvoir prédire la case de bon payeur ou mauvais
payeur. Pour ce faire il va comparer à ce qu'il sait de ses autres clients avec ce qu'il sait de son
emprunteur. En d'autre terme il va chercher une fonction explicative qui affecte les clients à
une case ou l'autre et ensuite il applique cette fonction à son nouvel emprunteur. Ne nous y
trompons pas, le questionnaire que le banquier fait remplir est tout simplement les réponses de
l'unité statistique aux variables explicatives.
jean-Claude Liquet
92
L'analyse discriminante peut être considérée comme la recherche de groupes sous jacents. Il
s'agit de rechercher des axes qui décrivent ces deux groupes alors que les variables qui ont
servi à la mesure ne les "discriminent pas"
Le graphique suivant permet de visualiser cet état des choses.
Il y a bien deux nuages de points mais leurs projections sur x et y ne permettent pas de les
distinguer.
De fait la solution consiste à trouver un axe sur lequel on va projeter et qui distingue bien
deux groupes.
jean-Claude Liquet
93
Faire une analyse discriminante revient ainsi à trouver l'axe qui permet d'obtenir que les deux
moyennes soient significativement distinctes
La nouvelle variable est une combinaison linéaire des précédentes.
Ici l'analyse se fait sur deux dimensions de départ et un axe discriminant. Dans la pratique on
peut avoir un espace de plus de deux dimensions, le nombre d'axes discriminants est ainsi
augmenté.
En fait cela ressemble beaucoup à l'analyse de variance, la première des conditions est le
calcul de la quantité.:
Le deux groupes étant représentés par les deux ellipses, ce rapport se compare à la distribution de
Variance i nter −groupe
Variance in
tra −groupe
F, ainsi il apparaît qu'il faut maximiser le numérateur et minimiser le dénominateur.
On remarquera que la démarche s'apparente fortement à une analyse en composantes
principales. En particulier en la recherche de combinaisons linéaires.
jean-Claude Liquet
94
Validation de l’analyse
discriminante
Les indicateurs statistiques de validation sont
Le V de Bartlett
Le test de Rao
Le λ de wilks est utilisé plus simplement si le nombre de classe est 2 ou 3. C’est le rapport de
la variation intra-groupe à la variation totale.
jean-Claude Liquet
95
Analyse conjointe
jean-Claude Liquet
96
Compromis et Modèle de Choix
« Mieux vaut être riche et en bonne santé que pauvre et malade … »
jean-Claude Liquet
97
Réalité
Phys ique
Jugements
(Perception)
Évaluation des
attributs
Évaluation
Globale
Probabilité
d ’achat
jean-Claude Liquet
98
C hoix du modèle
Autre courbe possible
X
X
X
U4
X
U3
X
Droite de
X
U2
régression
X
U1
X
X
Rang 1
Rang
Rang 3 Rang
2
4
jean-Claude Liquet
99
Le modèle compensatoire
additif
j =3
k = 4
l = 2
m=3
P
U = U
ω
ω
ω
ω
0 +
A +
B +
C +
D
∑
∑
∑
∑
i
j
j
k k
l l
m
m
j =1
k =1
l =1
m=1
Uepist l’utilité du produit p pour l’individu i
ω=0 si l'individu n'a pas retenu la modalité j
ω=1 si l'individu a retenu la modalité j.
jean-Claude Liquet
100
Le choix de la régression
M onanova
Prefmap
Linmap
Algorithme de Johnson
R égression multiple
Logit
Probit
jean-Claude Liquet
101
Processus d ’analyse
jean-Claude Liquet
102
Analyse du champs
d ’expérience et choix
d ’un modèle
Identification des attributs
pertinents et des
modalités
Définition des paniers
d ’attributs ( plan
factoriel)
R ecueil des Préférences
C alculs des utilités et des
importances des attributs
Optimiser
S egment sur les
S imuler les parts de
sous contraintes
avantages recherchés
marchés
de coûts de production
jean-Clau
de Liquet
103
Un exemple
Le choix du pain par les enfants
jean-Claude Liquet
104
Les caractéristiques du pain
ATTRIBUT
MO D ALITES
IN GRED IEN TS
- type 5S : pain blanc
- pain complet
- aux germes
MO D E D E FABRIC ATIO N
- artisanal
- moderne : pétrissage intensifié
TEMPS D E C UISSO N
- court : croûte claire
- longue : croûte foncée
FO RME
-petit pain : 80 grammes
- pain : 500 grammes.
-baguette : 250 grammes
jean-Claude Liquet
105
Le plan d ’expérience
Réduction du nombre de concepts.
Le
nombre
de
concepts
est
3X2X2X3=36 ; une réduction permet
la présentation de 9 .
Procédure orthoplan.
OR THOPLAN
/FAC TOR S =ingredie 'ingredient' ( 1 'pain blanc' 2 'pain complet' 3
'aux'+
' germes') fabricat 'mode fabrication' ( 1 'artisanal' 2 'pétrissage'+
' intensifié') temps 'temps de cuisson' ( 1 'court' 2 'long') forme
'forme' (
1 'petit pain' 2 'pain' 3 'baguette')
/OUTFILE ='C :\Program Files\S PS S \OR THO.S AV' .
jean-Claude Liquet
106
Les différentes combinaisons
Pain 1 : petit pain, pétri à la machine, aux germes et peu cuit.
Pain 2 : petit pain, pétrissage artisanal, mie blanche, cuit
longuement.
Pain 3 : pain boulot, pétrissage artisanal, aux germes, cuit
longuement.
Pain 4 : pain boulot, pétrissage artisanal, complet, peu cuit.
Pain 5 : pain boulot, pétri à la machine, mie blanche, peu cuit.
Pain 6 : baguette, pétrissage artisanal, aux germes, peu cuit.
Pain 7 : baguette, pétrissage artisanal, mie blanche, peu cuit.
Pain 8 : petit pain, pétrissage artisanal, complet, peu cuit.
Pain 9 : baguette, pétri à la machine, complet, cuit longuement.
jean-Claude Liquet
107
La procédure
Data list free /ID PR E F1 TO PR E F9.
BE GIN DATA
01 04 01 08 06 09 03 07 05 02
02 05 07 02 04 03 01 09 08 06
… … … … … … … … … … … …
03 07 05 03 04 09 06 01 08 02
48 02 07 01 05 09 08 06 03 04
04 07 02 05 03 04 01 08 06 09
49 02 01 06 08 05 09 07 03 04
05 07 02 05 08 01 09 03 04 06
E ND DATA.
06 02 07 05 09 03 04 06 01 08
07 07 05 02 01 08 03 09 04 06
C ONJOINT PLAN='a:\orthopain.sav'
08 05 02 07 01 09 08 04 06 03
/DATA=*
09 01 03 05 09 07 08 04 06 02
/S E QUE NC E =PR E F1 TO PR E F9
10 02 06 03 01 04 09 08 07 05
… … .. … . … … … … …
/S UBJE C T=ID
/FAC TOR S =ingredie (D IS C R E TE ) mode
(Discrete) temps (discrete)forme (discrete)
/PR INT=ALL
/plot al
/utilite="exercice.sav".
jean-Claude Liquet
108
Les résultats - 1
SUBJECT NAME: 1,00
Importance Utility(s.e.) Factor
+---------+ INGREDIE ingredient
I61,22 I -3,0000( ,7328) ----I pain blanc
+---------+ 2,0000( ,7328) I--- pain complet
I 1,0000( ,7328) I- aux germes
I
I MODE mode de fabrication
,00 I ,0000( ,5496) I artisanal
I ,0000( ,5496) I moderne
I
+----+ TEMPS temps de cuisson
30,61I I 1,2500( ,5496) I-- court
+----+ -1,2500( ,5496) --I long
I
++ FORME forme
8,16 II ,3333( ,7328) I petit pain
++ ,0000( ,7328) I pain
I -,3333( ,7328) I baguette
I
4,5833( ,5794) CONSTANT
Pearson's R = ,959 Significance = ,0000
Kendall's tau = ,833 Significance = ,0009
jean-Claude Liquet
109
Les résultats - 2
SUBFILE SUMMARY
Averaged
Importance Utility Factor
+---------+ INGREDIE ingredient
I38,40 I 1,1875 I---- pain blanc
+---------+ -,9306 ---I pain complet
I -,2569 -I aux germes
I
+--+ MODE mode de fabrication
13,42 I I -,0990 I artisanal
+--+ ,0990 I moderne
I
+---+ TEMPS temps de cuisson
14,28 I I -,2188 -I court
+---+ ,2188 I- long
I
+--------+ FORME forme
I33,90 I ,6806 I-- petit pain
+--------+ -,0833 I pain
I -,5972 --I baguette
I
5,1059 CONSTANT
Pearson's R = ,971 Significance = ,0000
Kendall's tau = ,833 Significance = ,0009
jean-Claude Liquet
110
Les résultats - 3
1,5
1,0
,5
0,0
-,5
,2
-1,0
,1
-1,5
pain blanc
pain complet
aux germes
ingredient
0,0
-,1
-,2
artisanal
moderne
mode de fabrication
jean-Claude Liquet
111
Les résultats - 4
,3
,2
,1
-,0
,8
-,1
,6
,4
-,2
,2
-,3
court
long
0,0
temps de cuisson
-,2
-,4
-,6
-,8
petit pain
pain
baguette
forme
jean-Claude Liquet
112
Les résultats - 5
40
30
20
enn
yeo
me 10
cn
rtaop
Im
0
ingredient
temps de cuisson
mode de fabrication
forme
jean-Claude Liquet
113
Un exemple
Les stéréotypes des vendeurs
jean-Claude Liquet
114
Les résultats - 1
Attributs Importance
M odalités
Utilités
Habits 55,22%
Décontractés
-0,3226
S tricts
0,6237
De travail
-0,3011
S exe
20,39%
Homme
0,4919
Femme
-0,4919
Age
24,28%
20 à 35 ans
0,0968
35 à 45 ans
0,0108
Plus de 45 ans -0,0860
Tau de Kendal = 0,556 R isque alpha = 0,0185
jean-Claude Liquet
115
Les résultats - 2
Tableau : fiche de l'entrepris e Dupont
Attributs
Importance Modalités
Utilités
Habits
28,57%
Décontractés
1,3333
S tricts
-0,3333
De travail
-1
S exe
42,86%
Homme
1,7500
Femme
-1,7500
Age
8,57%
20 à 35 ans
03333
35 à 45 ans
1
Plus de 45 ans
-1,3333
jean-Claude Liquet
116
C alcul des utilités
L’entreprise “ Dupont ” vient de s’adjoindre comme
col aborateur M adame Germain qui a 28 ans,
el e est habituel ement habil ée d’un tail eur noir.
On peut calculer “ l’utilité ” totale pour chacune des entreprises
de ce négociateur.
Utotal= utilité ( habit strict ) + utilité (sexe féminin )
+ utilité (âge entre 25 et 35 ans).
jean-Claude Liquet
117
R épartition des scores
8
6
4
2
épartition du score d'accueilR 0 -4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0
la jeune femme stricte
M oyenne 0,22 et E cart Type 2,39
jean-Claude Liquet
118
R épartition des scores
8
6
4
2
épartition du score d'accueilR 0 -4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0 5,0
Le jeune homme strict
M oyenne 1,2 et E cart-type 2,36
jean-Claude Liquet
119
Segmentation par
avantages recherchés
typologies et cartes
perceptuelles.
jean-Claude Liquet
120
Typologie par avantages recherchés
Typologie par avantages recherchés,deuxième série
l'avantage principal
type d'ensei
famil es
vie de l'iup
1
2
3
débouché
4
0,0
,1
,2
,3
,4
,5
,6
,7
,8
jean-Claude Liquet
121
Carte perceptuelle : les avantages recherchés par les
étudiants dans une formation univers itaire
profes s ionnalis ée
,4
publicequi-uni-pro
,2
II
0,0
ouverture
équilibre
-,2
responsabili
-,4
débouchéd'a
projet perso
-,6
I
III
alternance
-,8
-1,0-1,0
-,5
0,0
,5
1,0
1,5
2,0
jean-Claude Liquet
122
Autre exemple : la presse
1,5
rationnalité les échos
1
analyse
image de soi risquée
0,5
pqr le monde
dis tribution
"les accros"
lefigaro
ne lit rien
le monde
0
Libé
-1,2
-1
-0,8
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
1
besoin sans risque
pas impliqué
-0,5
contenu
le plais ir
-1
proximité de pensée
l'humanité
-1,5
passion
jean-Claude Liquet
123
Le prix acceptable
Le prix et la mise à disposition.
3
2
1
0
prix les deux autres
niveaux *2 ou *3
-1
abonnement
-2
portage
utilite prix et distribution -3
achat en magasin
distribution
proximité politique
analyse rationnalité
contenu
Segment par avantages recherchés
jean-Claude Liquet
124
jean-Claude Liquet
125
jean-Claude Liquet
126
L ’ANALYSE DE SURVIE
jean-Claude Liquet
127
Les modèles de survie:
- stratégie de fidélisation
- outils de CRM
jean-Claude Liquet
128
A partir des fichiers clients évaluer les pratiques commerciales.
Comment ?
Par l’analyse des durées de vie de vos lecteurs
jean-Claude Liquet
129
Optimiser les actions de fidélisation
avec les Modèles de Survie:
Décrire
Expliquer
jean-Claude Liquet
130
La fidélité à un journal dépend:
de son contenu
de la qualité de la livraison
de la pression commerciale sur la diffusion de leur
parution
Mais les précautions n’empêchent pas les résiliations
jean-Claude Liquet
131
une des solutions ?
Anticiper la résiliation, intervenir en amont
de la prise de décision de résiliation.
jean-Claude Liquet
132
Un exemple d ’étude a été publié dans « Décisions Marketing »
Les variables retenues dans le cadre du quotidien:
Le mode de recrutement
La périodicité du paiement
Le mode de livraison
Le prix de l ’abonnement
jean-Claude Liquet
133
La mesure de la durée de vie des abonnés:
L ’analyse de survie se décompose en deux phases
complémentaires:
L ’analyse de survie descriptive
L ’analyse de survie explicative
jean-Claude Liquet
134
Les analyses de survie descriptives :
Renseignent sur la valeur actualisée client :
Life Time Value
Examen de la population suivant la méthode des
démographes
jean-Claude Liquet
135
Les analyses de survie explicatives:
la probabilité de survie du client
une gestion pertinente des résiliations
d ’abonnements
jean-Claude Liquet
136
Modélisation de l ’analyse de survie:
Temps
jean-Claude Liquet
137
Modélisation des durées de survie :
- recherche d ’une fonction qui rende compte de la forme de la courbe
- prévoit les chances qu ’un lecteur fidèle possédant un certain profil le
soit encore au bout d ’un certain temps.
jean-Claude Liquet
138
Un exemple d ’application:
L ’application des analyses de survie nécessite:
une variable de durée
un indicateur de censure
jean-Claude Liquet
139
L ’étude descriptive
La médiane de survie est de 34 mois.
jean-Claude Liquet
140
Ou encore:
40% des abonnés ne renouvellent pas leur
abonnement au bout d ’un an.
La demi vie est de 28 mois
jean-Claude Liquet
141
Seuls 82% des abonnés poursuivent leur abonnement à l ’issue
de un an
jean-Claude Liquet
142
Pour cette population ayant optés pour le prélèvement
automatique, la fonction de risque est tracée:
Les zones de risques sont ainsi lisibles
jean-Claude Liquet
143
La valeur actualisée du client:
Les clients les plus fidèles n ’ont pas toujours la valeur
la plus élevée
jean-Claude Liquet
144
Modélisation des durées de survie individuelles:
Le modèle de Cox
différentes variables explicatives :
- la tranche d ’âge de l ’abonné (plus et moins 50 ans)
- le mode d ’abonnement
- le mode de distribution
- le mode de paiement
jean-Claude Liquet
145
La probabilité de survie de chaque lecteur est estimé suivant son
profil et pour un horizon de temps fixé.
On détermine ainsi:
Qui doit faire l ’objet d ’actions ?
Quand agir ?
jean-Claude Liquet
146
jean-Claude Liquet
147
jean-Claude Liquet
148
Les conclusions induites :
Les abonnés servis par portage sont plus fidèles
Le prélèvement automatique est un facteur de fidélité
L ’abonnement volontaire est plus durable
Les plus âgés sont les plus fidèles
jean-Claude Liquet
149
Le fichier et son devenir
caractéristiques
probabilité de survie
mode de
type de
mode de
individu
âge
distribution
paiement
recrutement
4
8
12
actions marketing
a
action 1
b
action 2
c
action 3
d
action 4
e
action 5
f
action 6
action 1
agir sur le produit lui-même
action 2
agir sur la force de vente
action 3
vérifier la logistique/étendre le portage
action 4
envoi de courrier
action 5
cadeau de réabonnement
action 6
supprimer le possibilité de résiliation mensuel
jean-Claude Liquet
150
Les perspectives possibles
L ’analyse de survie est bien adaptée à la presse pour mettre
en place des programmes de fidélisation.
Les données comportementales des lecteurs abonnés ou
portés peuvent être enrichies également par d ’autres
méthodes de scoring.
jean-Claude Liquet
151