Publier
Consulter, acheter et télécharger des documents, présentations, modèles et ebooks sur Needocs (PDF, Word, Powerpoint, Excel)

Cours d'analyse des données

Téléchargement
Publié par : Superwaldo
Analyse des données
jean-Claude Liquet
1

4 séances
 1- Les données: nature, traitement quanti-quali.
Analyse univarié et bivarié.
 2- L’analyse de variance, l’analyse factorielle ACP
AFC AFCM
 3-Les méthodes explicatives : régression linéaire et
multilinéaire, l’analyse structurelle des variables
latentes.
 4-Analyse discriminante. Analyse conjointe et
analyse multidimensionnelle des similarités
jean-Claude Liquet
2

Bibliographie : analyse de données en marketing.
Proposée par J.C. Liquet :
Audigier 1995 “ les études marketing ” Dunod fiches express.
Bouroche et Saporta 1992 “ l’analyse des données ” P.U.F. Que sais je n=°1854.
Cibois 1995 “ l’analyse factorielle ” Que Sais Je 2095.
Baleo JN et al 2003 « Méyhodologie expérimentale Tech et Doc
Bon , Gregory 1995 “ les techniques marketing ” Vuibert.
Croutsche Jean-Jacques 1997 “ Pratique de l’Analyse des données ” Editions Eska
Dickes P et al 1994 “ la psychométrie” Puf.
Foucart Thierry 1997 “ l’analyse de données ”presses universitaires de Rennes
Escoffier et Pagès 1988 “ analyses factorielles simples et multiples : objectifs, méthodes et interprétation ” Dunod.
Escoffier et Pagès 1997 « Initiation aux traitements statistiques, méthodes, méthodologie » Presse Universitaire de Rennes.
Evrad et Lemaire 1976 “ information et décision en marketing ” Dalloz.
Fenelon 1992 “ qu’est ce que l’analyse des données ”, Lefonen.
Gianelloni, Vernette 1994 “ étude de marché ” Vuibert.
Giard 7ième ed 1995 “ statistique appliquée à la gestion ” Economica.
Green,Tull 1974 “ recherche et décisions en marketing ”, Presses Universitaires de Grenoble.
Hooley et Hussey 1994 “ quantitative methods in marketing ” The Dryden Press.
Lagarde Jean de 1995(réedition) “ initiation à l’analyse de données ” Dunod
Ladwein 1996 “ les études marketing ” Economica.
Lambin 1993 “la recherche en marketing ” Ediscience.
Liquet J C, Flambard S, Jean S 2003 « Cas d’analyse des données en marketing Tech et Doc»
Moscarola. 1990 “ enquêtes et analyse des données ” Vuibert.
Perrien Cherron 1984 “ recherches en marketing , méthodes de décision ” Gaëtan Morin.
Pras, Evrad, Roux 1994 “ market ” Vuibert
S.P.S.S. manuels d’utilisation.
jean-Claude Liquet
3

Biblio suite
Roussel P et al 2002 « Méthodes d’équation structurelles: recherche et applications en gestion » Economica
Saporta 1990 “ probabilités, analyse des données et statistique ” éditions Technip.
Thiétart Alain et al. 1999 “Méthodes de recherche en management ” Dunod.
Vedrine J.P . 1991 “ Le traitement des données ” éditions d’organisation.
Vandercammen, Gauthy-Sinéchal 1999 « Recherche Marketing, outil fondamental du marketing » De
Boeck Université
Volle M. 1989 “ analyse des données ” Economica.
Wonnacott. 1972, 4ième ed 1994. “ statistique ” Economica
La collection Sage et Amos user guide
jean-Claude Liquet
4

Origine des données
 Données primaires
 Observation
 Expérimentation
 Enquête
 Données secondaires
 Insee
 Organisme public
 Observatoire spécialisé (Xerfi etc.)
jean-Claude Liquet
5

Nature des données
 Les données nominales
 Genre homme femme que l’on peut coder 0 et 1
 Les données ordinales
 Relation d’ordre antisymétrie et transitivité
 Les données quantitatives de ratio
 Y=aX
 Les données quantitatives d’intervalle

Y=aX +b (la température et les échelles de lickert ou à différentiel
sémantique)
jean-Claude Liquet
6

les échelles de Lickert ou à différentiel
sémantique
 Différentiel sémantique
Pour vous le produit est
Amer___1 __2 __3 __4 __5__ 6__ 7__ Doux
 Echelle de lickert
Le produit que je viens de goûter est amer
Pas du tout Pas d’accord
ni d’accord
d’accord Tout à fait
d’accord ni pas d’accord
d’accord
/___1____/______2______/______3________/_____4_____/____5_/
jean-Claude Liquet
7

L'organisation matricielle des
données

Individu
Varible1 /
Variable 2 / Variable 3
Variable 3 /
Le poids en La taille en
Le sexe
Le rang au
kg
m
100 M
papillon
masculin
universitaire
Pierre
75
1,80
Masculin
1
Marie
60
1,65
Féminin

Jasmina
56
1,60
Féminin

Jacques
80
1,90
Masculin
2
Paul
72
1,70
Masculin
3
Denis
60
1,60
Masculin
7
Anne
50
1,60
Féminin

Jean
74
1,75
Masculin
5
Josué
90
2
Masculin
4
Idriss
85
1,83
Masculin
6
Etienne
85
1,70
Masculin
8


jean-Claude Liquet
8

L'analyse univariée ou tri à plat
Variables quantitatives
n
x =
x
n
i
1
où x
est
la
moyenne
x est
un
élément
quelconque de la
var iable
i
n est
le
nombre d 'éléments
jean-Claude Liquet
9

Distribution

Courbe de Gauss
F
R
E
Q
U
E
N
A
C
E
M
ceneuqreF
moyenne
Valeurs de la variable étudiée
Variable étudiée

n
2
n
(x
M
∑ − )
i
2
dispersion = ∑(x M )
(x
M )
i
i
Variance = 1
écart t ype σ
∑ −
=
1
n
n
jean-Claude Liquet
10

Propriétés de la loi normale

Courbe de Gauss
σ
ecneuqreF
Variable étudiée
68 % de la
population
entre - σ et +σ
95 % de la population
entre - 2 σ et +2σ
jean-Claude Liquet
11

Les autres indicateurs de
tendance centrale

La médiane : C'est la valeur de la variable
qui divise la population en deux sous
populations d'effectif égal.
Le mode : C'est la valeur de la variable qui a
la fréquence la plus importante.
jean-Claude Liquet
12

Variables qualitatives
 Pour les variables ordinales ou nominales le tri à plat est essentiellement
constitué par le calcul des fréquences des modalités.
 En ce qui concerne les variables ordinales, des indicateurs de dispersion
constitués par les fractiles peuvent être utiles.
 Exemple : Echantillon utilisé lors d'une étude
Quel e est votre profession ?
Fréquence Pour cent
Agriculteur
14
4,38
Cadre supérieur, Profession libérale
69
21,56
Profession intermédiaire
67
20,94
Employé
70
21,88
Ouvrier
30
9,38
Retraité
18
5,63
Inactif
30
9,38
Etudiant
22
6,88
Total
320
100

jean-Claude Liquet
13

Retour sur
l'échantillonnage
Population mère
appelée A qui présente

une moyenne m pour
une variable V et un
écart type σ
C Mc et σc
B
Mb et σb
E Me et σe
D Md et σd
σ
σ b

σ c
σ d

σ e
=
=
=
=
N
nb -1
nc -1
nd -1
ne -1
V
∆ =
V
96
,
1
±
∆ =
56
,
2
±
p 1
( − p)
∆ = ± 9
,
1 6
N
N
N
Pour α=0,05
Pour α=0,01
jean-Claude Liquet
14

Incertitude sur échantillonnage

Population
1/N
Incertitude
100
0,01
0,1
400
0,0025
0,05
500
0,002
0,044
1000
0,001
0,031
40000
0,000025
0,005

jean-Claude Liquet
15

L'analyse bivariée descriptive
ou tri croisé
 Deux variables quantitatives
Covariance
de

de

ux vari bl
a es e

X

t Y

R = (écart typ d
e e X
)(écart t
Y

de

ype
)
(x m )(y m )
i
1
i
2


i
n 1
R =
(x m )2
( y m )2


i
1
i
1
i
i
n -1
n -1
∑(x m )(y m )
i −
1
i −
2
R =
i
∑(x m ) (y m )
i −
2
1
∑ i − 2
1
i
i
jean-Claude Liquet
16

Représentation graphique

R=-1
R=0
R=1
Anticorrélation
Indépendance
Corrélation parfaite

jean-Claude Liquet
17

Deux variables qualitatives
 Le but de l'analyse est de déterminer si deux variables
qualitatives sont indépendantes ou dépendantes. Autrement
dit, il s’agit de déterminer l’existence ou non d’un lien.
 D'où les hypothèses suivantes.
 Ho : Les deux variables sont indépendantes
 H1 : Les deux variables sont dépendantes.
 Le test consiste à rejeter l'hypothèse Ho
 Le test le plus fréquemment utilisé est le test de Chi2.
jean-Claude Liquet
18

Tableau de contingence
En
E col
n li onne
gne l va
a ri
var a
i b
a l
b e
l
e
m1
m2
m3
V1
V2
L1
A
B
C
L2
D
E
F
l3
G
H
I
jean-Claude Liquet
19

Tableau des effectifs théoriques
En
E col
n li onne
gne l va
a ri
var a
i b
a l
b e
l
e
m1
m2
m3
V1
V2
L1
A'
B'
C'
L2
D'
E'
F'
l3
G'
H'
I'
jean-Claude Liquet
20

Différence entre théorie et observation
En
E col
n li onne
gne l va
a ri
var a
i b
a l
b e
l
e
m1
m2
m3
V1
V2
L1
A-A'
B-B'
C-C'
L2
D-D'
E-E'
F-F'
l3
G-G'
H-H'
I-I'
jean-Claude Liquet
21

Carré des valeurs
En
E col
n li onne
gne l va
a ri
var a
i b
a l
b e
l
e
m1
m2
m3
V1
V2
L1
(A-A')x(A-A')
(B-B')x(B-B')
(C-C')x(C-C')'
L2
(D-D')x(D-D')
(E-E')x(E-E')
(F-F')x(F-F')
l3
(G-G')x(G-G')
(H-H')x(H-H')
(I-I')x(I-I')
jean-Claude Liquet
22

Carrés relatifs
En
E col
n li onne
gne l va
a ri
var a
i b
a l
b e
l
e
m1
m2
m3
V1
V2
L1
(A-A')x(A-A')/A'
(B-B')x(B-B')/B'
(C-C')x(CxC')/C'
L2
(D-D')x(D-D')/D'
(E-E')x(E-E')/E'
(F-F')x(F-F')F'
l3
(G-G')x(G-G')/G'
(H-H')x(H-H')/H'
(I-I')x(I-I')/I'
(effectif obs

ervé - effectif théori
)
que 2

2
i, j
Χ =
effectif théorique
jean-Claude Liquet
23

En colonne variable
V1
En ligne la variable
m1
m2
m3
Somme des
V2
lignes
L1
A
B
C
A+B+C
L2
D
E
F
D+E+F
l3
G
H
I
G+H+I
Somme des
A+D+G
B+E+H
C+F+I
N
colonnes

A' = (la probabilité d'appartenir à la première ligne x par la probabilité d'appartenir à la première colonne)X N
A + B + C A + D + G
A'=
×
× N
N
N
jean-Claude Liquet
24

Ce calcul est réitéré autant de fois qu'il y a de cellules.
Si les deux variables sont indépendantes, le résultat apporte
peu de sens pour l'étude. Par contre si un lien existe, il faut
expliquer le sens sous-jacent. C'est l'écart entre l’effectif
théorique et l’effectif observé qui sera déterminant, les plus
grands écarts permettront de déterminer les écarts de
l'expérimentation à un contexte dû au hasard.
jean-Claude Liquet
25

La comparaison de
moyennes

ou
m1
m2
m1
m2
H0 : m1 est égal à m2
H1 : m1 est différent de m2
jean-Claude Liquet
26


Ce qui revient à calculer une valeur z qui sera comparée à la valeur du z de la loi normale centrée réduite au risque α.
m1- m2
z = (écart typ 1
de

e
)2
(écart typ
2)

de

e
2
+
n −1
n −1
1
2
Dans le cas de deux proportions le calcul se fait de façon semblable
p1- p2
z =
n p + n p
1 1
2 2
1
1
p =
p 1
( − p)(
+
)
n + n
1
2
n
n
1
2
Pour répondre au test il faut comparer ce z à la valeur limite de la table, autrement dit de vérifier au risque de 5% si z est supérieur à 1,96, car
l'hypothèse de départ est la normalité des distributions
jean-Claude Liquet
27

L’analyse de variance
On cherche à comparer deux (ou plusieurs) expérimentations, c'est à dire à
mettre en relation une série de résultats avec une autre série de résultats.
Ce qui peut se traduire par l'expression " on recherche la relation entre
une variable quantitative(les résultats) et une variable qualitative ( la
première ou la deuxième mesure)".
Par exemple la couleur de l'emballage d'un paquet de lessive est-il un
élément qui a de l'influence sur la quantité de vente ? Les quantités de
vente constituent une variable quantitative, la couleur est qualitative
même si elle est codée 1 ou 2 .
Comparer deux populations revient à comparer les moyennes d'une
variable commune
jean-Claude Liquet
28

analyse à un facteur.
tableau d'expérimentation.
modalité du traitement.
Observation
1
2
j
k


1


Y


1 j
2


...


...




Y
ij
I


Y


ij
...





N


Y


nj



Y = n.m
ij
j
∑ ∑Y = N.M
ij


jean-Claude Liquet
29

Le modèle
Y = +
µ α+ε
ij
j
ij
µ est la moyenne de l'ensemble des résultats
α est le coefficient du au traitement particulier, ainsi un traitement particulier s'écritµ α
+
j
j
ε correspond à un facteur résiduel.
ij
Y
M est la grande moyenne, elle s'écrit : M

= ∑ij C'est à dire la somme de toutes les valeurs
i
j
n.k
du tableau divisée par le nombre de cases.
jean-Claude Liquet
30

Première grandeur
caractéristique
Pour chacune des colonnes, c'est à dire pour chacune des modalités on peut calculer la moyenne
du traitement.

Y
m =
ij
j
i
n
jean-Claude Liquet
31

Deuxième grandeur
caractéristique
Chaque résultat contenu dans chacune des cases du tableau est une mesure, l'ensemble de
l'information de toutes ces mesures peut être mis sous la forme de la dispersion de ces mesures
autour de la moyenne des mesures, la dispersion est mesurée ici comme la somme des distances
carrées à la moyenne, notée SC
SCT


= (Y −2
M)
ij
i
j
La dispersion des facteurs autour de la grande moyenne constitue la dispersion factorielle.
SCF n ∑
=
.
(m −2
M)
j
j
Cette dispersion est aussi appelée dispersion entre colonnes ou entre modalités ou beetwen.
jean-Claude Liquet
32

Troisième grandeur
caractéristique
Une troisième grandeur peut être définie c'est la somme des dispersion autour de chacune des
modalités appelée aussi dispersion résiduelle ou dispersion intra ou dispersion within;
SCR

= ∑
(Y
m )
ij +
2
j
i
j
Ce qui revient à calculer l’ensemble des dispersions de chaque modalité autour de sa propre
moyenne et ensuite d'additionner toutes ces dispersions, on a bien la dispersion des résidus autour
des moyennes de modalité.
jean-Claude Liquet
33

L'équation d'analyse de
variance.
SCT=SCF+SCR
. La dispersion est commode pour le raisonnement mais ce
qui a une signification pour comparer des mesures c'est la
variance, c'est à dire la dispersion ramenée à
l'unidimensionnalité.
Le nombre de degrés de liberté doit être déterminé pour faire
la liaison entre la dispersion et la variance.
jean-Claude Liquet
34

Retour à l’unidimensionnalité
La dispersion factorielle ou dispersion inter a été calculée à partir d'une relation entre les
différents facteurs, cette relation fait baisser d'une unité la dimension du ddl, c'est ainsi que pour
k facteurs le degré de liberté est k-1.
La dispersion résiduelle ou dispersion intra est une dispersion de toutes les mesures n.k autour
des moyennes au nombre de k : le nombre de degré de liberté est donc n.k-k ou N-k.
D'où les variances :
VF=SCF/(k-1)
VR=SCR/(N-k)
jean-Claude Liquet
35

Le test de Fischer.
On recherche si l'hypothèse nulle d'égalité des moyennes est vraie. Elle le sera si les données de
chaque colonne sont extraites d'une même loi de probabilité. Dans ce cas la variance factorielle
est approximativement égales à la variance résiduelle et donc on peut émettre la proposition
suivante :
L'hypothèse H0 sera retenu si le rapport F=VF/.VR est inférieur à la valeur de F au degré
de liberté près, qui est la limite de la signification.
Plus ce rapport est élevé 'au dessus du F limite) plus on s'éloigne de l'hypothèse nulle.
jean-Claude Liquet
36

Tableau récapitulatif
D'où le tableau de l'analyse d'e variance :

d.d.l.
Somme des
carrés
F
carrés
moyens
Variance
k-1
SCF
VF=SCF/K-

factorielle
1
variance
N-k
SCR
VR=SCR/N
F=VF/VR
résiduelle
-k
total
N-1
SCT


F suit une loi de Fischer-Snedecor dans la mesure de trois conditions
Les traitements sont additifs
les observations sont indépendantes
Les résidus ont une distribution normale
Le F calculé à partir de la table précédente doit être comparé au Fα lu sur la table de Fisher-
Snedecor dans la colonne k-1 et la ligne N-k pour le seuil de risque accepté α.
jean-Claude Liquet
37

Analyse à deux facteurs
croisés.
Il est possible d'étendre le raisonnement précédent à plusieurs facteurs contrôlés, dans le cas
précédent on recherchait l'effet de la couleur d'un paquet de lessive par exemple sur les ventes,
maintenant on rajoute un facteur , la couleur. Il y a deux variables qualitatives.(par exemple A et
B)
On veut arriver à l'élaboration d'un modèle.

Y =μ +α +β +ε
ij1
j
1
ij1
Cette quantité est la vente de chacun des paquets de lessive ayant une couleur et une forme, c'est
à dire deux caractéristiques A et B.
α représente le résultat de la vente d'un paquet ayant la couleur j et β l'effet de la modalité 1
j
1
du facteur B
jean-Claude Liquet
38

Généralisation

Le tableau se présente sous la forme suivante :
Modalités du facteur A
Modalité
1
2
j
k

du facteur B
A
1


Y


1 j
2


...


...





i
Y

Y
Y

I1
ij
Im
...





K


Y


B
nj






Y = K m
∑ ∑Y = N.M
ij
ij
j
ij

L'équation de dispersion s'écrit :
SCT=SCF(A)+SCF(B)+SCR
jean-Claude Liquet
39

Tableau ANOVA
D'où la table ANOVA:


d.d.l.
somme des
carrés moyens
F
carrés
Variance

SCF(A)

SCFA
factorielle A
d = k −1
VF(A) =

VF(A)/VF(R)
k −1
A
A

A
Variance

SCF(B)

SCFB
factorielle B
d = k −1
VF(B) =

VF(B)/VF(R)
k −1
B
B

B
variance
dT-
SCR


résiduelle
d d
SCR
A
B
VR =

d −d −d
T
A
B
total
dT=N-1
SCT


F est testé séparément par comparaison au F de fisher-Snedecor lu sur la table avec les degrés de
liberté correspondant et la significativité recherchée.
jean-Claude Liquet
40

l'interdépendance.
Ainsi l'analyse de variance permet de traiter en même temps plusieurs facteurs, cependant nous
avons fait l'approximation de l'indépendance de ces facteurs.
Une hypohèse forte est que le modèle est additif
Y = µ +α +β +α
ijk
j
k
ijk
Cependant s'il y interaction on peut améliorer le modèle par un terme de confusion:
Y = µ +α +β +(αβ) +α
ijk
j
k
jk
ijk
Il suffit de considérer ce terme comme l'introduction d'un nouveau facteur et le considérer ainsi.
Extension à n facteurs.
Par extension on peut reprendre l'ensemble des raisonnements précédents qui s'appliquent à n
facteurs avec autant de facteurs de confusion le modèle général s'écrit :
Y = µ +α +β +γ +(αβ) +(αγ) +(βγ) +(αβγ) +ε
ijkl
j
k
l
jk
jl
ki
jkl
ijkl
jean-Claude Liquet
41

Un exemple L’âge de mariage
des hommes et des femmes
Moyennes 
 
Tableau de bord
Age lors de votre (premier) mariage
Sexe du répondant
Moyenne
N
Ecart-type
Homme
24,16
492
4,87
Femme
21,84
710
4,93
Total
22,79
1202
5,03
 
Oneway 
ANOVA
La vie est-elle excitante ou ennuyeuse ?
Somme
Moyenne
des carrés
ddl
des carrés
F
Signification
Inter-groupes
,383
1
,383
1,029
,311
Intra-groupes
370,652
995
,373
Total
371,035
996
 
jean-Claude Liquet
42

Le salaire des hommes et des
femmes
Moyennes 
 
Tableau de bord
Revenu du répondant
Sexe du répondant
Moyenne
N
Ecart-type
Homme
14,14
482
5,23
Femme
11,55
512
5,69
Total
12,80
994
5,62
 
Oneway 
ANOVA
Revenu du répondant
Somme
Moyenne
des carrés
ddl
des carrés
F
Signification
Inter-groupes
1670,855
1
1670,855
55,798
,000
Intra-groupes
29705,282
992
29,945
Total
31376,137
993
 
jean-Claude Liquet
43

l’analyse factorielle ACP
Analyse en composantes principales
Cette analyse est la base de toutes les analyses multifactorielles. Elle consiste à regrouper des
variables quantitatives en combinaisons linéaires appelées composantes ou facteurs.
Du point de vue de sa résolution mathématique, la position du problème est simple. elle consiste
à partir de n variables quantitatives quelconques constituant un repère à n dimensions (la matrice
des données) à passer à un repère orthonormé à n dimension. Ces nouvelles dimensions sont les
facteurs. La résolution de ce problème consiste à diagonaliser la matrice des variances
covariances, les composantes principales sont constituées des facteurs dont les valeurs propres
sont les plus importantes.
jean-Claude Liquet
44

Réduire la dimensionnalité
- un bilan des liaisons entre variables (on peut ainsi déterminer celles qui sont liées
positivement entre elles ou celles qui s'opposent, déterminer des groupes de variables corrélées
entre elles, trouver une typologie des variables, etc.), donc diminuer la dimensionnalité des
données en colonnes.

C'est cette étude des variables qui permettra de résumer l'ensemble des variables à un petit
nombre de variables synthétiques appelées composantes principales (une composante principale
représentant un groupe de variables liées entre elles).
jean-Claude Liquet
45

La révolution copernicienne
 Le soleil tourne-t-il autour de la terre ou est
ce le contraire?
 Quid du référentiel?
jean-Claude Liquet
46

La matrice de variance
covariance
1
R
R
R

12
13
14 
R
1
R
R
21
23
24 


R
R
1
R
31
32
34


R
R
R
1
41
42
43

jean-Claude Liquet
47

Une matrice carrée symétrique
est diagonalisable
λ
0
0
0
 1

 0 λ
0
O
2



0
0
λ
0
3


 0
0
0
λ4 
jean-Claude Liquet
48

Les résultats
Il est possible de conserver tous les axes, cependant cela devient très vite sans objet. A partir du
moment où un axe contient moins d'information que n'importe quelle autre variable de départ, il
n'a plus beaucoup de sens. C'est pourquoi l'habitude est de ne conserver que les axes dont les
valeurs propres sont supérieures à 1. D'autres règles de conservation des axes existent comme par
exemple le critère du coude (la perte d'information entre deux axes consécutifs est dans un
rapport nettement inférieur aux gains précédents). Dans la pratique plusieurs essais sont faits qui
permettent de mieux décrire le contexte, il ne faut pas oublier à ce niveau que l'ACP est une
méthode descriptive, par conséquent le but est de décrire le mieux possible un contexte.
Il est à noter que le nouveau repère constitué est une hyper sphère trigonométrique. La projection
des variables sur les axes sont des cosinus qui permettent de calculer les contributions de chaque
variable au facteur considéré.
jean-Claude Liquet
49

Une application à l’analyse
sensorielle
 Le but de l’étude est de rechercherles
descripteurs permettant d’élaborer un profil
sensoriel de 4 spoupes aux légumes verts
 Existe-t-il des différences significatives entre
les soupes?
 Peut on valider un profil sensoriel issu de
cette analyse
jean-Claude Liquet
50

Mode opératoire
 Reconnaissance des saveurs fondamentales
 Dégustation par 24 personnes entraînées de 4
soupes : Royco minute soupe aux sept légumes,
Auchan velouté de légumes vert, Knorr moulinée
aux légumes verts Maggi panier de légumes
moulinés légumes verts persillés
jean-Claude Liquet
51

Les descripteurs
 Aspects : 8 descripteurs
 Odeur : 11 descripteurs
 Flaveur : 11descripteurs
 Texture : 3 descripteurs
On recherche à réduire le nombre de
descripteurs afin de ne retenir que les plus
pertinents
jean-Claude Liquet
52

Organisation des données
RESULTATS COTATION :
AVANT dégustation :
PENDANT dégustation :
ASPECT :
ODEUR :
FLAVEUR :
asp mat-bril ant
coul jaune
od de pomme de terre
od de poireaux
od de petits pois
int d'odeur
int d'od chimiquefl de poireaux
fl de pomme de terre
fl acide
fl de carotte
int de flaveur
fl astingente
T visqueuse liq- visq
T onctueuse
fl astringente
t col antT visqueuse liq- visq
T hom ( morc-phase)
individu n°1
068
2
1
2
1
3
4
0
3
4
1
3
2
2
3
4
4
4
3
1
0
4
3
2
3
5
4
609
4
1
4
4
4
2
0
4
4
2
3
3
3
2
3
5
5
1
2
2
2
2
3
4
1
1
207
0
4
0
0
1
1
3
3
3
1
3
3
3
2
5
4
3
2
3
0
4
2
4
0
4
5
502
5
4
5
5
2
1
1
3
4
0
3
2
2
2
4
4
4
1
1
0
4
1
1
5
4
1
individu n°2
068
3
3
5
5
2
5
0
0
1
0
5
5
0
5
3
1
2
2
4
0
5
2
0
5
4
0
609
4
4
5
3
4
0
2
1
3
1
4
5
2
3
3
2
2
1
3
3
2
1
0
5
0
1
207
0
1
0
0
3
0
3
4
5
2
3
3
0
0
2
5
4
0
2
1
3
0
0
0
4
5
502
5
3
5
5
2
0
4
4
5
4
4
2
1
0
3
3
4
2
0
2
3
2
0
5
4
0
jean-Claude Liquet
53

Analyse des données
 Analyse de chaque descripteur (univariée)
permettant de vérifier les normalités.
 Analyse ACP afin de déterminer des
regroupements
jean-Claude Liquet
54

Calcul des valeurs propres
Variance expliquée totale
Valeurs propres initiales
Sommes des carrés chargées
Somme des carrés pour la rotation
% de la
% de la
% de la
Composante
Total
variance ==
% cumulés
Total
variance ==
% cumulés
Total
variance ==
% cumulés
1
4,512
17,355
17,355
4,512
17,355
17,355
4,174
16,053
16,053
2
3,516
13,522
30,876
3,516
13,522
30,876
2,391
9,195
25,248
3
2,062
7,930
38,806
2,062
7,930
38,806
2,171
8,351
33,599
4
1,859
7,149
45,955
1,859
7,149
45,955
1,804
6,938
40,537
5
1,700
6,537
52,492
1,700
6,537
52,492
1,802
6,933
47,470
6
1,502
5,778
58,270
1,502
5,778
58,270
1,717
6,604
54,074
7
1,389
5,342
63,612
1,389
5,342
63,612
1,574
6,056
60,129
8
1,286
4,948
68,560
1,286
4,948
68,560
1,504
5,785
65,915
9
1,134
4,362
72,922
1,134
4,362
72,922
1,493
5,740
71,655
10
1,005
3,866
76,788
1,005
3,866
76,788
1,335
5,133
76,788
11
,851
3,274
80,062
12
,779
2,996
83,058
13
,646
2,485
85,543
14
,494
1,900
87,444
15
,448
1,725
89,169
16
,425
1,635
90,804
17
,387
1,490
92,293
18
,332
1,276
93,570
19
,321
1,233
94,803
20
,292
1,123
95,926
21
,259
,997
96,923
22
,222
,854
97,776
23
,198
,762
98,538
24
,150
,577
99,115
25
,140
,539
99,654
26
8,995E-02
,346
100,000
Méthode d'extraction : Analyse des principaux composants.

jean-Claude Liquet
55

Regroupement des variables en
facteur
Matrice des composantesa
Composante
1
2
3
4
5
6
7
8
9
10
coul homog-hétero
,888









T granuleuse abs-prés
,834









asp homogé- héterog
,826









Prés de morceaux
,822









T onctueuse
-,758









coul jaune
-,599
,366








fl de poireaux

,742








od de poireaux

,621


,459



-,324

od de pomme de terre

,599


,325
,368
-,342



int d'od chimique

-,592

,367


-,323



fl sucrée

-,521


,321

-,324



prés de coul vert fluo

-,515

,402






salée

,482
,309






,362
T visqueuse liq- visq


,634





,427

flaveur acide


,496

-,426

-,348



fl de carotte


-,439

-,409





amère



,623


-,335



int d'od herbacée
,380
-,304

,500


,317



int d'od arômate


-,454
,487




,438

fl astingente



,466






fl de pomme de terre

,392


,480
,341


,377

int d'odeur
,377




,665
,327



od de petits pois




-,437

,454


-,302
asp mat-bril ant




-,314
,303

-,642

,363
int de flaveur


,398



,350
,590


int de coul vert cl à fon


-,415


,370

,427


Méthode d'extraction : Analyse en composantes principales.
a. 10 composantes extraites.

jean-Claude Liquet
56

Interprétation
 Élimination des descripteurs non pertinents
 Nommer les facteurs
 Scorer les facteurs
jean-Claude Liquet
57

AFC AFCM
L'analyse factoriel e des correspondances (AFC) est une application spécifique de l'analyse en
composantes principales (ACP) au cas des tableaux de contingence.
Un tableau de contingence est un tableau d'effectifs croisant les modalités de deux variables
qualitativ es définies sur n individus. Il permet donc de mesurer le lien entre deux variables
qualitatives, voir le tri croisé de deux variables qualitatives et l’indication du lien par le Chi2.
Lorsqu'un tableau de contingence est de grande dimension, il est difficile d'en retirer les
informations essentielles. L'utilisation de l'AFC présente donc un double intérêt :
- faciliter l'étude des liens éventuels existant entre les modalités des deux variables ;
- offrir des possibilités de représentation graphique relativement simple à interpréter.
jean-Claude Liquet
58

Un exemple pédagogique
Un étudiant observateur regarde les jeunes filles qui entrent dans notre institut un matin
ordinaire. Son observation sur deux variables le type de vêtement et la couleur du vêtement sont
consignés dans un tableau de contingence (de contexte).

Pantalon
Jupe
Robe
Bleu
45
11
7
Noir
55
20
15
vert
5
7
6
Rouge
11
8
14

L’analyse habituelle d’un tel tableau est la recherche du lien qui peut exister entre le
type de vêtement et la couleur de celui-ci. Le lien est mesuré par le chi2. Un chi2 significatif
indique une liaison non due au hasard. Dans ce cas il est possible de rechercher une
représentation graphique. La représentation graphique obtenue par l’application de l’AFC a la
m^me signifacation que l’analyse du Chi2. Cependant pour des tableaux de contingence
important, l’AFC permet une interprétation facilitée.
jean-Claude Liquet
59

Représentation graphique
jean-Claude Liquet
60

Analyse factorielle des
correspondances multiples.
L’AFCM est une technique qui permet de visualiser plus de deux variables qualitatives.
Elle se déduit de l’AFC à la condition de transformer le tableau de contingence en tableau
disjonctif complet. Elle permet de visualiser plus de deux variables croisées. Son intérêt est
essentiellement la constitution d’un mapping qui résume une étude de croisements multiples.
Un exemple étudié est l ‘étude de la lecture des magazines par les femmes.
Les variables explicatives étaient
- Les tranches d’âge
- Les PCS
- Les magazines eux mêmes
- Le niveau scolaire
jean-Claude Liquet
61

Le mapping obtenu
3
ouvrières qu
ouvrières no
agricultrice
2
CAP-BEP
employées
aucun diplôme
1
26 à 40 ans
femmes au foyer
mag féminins
BEPC
pqr
mag déco/mai
artisans, co mag sant 4
é 1
/
e à
n 60 ans
0
mag TV
revues loisi
autres revue
Bac/BP/BT
mag fin de s
certificat d
plus de 60 ans
retraitées
-1
DEUG/DUT/BTS
mag économiq
mag culturel
Pro inter
mag scientifique
hebdo d'info
-2
pqn
2/3èmes cycl
-3
cadres et pr
-4
-2
-1
0
1
2
3
4
jean-Claude Liquet
62

Les méthodes explicatives
La régression linéaire
 La régression simple
jean-Claude Liquet
63

Recherche d’une équation
Il s’agit de trouver la droite moyenne de la forme y=ax+b. Les mathématiques élémentaires
nous ont appris à tracer des droites connaissant les paramètres a et b. Ici, c’est la position
inverse, les couples (x,y) sont déterminés, il s’agit de déterminer les paramètres a et b.
Deux inconnues à déterminer appellent deux équations indépendantes à écrire.
La première est relative au centre de gravité des points.

_
_
y
a
b
+
=
x

La deuxième est un calcul d’optimisation sous contrainte de linéarité.
jean-Claude Liquet
64

Quelques rappels
Il s’agit de trouver la droite moyenne de la forme y=ax+b. Les mathématiques élémentaires
nous ont appris à tracer des droites connaissant les paramètres a et b. Ici, c’est la position
inverse, les couples (x,y) sont déterminés, il s’agit de déterminer les paramètres a et b.
Deux inconnues à déterminer appellent deux équations indépendantes à écrire.
La première est relative au centre de gravité des points.

_
_
y
a
b
+
=
x

La deuxième est un calcul d’optimisation sous contrainte de linéarité.
jean-Claude Liquet
65

Détermination des paramètres
Comme il est d’usage pour une distribution de points, et donc une sommation, c’est les
distances quadratiques qui sont les plus pertinentes, d’où l’expression :
E2

n
=
( y
Y 2
)
i
i
1
La minimisation de cette expression consiste en une dérivée partielle par rapport aux deux
paramètres et l’égalisation à 0.
Les deux expressions permettent la résolution du système d’équations et par, conséquent, les
expressions de a et de b.

La résolution complète permet de déterminer a
cov(xy)
a =
varx
_
_
et b se déduit de la première expression y
a
b
+
=
x

_
_
cov(xy)
b
y -
=
x
varx
jean-Claude Liquet
66

Résolution graphique
jean-Claude Liquet
67

Validation
Deux précautions
- Les résidus doivent avoir une distribution normale
- La pente de la droite doit être significativement différente de 0, une droite parallèle à
l’axe des x indique une corrélation nulle.

La distribution normale des résidus permet de vérifier que ces résidus sont bien du au hasard,
qu’il n’y a pas d’autres éléments qui interviennent dans l’observation. Le test KS est possible.
C’est une condition nécessaire, elle n’est pas suffisante.
Par ailleurs vérifier que la pente n’est pas nulle (que a n’est pas nul) revient à comparer a à o.

Le test approprié est le test de Student à n degré de liberté.
Il suffit donc de calculer le t de Student et de vérifier qu’il est supérieur à 1,96 pour un risque
alpha de 0,05.

jean-Claude Liquet
68

Régression multiple
La régression multiple est utilisée lorsqu’il y a plusieurs variables explicatives.
Dans le cas de deux variables explicatives, le nuage de points est représenté dans un espace à
3 dimensions, la régression consiste à rechercher un plan de régression de la même manière
que précédemment.
Une hypothèse forte est cependant introduite. Le raisonnement étant fait dans un espace
orthogonal, les variables explicatives doivent être indépendantes. Chacun des coefficients de
régression doit faire l’objet d’un test de Student selon les mêmes modalités que pour le cas de
la régression simple.
L’expression générale s’écrit de la manière suivante :

Y
a X
a X
a X

1
1
2
2
3
ε
+
+
+
+
=
......
3
Les a sont les coefficients qui doivent être non nuls qui font donc l’objet d’un test t.
i
Les X sont les variables explicatives. Celles qui sont affectées d’un coefficient non nul
i
interviennent dans l’observation et réciproquement.
ε
est l’incertitude ou le résidu.
jean-Claude Liquet
69

L'analyse structurelle
L’analyse structurelle a pour objet l’analyse de modèles. Se basant sur les liens linéaires entre les
variables mesurant des concepts, il s’agit de tester un modèle par rapport à un autre.
Il importe de faire une analyse des variances et covariances, ainsi que des régressions
linéaires. Des indices d’ajustement permettent de tester l’expérimentation par rapport au
modèle théorique.
Cette technique fait partie des méthodes dites de deuxième génération, elle a le mérite de
combiner des méthodes statistiques habituelles en une combinatoire maintenant admise. Les
techniques sous jacentes sont d’une part l’analyse factorielle et d’autre part les équations
simultanées (système d’équations linéaires).
Les logiciels les plus couramment utilisées sont EQS, LISREL, PLS et AMOS
jean-Claude Liquet
70

Les variables latentes.
Q1
e1
Q2
e2
engagement
Q3
e3
Q4
e4
Quatre équations sont générées :
Q1=a1(engagement) +e1
Q2=a2(engagement) +e2
Q3=a3(engagement) +e3
Q4=a4(engagement) +e4
Les ei sont les incertitudes de mesure.
jean-Claude Liquet
71

Les structures
1
1
e10
e1
1
Q5
e5
1
1
1
Q1
1
e2
Q6
e6
µ
1
1
Q2
engagement
fidelite
Q7
e7
e3
1
1
1
Q3
Q8
e8
e4
Q4
1
Q9
e9
C’est la détermination de µ qui est l’objet du problème. L’équation déterminante est la
suivante :
Fidélité=µ * engagement+ e10
Les deux variables latentes étant déterminées par le même type d’équation que dans le
paragraphe précédent.
A ce stade c’est un ensemble d’équations de régression linéaire qui va lever les
indéterminations et permettre de calculer les coefficients de régression. Les tests de pertinence
sont les mêmes que dans les systèmes linéaires.
Cependant les moments statistiques que sont les variances covariances vont permettre de
tester la pertinence de la structure.
Le principe consiste à comparer la matrice de variance covariance O des variables observées
avec la matrice théorique T.
La comparaison est naturellement le chi2, nous verrons par la suite les limites de cette
distance entre deux matrices.

jean-Claude Liquet
72


Comme pour un tableau de contingence la question de l’optimisation théorique est délicate.
Ici l’optimisation est fondée sur une fonction de maximum de vraisemblance.
X est la matrice des variables observée. (p variables sur n observations)
L la matrice des variables latentes
I la matrice des incertitudes de mesure
C la matrice des contributions.
Le modèle peut s’écrire
X=CL+I
L’analyse de structure de variance covariance s’écrira :
T=C£C’+E
T est la matrice théorique que l’on calcule à partir de
C calculé précédemment comme matrice des contributions, C’ étant sa transposée
£ la matrice de variance covariance des variables latentes
E est la matrice des résidus.
jean-Claude Liquet
73


Le « fit » ou ajustement global sera jugé par le chi2 ou mieux le chi2 relatif=chi2/ddl la
probabilité du chi2 est d’autant meilleure qu’elle est proche de 1. On admet un chi2 relatif
inférieur à 2 comme reflétant un bon ajustement.
Du fait de la très forte sensibilité du chi2 à la taille de l’échantillon, d’autres indices
d’ajustement sont employés, less plus courants sont :
- Le GFI et l’AGFI qui varient de 0 à 1 indiquent la part de variances et covariances des
variables observées pris en compta par le modèle. L’AGFI est ajusté au nombre de degré de
liberté.
- Le RMR Root Mean Square Residual est la mesure de la variance résiduelle La limite
supérieure couramment admise est 0,08.
- Le RMSEA a lui aussi une limite supérieure de 0,08.

Les limites n’ont de sens que dans l’absolu, en fait il est beaucoup plus intéressant de
comparer les modèles et de retenir celui qui a les meilleurs indices d’ajustement, et de
continuer à rechercher des modèles qui infirment le premier et ainsi de suite.

jean-Claude Liquet
74


Un exemple agro-alimentaire
Figure 1 :  
 
Modèle structurel complet et principaux résultats 
 
 
 
 
 OSL1
0.32
VSK1
 

 
 



 OSL2
VSK2
 

Tendance à la 


0.57
 OSL3
recherche de 
VSK3
 

 
variété en 



 OSL4
OSL 
alimentaire 
VSK4
  




 OSL5
 
VSK5


0.45
 


 

 OSL6
0.20
VSK6
 

 



 
Appréciation 
OSL7
VSK7
 
sensorielle 




 
VSK8
 


 

 


Golden
Royal Gala 
Red Chief 
Jonagold 














jean-Claude Liquet
75

Recherche de variété et perceptions 
sensorielles 
jean-Claude Liquet
76

Plan de l ’exposé
 La spécificité de comportements alimentaires
 La recherche de variété
 Les préférences
 Problématique
 Mesure
 Résultats, limites et perspectives.
jean-Claude Liquet
77

Les comportements alimentaires
Importance, risque ,plaisir
Pilgrim 1957
Les déterminants généraux
Shepherd 1985
Les déterminants du goût
Sirieix 1999
Rôle de la recherche de variété
jean-Claude Liquet
78

La recherche de Variété
 Comme facteur de stimulation (Van Trijp
1992)
 Réduction de monotonie
 Un optimum (le niveau optimum de
stimulation OSL) Berlyne 1960, Driver et
Streufert 1964
jean-Claude Liquet
79

Les préférences sensorielles
 Les déterminants des préférences de couleur : l ’âge, le
sexe,la personnalité, la culture ( Divard et Urier 2001)
 On peut s ’attendre à des déterminants du même ordre en
ce qui concerne le goût
 Le déterminisme socio-culturel selon Bourdieu (1979),
des socio styles selon le CCA : La golden pour le
conservateur la Granny pour l ’aventurier
jean-Claude Liquet
80

La problématique
 Un lien existe entre la tendance à la
recherche de variété en alimentaire et les
préférences gustatives.
 Plus un individu présente une forte tendance
à la recherche de variété plus son
appréciation sensorielle est élevée
jean-Claude Liquet
81

Modèle simplifié
OSL
Tendance à
la recherche
de variété
Appréciation
sensorielle
jean-Claude Liquet
82

Mesure de l ’OSL
 Le choix s’est porté sur CSI version courte
en 7 items de Giannelloni (1997)
 Les autres échelles à disposition
 Steenkamp et Baumgartner (1992) ont
comparé SSS, AST-II, CSI, NES, ils
proposent CSI
jean-Claude Liquet
83

Mesure de la tendance à la
recherche de Variété
Choix de VARSEEK de Van
Trijp et Steenkamp, 1992 ; cette
échelle est en anglais, elle est ici
traduite et testée.
jean-Claude Liquet
84

Mesure de l ’appréciation
sensorielle
 Élaboration d’un index de préférence sur un
produit de consommation courante : la
pomme. La Granny Smith, la Golden, la
Royal Gala, la Red Chief et la Jonagold
jean-Claude Liquet
85

Échantillon et mise en œuvre
empirique
 79 répondants en laboratoire d ’analyse
sensorielle (contrôle des variables externes),
les répondants sont des volontaires de
l ’univers de l ’Institut Agroalimentaire de
Lille
 39 répondants goûtent avant de remplir le
questionnaire, 40 après.
jean-Claude Liquet
86

Contrôle de l ’échelle
unidimensionnelle OSL
Item
Communautés Loading
% Var.
α
OSL 1
0,496 (0,56)
0,704 (0,75)
OSL 2
0,553 (0,69)
0,743 (0,83)
OSL 3
0,511 (0,58)
0,715 (0,76)
OSL 4
0,554 (0,63)
0,744 (0,79)
53,2 (57,6) 0, 852 (0,876)
OSL 5
0,604 (0,61)
0,776 (0,78)
OSL 6
0,517 (0,41)
0,719 (0,64)
OSL 7
0,492 (0,55)
0,702 (0,74)
Tableau 1 : Analyse en composantes principales exploratoire de l’OSL (les valeurs entre parenthèses
rappellent les résultats de Giannel oni, 1997)
jean-Claude Liquet
87

Traduction et validation de
l ’échelle VARSSEK
Item
Communa Loading
% Var.
α
utés
VSK1
0,626
0,791
VSK2
0,331
0,575
VSK3
0,715
0,846
VSK4
0,647
0,805
VSK5
0,617
0,785
59,0
0,896
VSK6
0,701
0,837
(0,58)
(0,90)
VSK7
0,498
0,706
VSK8
0,590
0,768

Tableau 2 : Analyse en composantes principales exploratoire de la tendance à la recherche de variété (les
valeurs entre parenthèses rappellent les résultats de Van Trijp et Steenkamp, 1992)
jean-Claude Liquet
88

Le modèle structurel
OSL1
VSK1
OSL2
VSK2
OSL3
0,32
VSK3
0,57
OSL4
OSL
Tendance à la
VSK4
recherche de variété
OSL5
en alimentaire
VSK5
OSL6
VSK6
0,45
OSL7
0,20
VSK7
SENSOR
VSK8
Golden
Royal Gala
Red Chief
Jonagold
Figure 1 : Modèle structurel complet et principaux résultats
jean-Claude Liquet
89

Indices d ’ajustement
 χ2 = 133,58 (ddl : 100 ; p : 0,014) ;
χ2 /ddl = 1,33 ; 
CFI = 0,93 ; 
TLI = 0,92. 
jean-Claude Liquet
90

Limites perspectives et
implications
 Une échelle est traduite et testée
 Les relations cherchées sont montrées
 Reste à valider les variables pertinentes de
recherche de variété.
 Si il y a recherche de variété cela implique que dans
le temps les goûts évoluent
 L ’élaboration des gammes doit se faire en fonction
de cette nouvelle donnée
jean-Claude Liquet
91

Analyse discriminante
Cette méthode est connue aussi sous le nom de scoring. Elle est très employée par les
organisations qui veulent prédire le comportement des clients.
Lors d'un prêt le banquier se pose inévitablement la question "est ce que mon client va bien
rembourser ou non ?». En fait il souhaite pouvoir prédire la case de bon payeur ou mauvais
payeur. Pour ce faire il va comparer à ce qu'il sait de ses autres clients avec ce qu'il sait de son
emprunteur. En d'autre terme il va chercher une fonction explicative qui affecte les clients à
une case ou l'autre et ensuite il applique cette fonction à son nouvel emprunteur. Ne nous y
trompons pas, le questionnaire que le banquier fait remplir est tout simplement les réponses de
l'unité statistique aux variables explicatives.

jean-Claude Liquet
92


L'analyse discriminante peut être considérée comme la recherche de groupes sous jacents. Il
s'agit de rechercher des axes qui décrivent ces deux groupes alors que les variables qui ont
servi à la mesure ne les "discriminent pas"
Le graphique suivant permet de visualiser cet état des choses.
Il y a bien deux nuages de points mais leurs projections sur x et y ne permettent pas de les
distinguer.
De fait la solution consiste à trouver un axe sur lequel on va projeter et qui distingue bien
deux groupes.

jean-Claude Liquet
93

Faire une analyse discriminante revient ainsi à trouver l'axe qui permet d'obtenir que les deux
moyennes soient significativement distinctes
La nouvelle variable est une combinaison linéaire des précédentes.
Ici l'analyse se fait sur deux dimensions de départ et un axe discriminant. Dans la pratique on
peut avoir un espace de plus de deux dimensions, le nombre d'axes discriminants est ainsi
augmenté.
En fait cela ressemble beaucoup à l'analyse de variance, la première des conditions est le
calcul de la quantité.:
Le deux groupes étant représentés par les deux ellipses, ce rapport se compare à la distribution de
Variance i nter −groupe
Variance in
tra −groupe
F, ainsi il apparaît qu'il faut maximiser le numérateur et minimiser le dénominateur.
On remarquera que la démarche s'apparente fortement à une analyse en composantes
principales. En particulier en la recherche de combinaisons linéaires.
jean-Claude Liquet
94

Validation de l’analyse
discriminante
Les indicateurs statistiques de validation sont
Le V de Bartlett
Le test de Rao
Le λ de wilks est utilisé plus simplement si le nombre de classe est 2 ou 3. C’est le rapport de
la variation intra-groupe à la variation totale.
jean-Claude Liquet
95

Analyse conjointe
jean-Claude Liquet
96

Compromis et Modèle de Choix
« Mieux vaut être riche et en bonne santé que pauvre et malade …  »
jean-Claude Liquet
97

Réalité
Phys ique
Jugements
(Perception)
Évaluation des
attributs
Évaluation
Globale
Probabilité
d ’achat
jean-Claude Liquet
98

C hoix du modèle
Autre courbe possible
X
X
X
U4
X
U3
X
Droite de
X
U2
régression
X
U1
X
X
Rang 1
Rang
Rang 3 Rang
2
4
jean-Claude Liquet
99

Le modèle compensatoire
additif
j =3
k = 4
l = 2
m=3
P
U = U
ω
ω
ω
ω
0 +
A +
B +
C +
D




i
j
j
k k
l l
m
m
j =1
k =1
l =1
m=1
Uepist l’utilité du produit p pour l’individu i
ω=0 si l'individu n'a pas retenu la modalité j
ω=1 si l'individu a retenu la modalité j.
jean-Claude Liquet
100

Le choix de la régression
M onanova
Prefmap
Linmap
Algorithme de Johnson
R égression multiple
Logit
Probit
jean-Claude Liquet
101

Processus d ’analyse
jean-Claude Liquet
102

Analyse du champs
d ’expérience et choix
d ’un modèle
Identification des attributs
pertinents et des
modalités
Définition des paniers
d ’attributs ( plan
factoriel)
R ecueil des Préférences
C alculs des utilités et des
importances des attributs
Optimiser
S egment sur les
S imuler les parts de
sous contraintes
avantages recherchés
marchés
de coûts de production
jean-Clau
de Liquet
103

Un exemple
Le choix du pain par les enfants
jean-Claude Liquet
104

Les caractéristiques du pain
ATTRIBUT
MO D ALITES
IN GRED IEN TS
- type 5S : pain blanc
- pain complet
- aux germes
MO D E D E FABRIC ATIO N
- artisanal
- moderne : pétrissage intensifié
TEMPS D E C UISSO N
- court : croûte claire
- longue : croûte foncée
FO RME
-petit pain : 80 grammes
- pain : 500 grammes.
-baguette : 250 grammes
jean-Claude Liquet
105

Le plan d ’expérience
Réduction du nombre de concepts.
Le
nombre
de
concepts
est
3X2X2X3=36 ; une réduction permet
la présentation de 9 .
Procédure orthoplan.
OR THOPLAN
/FAC TOR S =ingredie 'ingredient' ( 1 'pain blanc' 2 'pain complet' 3
'aux'+
' germes') fabricat 'mode fabrication' ( 1 'artisanal' 2 'pétrissage'+
' intensifié') temps 'temps de cuisson' ( 1 'court' 2 'long') forme
'forme' (
1 'petit pain' 2 'pain' 3 'baguette')
/OUTFILE ='C :\Program Files\S PS S \OR THO.S AV' .
jean-Claude Liquet
106

Les différentes combinaisons
Pain 1 : petit pain, pétri à la machine, aux germes et peu cuit.
Pain 2 : petit pain, pétrissage artisanal, mie blanche, cuit
longuement.
Pain 3 : pain boulot, pétrissage artisanal, aux germes, cuit
longuement.
Pain 4 : pain boulot, pétrissage artisanal, complet, peu cuit.
Pain 5 : pain boulot, pétri à la machine, mie blanche, peu cuit.
Pain 6 : baguette, pétrissage artisanal, aux germes, peu cuit.
Pain 7 : baguette, pétrissage artisanal, mie blanche, peu cuit.
Pain 8 : petit pain, pétrissage artisanal, complet, peu cuit.
Pain 9 : baguette, pétri à la machine, complet, cuit longuement.
jean-Claude Liquet
107

La procédure
Data list free /ID PR E F1 TO PR E F9.
BE GIN DATA
01 04 01 08 06 09 03 07 05 02
02 05 07 02 04 03 01 09 08 06
… … … … … … … … … … … …
03 07 05 03 04 09 06 01 08 02
48 02 07 01 05 09 08 06 03 04
04 07 02 05 03 04 01 08 06 09
49 02 01 06 08 05 09 07 03 04
05 07 02 05 08 01 09 03 04 06
E ND DATA.
06 02 07 05 09 03 04 06 01 08
07 07 05 02 01 08 03 09 04 06
C ONJOINT PLAN='a:\orthopain.sav'
08 05 02 07 01 09 08 04 06 03
/DATA=*
09 01 03 05 09 07 08 04 06 02
/S E QUE NC E =PR E F1 TO PR E F9
10 02 06 03 01 04 09 08 07 05
… … .. … . … … … … …
/S UBJE C T=ID
/FAC TOR S =ingredie (D IS C R E TE ) mode
(Discrete) temps (discrete)forme (discrete)
/PR INT=ALL
/plot al
/utilite="exercice.sav".
jean-Claude Liquet
108

Les résultats - 1
SUBJECT NAME: 1,00
Importance Utility(s.e.) Factor
+---------+ INGREDIE ingredient
I61,22 I -3,0000( ,7328) ----I pain blanc
+---------+ 2,0000( ,7328) I--- pain complet
I 1,0000( ,7328) I- aux germes
I
I MODE mode de fabrication
,00 I ,0000( ,5496) I artisanal
I ,0000( ,5496) I moderne
I
+----+ TEMPS temps de cuisson
30,61I I 1,2500( ,5496) I-- court
+----+ -1,2500( ,5496) --I long
I
++ FORME forme
8,16 II ,3333( ,7328) I petit pain
++ ,0000( ,7328) I pain
I -,3333( ,7328) I baguette
I
4,5833( ,5794) CONSTANT
Pearson's R = ,959 Significance = ,0000
Kendall's tau = ,833 Significance = ,0009
jean-Claude Liquet
109

Les résultats - 2
SUBFILE SUMMARY
Averaged
Importance Utility Factor
+---------+ INGREDIE ingredient
I38,40 I 1,1875 I---- pain blanc
+---------+ -,9306 ---I pain complet
I -,2569 -I aux germes
I
+--+ MODE mode de fabrication
13,42 I I -,0990 I artisanal
+--+ ,0990 I moderne
I
+---+ TEMPS temps de cuisson
14,28 I I -,2188 -I court
+---+ ,2188 I- long
I
+--------+ FORME forme
I33,90 I ,6806 I-- petit pain
+--------+ -,0833 I pain
I -,5972 --I baguette
I
5,1059 CONSTANT
Pearson's R = ,971 Significance = ,0000
Kendall's tau = ,833 Significance = ,0009
jean-Claude Liquet
110

Les résultats - 3
1,5
1,0
,5
0,0
-,5
,2
-1,0
,1
-1,5
pain blanc
pain complet
aux germes
ingredient
0,0
-,1
-,2
artisanal
moderne
mode de fabrication
jean-Claude Liquet
111

Les résultats - 4
,3
,2
,1
-,0
,8
-,1
,6
,4
-,2
,2
-,3
court
long
0,0
temps de cuisson
-,2
-,4
-,6
-,8
petit pain
pain
baguette
forme
jean-Claude Liquet
112

Les résultats - 5
40
30
20
enn
yeo
me 10
cn
rtaop
Im
0
ingredient
temps de cuisson
mode de fabrication
forme
jean-Claude Liquet
113

Un exemple
Les stéréotypes des vendeurs
jean-Claude Liquet
114

Les résultats - 1
Attributs Importance
M odalités
Utilités
Habits 55,22%
Décontractés
-0,3226
S tricts
0,6237
De travail
-0,3011
S exe
20,39%
Homme
0,4919
Femme
-0,4919
Age
24,28%
20 à 35 ans
0,0968
35 à 45 ans
0,0108
Plus de 45 ans -0,0860
Tau de Kendal = 0,556 R isque alpha = 0,0185
jean-Claude Liquet
115

Les résultats - 2
Tableau : fiche de l'entrepris e Dupont
Attributs
Importance Modalités
Utilités
Habits
28,57%
Décontractés
1,3333
S tricts
-0,3333
De travail
-1
S exe
42,86%
Homme

1,7500
Femme
-1,7500
Age
8,57%
20 à 35 ans
03333
35 à 45 ans
1
Plus de 45 ans
-1,3333
jean-Claude Liquet
116

C alcul des utilités
L’entreprise “ Dupont ” vient de s’adjoindre comme
col aborateur M adame Germain qui a 28 ans,
el e est habituel ement habil ée d’un tail eur noir.
On peut calculer “ l’utilité ” totale pour chacune des entreprises
de ce négociateur.
Utotal= utilité ( habit strict ) + utilité (sexe féminin )
+ utilité (âge entre 25 et 35 ans).
jean-Claude Liquet
117

R épartition des scores
8
6
4
2
épartition du score d'accueilR 0 -4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0
la jeune femme stricte
M oyenne 0,22 et E cart Type 2,39
jean-Claude Liquet
118

R épartition des scores
8
6
4
2
épartition du score d'accueilR 0 -4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0 5,0
Le jeune homme strict
M oyenne 1,2 et E cart-type 2,36
jean-Claude Liquet
119

Segmentation par
avantages recherchés
typologies et cartes
perceptuelles.
jean-Claude Liquet
120

Typologie par avantages recherchés
Typologie par avantages recherchés,deuxième série
l'avantage principal
type d'ensei
famil es
vie de l'iup
1
2
3
débouché
4
0,0
,1
,2
,3
,4
,5
,6
,7
,8
jean-Claude Liquet
121

Carte perceptuelle : les avantages recherchés par les
étudiants dans une formation univers itaire
profes s ionnalis ée
,4
publicequi-uni-pro
,2
II
0,0
ouverture
équilibre
-,2
responsabili
-,4
débouchéd'a
projet perso
-,6
I
III
alternance
-,8
-1,0-1,0
-,5
0,0
,5
1,0
1,5
2,0
jean-Claude Liquet
122

Autre exemple : la presse
1,5
rationnalité les échos
1
analyse
image de soi risquée
0,5
pqr le monde
dis tribution
"les accros"
lefigaro
ne lit rien
le monde
0
Libé
-1,2
-1
-0,8
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
1
besoin sans risque
pas impliqué
-0,5
contenu
le plais ir
-1
proximité de pensée
l'humanité
-1,5
passion
jean-Claude Liquet
123

Le prix acceptable
Le prix et la mise à disposition.
3
2
1
0
prix les deux autres
niveaux *2 ou *3
-1
abonnement
-2
portage
utilite prix et distribution -3
achat en magasin
distribution
proximité politique
analyse rationnalité
contenu
Segment par avantages recherchés
jean-Claude Liquet
124

jean-Claude Liquet
125

jean-Claude Liquet
126

L ’ANALYSE DE SURVIE
jean-Claude Liquet
127

Les modèles de survie:
- stratégie de fidélisation
- outils de CRM
jean-Claude Liquet
128

A partir des fichiers clients évaluer les pratiques commerciales.
Comment ?
Par l’analyse des durées de vie de vos lecteurs
jean-Claude Liquet
129

Optimiser les actions de fidélisation
avec les Modèles de Survie:
Décrire
Expliquer
jean-Claude Liquet
130

La fidélité à un journal dépend:
de son contenu
de la qualité de la livraison
de la pression commerciale sur la diffusion de leur
parution
Mais les précautions n’empêchent pas les résiliations
jean-Claude Liquet
131

une des solutions ?
Anticiper la résiliation, intervenir en amont
de la prise de décision de résiliation.
jean-Claude Liquet
132

Un exemple d ’étude a été publié dans « Décisions Marketing »
Les variables retenues dans le cadre du quotidien:
Le mode de recrutement
La périodicité du paiement
Le mode de livraison
Le prix de l ’abonnement
jean-Claude Liquet
133

La mesure de la durée de vie des abonnés:
L ’analyse de survie se décompose en deux phases
complémentaires:
L ’analyse de survie descriptive
L ’analyse de survie explicative
jean-Claude Liquet
134

Les analyses de survie descriptives :
Renseignent sur la valeur actualisée client :
Life Time Value
Examen de la population suivant la méthode des
démographes
jean-Claude Liquet
135

Les analyses de survie explicatives:
la probabilité de survie du client
une gestion pertinente des résiliations
d ’abonnements
jean-Claude Liquet
136

Modélisation de l ’analyse de survie:
Temps
jean-Claude Liquet
137

Modélisation des durées de survie :
- recherche d ’une fonction qui rende compte de la forme de la courbe
- prévoit les chances qu ’un lecteur fidèle possédant un certain profil le
soit encore au bout d ’un certain temps.
jean-Claude Liquet
138

Un exemple d ’application:
L ’application des analyses de survie nécessite:
une variable de durée
un indicateur de censure
jean-Claude Liquet
139

L ’étude descriptive
La médiane de survie est de 34 mois.
jean-Claude Liquet
140

Ou encore:
40% des abonnés ne renouvellent pas leur
abonnement au bout d ’un an.
La demi vie est de 28 mois
jean-Claude Liquet
141

Seuls 82% des abonnés poursuivent leur abonnement à l ’issue
de un an
jean-Claude Liquet
142

Pour cette population ayant optés pour le prélèvement
automatique, la fonction de risque est tracée:
Les zones de risques sont ainsi lisibles
jean-Claude Liquet
143

La valeur actualisée du client:
Les clients les plus fidèles n ’ont pas toujours la valeur
la plus élevée
jean-Claude Liquet
144

Modélisation des durées de survie individuelles:
Le modèle de Cox
différentes variables explicatives :
- la tranche d ’âge de l ’abonné (plus et moins 50 ans)
- le mode d ’abonnement
- le mode de distribution
- le mode de paiement
jean-Claude Liquet
145

La probabilité de survie de chaque lecteur est estimé suivant son
profil et pour un horizon de temps fixé.
On détermine ainsi:
Qui doit faire l ’objet d ’actions ?
Quand agir ?
jean-Claude Liquet
146

jean-Claude Liquet
147

jean-Claude Liquet
148

Les conclusions induites :
Les abonnés servis par portage sont plus fidèles
Le prélèvement automatique est un facteur de fidélité
L ’abonnement volontaire est plus durable
Les plus âgés sont les plus fidèles
jean-Claude Liquet
149

Le fichier et son devenir
caractéristiques
probabilité de survie
mode de 
type de 
mode de 
individu
âge
distribution
paiement
recrutement
4
8
12
actions marketing
a
action 1
b
action 2
c
action 3
d
action 4
e
action 5
f
action 6
action 1
agir sur le produit lui-même
action 2
agir sur la force de vente
action 3
vérifier la logistique/étendre le portage
action 4
envoi de courrier
action 5
cadeau de réabonnement
action 6
supprimer le possibilité de résiliation mensuel
jean-Claude Liquet
150

Les perspectives possibles
L ’analyse de survie est bien adaptée à la presse pour mettre
en place des programmes de fidélisation.
Les données comportementales des lecteurs abonnés ou
portés peuvent être enrichies également par d ’autres
méthodes de scoring.
jean-Claude Liquet
151

Cours d'analyse des données
Publier sur Facebook Publier sur Twitter
Informations
Date : 04/02/2011
Langue : Français
Pages : 151
Consultations : 3379
Commentaires : 0
Note :  
Résumé
Description : Cours d'économie : Cours d'analyse des données.

Catégorie : Académique > Cours > Economie

Tags : Cours d'économie

Sur le même thème
Vues : 2462
Théorie C K - Cours de conception innovante
Pseudo : Ingenieur
Vues : 2462
Date : 13/12/2010
Pages : 21
Langue : Français
Description :
Cours d'économie dispensé aux Mines ParisTech sous licence Creative
Vues : 1640
Introduction à la microéconomie
Pseudo : Econoclaste
Vues : 1640
Date : 10/01/2011
Pages : 244
Langue : Français
Description :
Cours de microéconomie : Introduction à la microéconomie.
Vues : 1635
Concurrence oligopolistique
Pseudo : Opencourse
Vues : 1635
Date : 09/12/2010
Pages : 20
Langue : Français
Description :
Cours sur la concurrence oligopolistique dispensé aux Mines ParisTech sous licence Creative Commons :...
Vues : 1631
Cours de Calcul Economique
Pseudo : Opencourse
Vues : 1631
Date : 08/12/2010
Pages : 144
Langue : Français
Description :
Cours de Calcul Economique dispensé aux Mines ParisTech. Cours sous licence CC :...
Vues : 1326
Introduction aux méthodes économétriques
Pseudo : Superwaldo
Vues : 1326
Date : 04/02/2011
Pages : 94
Langue : Français
Description :
Cours d'économie : Introduction aux méthodes économétriques.
Vues : 1199
Le pouvoir de marché
Pseudo : Ingenieur
Vues : 1199
Date : 13/12/2010
Pages : 20
Langue : Français
Description :
Cours d'économie dispensé aux Mines ParisTech sous licence Creative
Du même contributeur
Vues : 9000
Méthodologie et outils de l'audit et du contrôle
Pseudo : Superwaldo
Vues : 9000
Date : 04/02/2011
Pages : 104
Langue : Français
Description :
Cours d'audit : Méthodologie et outils de l'audit et du contrôle.
Vues : 7313
Ecart d'acquisition
Pseudo : Superwaldo
Vues : 7313
Date : 04/02/2011
Pages : 42
Langue : Français
Description :
Cours de consolidation : Ecart d'acquisition.
Vues : 4529
Méthodes de consolidation
Pseudo : Superwaldo
Vues : 4529
Date : 04/02/2011
Pages : 37
Langue : Français
Description :
Cours de consolidation : Méthodes de consolidation.
Vues : 4502
Comment rédiger une introduction pour la dissertation juridique ?
Pseudo : Superwaldo
Vues : 4502
Date : 04/02/2011
Pages : 2
Langue : Français
Description :
Comment rédiger une introduction pour la dissertation juridique ?
Vues : 4044
Pourcentage d'intérêt et de contrôle
Pseudo : Superwaldo
Vues : 4044
Date : 04/02/2011
Pages : 24
Langue : Français
Description :
Cours de consolidation : Pourcentage d'intérêt et de contrôle.
Vues : 3558
Histoire de l'audit et du contrôle interne
Pseudo : Superwaldo
Vues : 3558
Date : 04/02/2011
Pages : 39
Langue : Français
Description :
Cours d'audit : Histoire de l'audit et du contrôle interne.
Commentaires
Aucun commentaire pour cette publication
Ajouter un commentaire
Envoyer
Pour envoyer la page de votre document, notez ici les emails destinataires de votre demande :
Séparez les emails par des virgules
Signaler un abus
Vous devez vous connecter ou vous inscrire pour noter un document.
Cliquez ici pour vous inscrire.
Vous devez vous connecter ou vous inscrire pour ajouter un commentaire.
Cliquez ici pour vous inscrire.
Vous devez vous connecter ou vous inscrire pour envoyer le document.
Cliquez ici pour vous inscrire.
Vous ne pouvez pas acheter de documents sur Needocs.
Vous pouvez vous référer aux conditions générales de vente et d'achat du portail pour connaître les modalités d'achat.