IV.1 Introduction à la modélisation
Il est délicat de fournir une définition unique de la notion de modèle.
Dans notre étude nous pouvons considérer qu’un modèle consiste en une représentation
formalisée d’un phénomène sous forme d’équations dont les variables
sont des paramètres du réseau GPRS.
L’objectif de la modélisation est de représenter les traits les plus
marquant d’une réalité qu’on cherche à styliser. Le modèle est donc un outil
qu’on utilise lorsqu’on cherche à comprendre et à expliquer l’évolution de nos
paramètres dans notre réseau.
Il nous faudra, en se basant sur un raisonnement technique, mais aussi
sur les propriétés des observations disponibles, faire un certain nombre
d’hypothèses sur la nature statistique des écarts que peuvent présenter les
observations au modèle spécifié. Et c’est en fonction de ces hypothèses que
nous verrons qu’elles sont les propriétés des différentes méthodes d’estimation
statistique et de procéder à des tests d’adéquation et de fiabilité au observations obtenues.
Notre étude statistique consiste donc à spécifier sous forme
quantitative les modèles, de confronter ceux_ci aux observations disponibles.
Il s’agira d’estimer numériquement les valeurs des paramètres des modèles, de
tester leurs significations, et de juger de l’adéquation du modèle par rapport
aux observations.
IV.2 Modélisation des
paramètres directeurs du réseau
Il existe plusieurs méthodes statistiques de
modélisation, chacune d’elles est basée sur des formules et des tests afin d’estimer
le meilleur ajustement du modèle, et en fonction de l’analyse statistique de
ces résultats, nous étudierons l’adéquation des modèles établis et nous
choisirons le modèle statistiquement le plus significatif.
Dans notre étude, nous allons utiliser différentes méthodes de
régression exécutable par le logiciel, nous allons citer celles les plus
significatives pour les deux modèles.
IV.3 Modélisation par
régression linéaire
L’analyse de régression est un outil qui permet d’étudier et de mesurer
la relation existant entre deux ou plusieurs variables. En se basant sur
les données d’un échantillon, l’analyse de régression cherche à déterminer une
estimation d’une relation mathématique entre deux variables (ou plus).
Pour la
validation du modèle, il faudrait vérifier les hypothèses suivantes :
a) Hypothèse
de linéarité
Tout d'abord, il semble évident en regardant simplement le nom de la
méthode, que la relation entre les variables est linéaire. En pratique, cette hypothèse est vérifiée
en examinant le nuage de points bivarié des variables étudiées.
b) Hypothèse
de Normalité
Dans la régression multiple, on suppose que les résidus qui représentent
la différence entre les valeurs théoriques et les valeurs observées, sont des
variables aléatoires distribués suivant la loi normal, cette loi permet de
faire de bonne approximations, les résidus seront moins dispersés.
c) Homogénéité
de la variance
Il faudrait que la variance des erreurs reste
constante, et cela en vérifiant la normalité des résidus.
d)
L’autocorrélation des résidus
Il faut vérifier
que les corrélations mutuelles des
résidus soient nulles c’est à dire qu’il n’y a pas d’autocorrélation des
erreurs. On utilise pour cela le test de Durbin-Watson.
IV.3.1 Etude du premier modèle
A l’initialisation du module « Régression Multiple » le Panneau de Démarrage de la Régression Multiple
nous permettra la spécification de l’analyse, de désigner les variables, le
type de fichier de données, ainsi que d'autres options.
Après l’exécution de la méthode,
une fenêtre de résultats s’affiche, elle
représente une synthèse des résultats de l'analyse de régression courante et
offre plusieurs options permettant d'étudier des résultats spécifiques dont on traite celle les plus importants pour la
validation du modèle.
Pour le premier modèle, nous
avons les résultats suivants : La boite de synthèse nous affiche
les informations suivantes :
Var. Dép. : Le nom de
la variable dépendante, elle représente le paramètre directeur à modéliser.
Nombre d’observations: La
taille d'échantillon minimum valide (n) est affichée.
R Multiple : Il
s'agit du coefficient de corrélation multiple. Cette statistique est utile en
régression multivariée (c'est à dire, avec plusieurs variables indépendantes) à
fin de décrire la relation entre les variable
R2: Le coefficient de détermination multiple mesure la
réduction de la variation totale de la variable dépendante due aux (multiples)
variables indépendantes.
R2 Ajusté : Le
R2 est ajusté en divisant la somme des carrés de l'erreur et la
somme des carrés totale par leurs degrés de liberté respectifs.
Erreur-type de l'estimation :
Cette statistique mesure la dispersion des valeurs observées autour de la
droite de régression.
Ordonnée à l'Origine :
comme son nom l’indique c’est la valeur de l'ordonnée à l'origine.
Erreur-Type : Il
s'agit de l'erreur-type de l'ordonnée à l'origine.
Test F (de
Fisher) : La logique du test exact de Fisher est de calculer la
probabilité exacte sous l'hypothèse nulle d'obtenir la distribution courante
des fréquences dans les cellules, ou une plus inégale. Ce test vérifie la
validation du modèle.
Significativité Statistique
(Niveau p) : La significativité statistique d'un résultat est une
mesure estimée du degré auquel il est "vrai" (au sens,
"représentatif de la population").
Plus techniquement, la valeur du niveau p représente un indice
décroissant de la fiabilité d'un résultat. Dans de nombreux domaines de
recherche, la valeur du niveau p de 0,05 est considéré selon l'usage comme une
"limite acceptable" d'erreur. (Pour plus de détail, voir annexe).
Tous les tests de significativité statistique de la régression multiple
supposent que les données sont issues d'un échantillon aléatoire d'observations
indépendantes.
Pour valider le modèle établi,
nous effectuerons plusieurs analyses et tests statistiques.
a)
Analyse graphique
L’analyse graphique est très importante,
elle permet la vérification visuelle des hypothèses et donc nous permet la
prise de décision de l’adéquation du modèle obtenu.
Ce graphique fait apparaître un nuage de points des valeurs brutes
prévues (sur l'axe X) en fonction des résidus bruts (sur l'axe Y). Ce tracé est
particulièrement utile pour tester l'hypothèse de linéarité concernant la
relation entre les variables indépendantes et la variable dépendante. Les
résultats des résidus forment un "nuage" homogène autour de la droite
centrale qui signifie la convergence de l’erreur vers zéro, donc la relation est
bien linéaire.
- Vérification de l’hypothèse de
normalité
Histogrammes
La régression multiple suppose que les
valeurs des résidus sont normalement distribuées. Cet histogramme présente
distribution de fréquence des valeurs observées avec superposition des valeurs
théoriques Normales (attendues) sur le tracé. On peut constater que l’hypothèse
de la normalité des résidus est réalisée.
Tracé Normal des Résidus
Ce Tracé de Loi Normale nous permet d'inspecter visuellement et
rapidement dans quelle mesure les résidus suivent une distribution Normale.
- Valeurs observées en fonction
des valeurs prévues
Ce tracé est particulièrement
utile pour identifier des groupes potentiels d'observations qui ne sont pas
bien prévus. La droite théorique est tracée en rouge indiquant la relation
désirée entre les valeurs prévues et celles observées.
Résidus en fonction des valeurs observées Ces tracés sont particulièrement
utiles pour détecter des points atypiques ou des groupes d'observations qui ont
systématiquement des prévisions trop fortes ou trop faibles.
Pour notre modèle, on voit que la
plupart des points observés sont concentrées sur la droite théorique des
prévisions et de façon homogène.
a)
Homogénéité de la variance
Du fait que les résidus suivent une loi normale, on en déduit que leur
variance est constante.
b)
L’analyse de l’autocorrélation
Par l’analyse des résidus toujours, l’option de Durbain_Watson nous a
affiché les résultats suivants :
Le coefficient de
l’autocorrélation=0.125 DW=1.75
Nous avons les hypothèses
suivantes :
H0 : il n’y pas
d’autocorrelation des résidus.
H1 : il y a autocorrelation
des résidus.
En consultant la table de Durbain_Watson pour l’échantillon d’une taille
de 100 et de nombre de variables explicatives égale à 2 nous avons eu les
coefficients suivants :
d et  =1.72 4- =2.28
Et on vérifie la condition suivante :
Donc on accepte l’hypothèse
H
c)
Analyse de variance
Nous devons procéder au test de Fisher, Ce test vérifie la
signification globale du modèle, c'est-à-dire existe_t_il au moins une variable
explicative significative ?
Soit les hypothèses suivantes :
H : il n’existe pas de
modèle.
H : il existe au moins un des coefficient non nul, c’est
à dire il existe au moins une variable indépendante.
Le test est représenté dans le tableau suivant ainsi que les autres
tests :
|
Boite de
synthèse
|
Résultats
|
Conclusion
|
|
R multiple
|
0.95411022
|
On a une forte
corrélation.
|
|
R2
|
0.91032631
|
On a une réduction
de dispersion de 91% et donc un meilleur ajustement.
|
|
R2 ajusté
|
0.9102932
|
R2 ajusté R2
|
|
Erreur_type
d’estimation
|
2.7121
|
Elle est
relativement faible.
|
|
Niveau p
|
0
|
La probabilité
d’erreur est nulle donc un excellent ajustement.
|
|
Test Fischer
|
7781.158
|
Fischer de la
table : F (q=2, 1533=n-q-1)
F (2, 1533)= 2.99 et F =7781.158
F on rejette
l’hypothèse H .
|
|
dl degrés de
Liberté
|
|
On a q=2 variables
indépendantes
Et
n-q-1=1536-2-1=1533 dl/résidus.
|
d)
Validation graphique du premier modèle
Pour visualiser la modélisation effectuée
concernant le premier paramètre, nous avons comparé la courbe de notre modèle
et celle de nos observations, et nous avons obtenu le graphe suivant :
|