V??rifi?? contenu

Moindres carr??s

Sujets connexes: Math??matiques

Contexte des ??coles Wikip??dia

SOS Enfants a essay?? de rendre le contenu plus accessible Wikipedia par cette s??lection des ??coles. Voir http://www.soschildren.org/sponsor-a-child pour conna??tre le parrainage d'enfants.

La m??thode des moindres carr??s, aussi connu comme l'analyse de r??gression , est utilis?? pour mod??liser des donn??es num??riques obtenues ?? partir d'observations en ajustant les param??tres d'un mod??le de fa??on ?? obtenir un ajustement optimal des donn??es. Le meilleur ajustement est caract??ris?? par la somme des carr??s des r??sidus ont moins de sa valeur, un ??tant r??siduelle la diff??rence entre la valeur observ??e et la valeur donn??e par le mod??le. La m??thode a ??t?? d??crite par Carl Friedrich Gauss autour de 1794. moindres carr??s correspond ?? la crit??re du maximum de vraisemblance, si les erreurs exp??rimentales ont une distribution normale . L'analyse de r??gression est disponible dans la plupart progiciels statistiques.

Le r??sultat de montage d'un ensemble de points de donn??es avec une fonction quadratique.

Histoire

Contexte

La m??thode des moindres carr??s a grandi dans les champs de l'astronomie et de g??od??sie que des scientifiques et math??maticiens a cherch?? ?? apporter des solutions aux d??fis de naviguer les oc??ans de la Terre au cours de l' ??ge de l'exploration . La description pr??cise du comportement des corps c??lestes ??tait essentielle pour permettre aux navires de naviguer en haute mer o??, avant marins devaient se appuyer sur des observations terrestres pour d??terminer les positions de leurs navires.

La m??thode a ??t?? le point culminant de plusieurs avanc??es qui ont eu lieu au cours de la dix-huiti??me si??cle :

  • La combinaison de diff??rentes observations prises dans les m??mes conditions plut??t que de simplement essayer de son mieux pour observer et enregistrer une seule observation pr??cise. Cette approche a notamment ??t?? utilis?? par Tobias Mayer en ??tudiant la libration de la Lune.
  • La combinaison de diff??rentes observations comme ??tant la meilleure estimation de la valeur r??elle; erreurs diminuent avec l'agr??gation plut??t que augmentation, peut-??tre d'abord exprim??e par Roger Cotes.
  • La combinaison de diff??rentes observations prises dans des conditions diff??rentes que notamment effectu??e par Roger Joseph Boscovich dans son travail sur la forme de la terre et Pierre-Simon Laplace dans son travail pour expliquer les diff??rences dans le mouvement de Jupiter et de Saturne .
  • Le d??veloppement d'un crit??re qui peut ??tre ??valu??e pour d??terminer quand la solution avec l'erreur minimum a ??t?? atteint, d??velopp??e par Laplace dans sa Proc??d?? de situation.

Le proc??d?? lui-m??me

Carl Friedrich Gauss est cr??dit?? de d??velopper les fondements de la base de l'analyse des moindres carr??s en 1795 ?? l'??ge de dix-huit ans.

Une premi??re d??monstration de la force de la m??thode de Gauss est venue quand il a ??t?? utilis?? pour pr??dire le futur emplacement de l'ast??ro??de nouvellement d??couvert Ceres . Sur Le 1er janvier 1801 , l'astronome italien Giuseppe Piazzi d??couvre C??r??s et ??tait en mesure de suivre son chemin pendant 40 jours avant qu'il a ??t?? perdu dans l'??clat du soleil. Sur la base de ces donn??es, on a voulu d??terminer l'emplacement de C??r??s apr??s qu'il a ??merg?? de derri??re le soleil sans r??soudre le compliqu??e ??quations non lin??aires de Kepler de mouvement plan??taire. Les seules pr??visions qui ont permis avec succ??s astronome hongrois Franz Xaver von Zach de d??m??nager Ceres ??taient celles effectu??es par le 24-year-old Gauss en utilisant l'analyse des moindres carr??s.

Gauss n'a pas publi?? la m??thode jusqu'?? 1809 , quand il est apparu dans le volume deux de son travail sur la m??canique c??leste, Theoria Motus Corporum Coelestium dans sectionibus conicis solem ambientium. En 1829 , Gauss a ??t?? en mesure d'affirmer que l'approche des moindres carr??s ?? l'analyse de r??gression est optimal dans le sens que, dans un mod??le lin??aire o?? les erreurs ont une moyenne de z??ro, ne sont pas corr??l??es, et ont des variances ??gales, les meilleurs estimateurs lin??aires sans biais de les coefficients sont les estimateurs des moindres carr??s. Ce r??sultat est connu comme le Th??or??me de Gauss-Markov.

L'id??e de moindres carr??s analyse a ??galement ??t?? formul?? de fa??on ind??pendante par le Fran??ais Adrien-Marie Legendre en 1805 et de l'American Robert Adrain en 1808 .

??nonc?? du probl??me

L'objectif consiste ?? ajuster les param??tres d'une fonction de mod??le de mani??re ?? se adapter mieux ?? un ensemble de donn??es. Un ensemble de donn??es simple consiste ?? m points (paires de donn??es) (X_i, y_i) \! , I = 1, ..., m, o?? x_i \! est un variable ind??pendante et y_i \! est un variable d??pendante dont la valeur est trouv??e par l'observation. La fonction de mod??le a la forme f (x_i, \ boldsymbol \ beta) , O?? les param??tres r??glables n ont lieu dans le vecteur \ Boldsymbol \ beta . Nous voulons trouver les valeurs des param??tres pour lesquels le ??meilleur?? mod??le correspond aux donn??es. La m??thode des moindres carr??s d??finit ??meilleur?? que lorsque la somme, S, des carr??s des r??sidus

S = \ sum_ {i = 1} ^ {i = m ^ 2} r_i

est un minimum. Un r??siduelle est d??finie comme la diff??rence entre les valeurs de la variable d??pendante et le mod??le.

r_i = y_i - f (x_i, \ boldsymbol \ beta)

Un exemple d'un mod??le est celui de la ligne droite. En notant que l'interception \ Alpha et comme la pente \ Beta , La fonction mod??le est donn??e par

f (x_i, \ boldsymbol \ beta) = \ alpha + \ beta x_i.

Voir lin??aire des moindres carr??s # Exemple pour un exemple enti??rement travaill?? sur ce mod??le.

Un point de donn??es peut comporter plus d'une variable ind??pendante. Par exemple, lors du montage d'un avion ?? un ensemble de mesures de hauteur, le plan est une fonction de deux variables ind??pendantes, x et z, par exemple. Dans le cas le plus g??n??ral, il peut y avoir une ou plusieurs variables ind??pendantes et une ou plusieurs variables d??pendantes ?? chaque point de donn??es.

R??soudre le probl??me des moindres carr??s

Probl??mes de moindres carr??s se r??partissent en deux cat??gories, lin??aire et non-lin??aire. Le probl??me lin??aires des moindres carr??s a une solution de forme ferm??e, mais le probl??me non lin??aire doit ??tre r??solu par raffinement it??ratif; ?? chaque it??ration du syst??me est approch??e par une lin??aire, de sorte que le calcul de base est similaire dans les deux cas.

Le minimum de la somme des carr??s est obtenu par r??glage de la gradient ?? z??ro. Depuis le mod??le contient n param??tres il ya n ??quations gradient.

\ Frac {\ S partielle} {\ partial \ beta_j} = 2 \ sum_i r_i \ frac {\ de r_i partielle} {\ partial \ beta_j} = 0, j = 1, \ ldots, n

et que r_i = y_i-f (x_i, \ boldsymbol \ beta) \, les ??quations deviennent de gradient

-2 \ Sum_i \ frac {\ f partielle (x_i, \ boldsymbol \ beta)} {\ partial \ beta_j} r_i = 0, j = 1, \ ldots, n

Les ??quations de gradient se appliquent ?? tous les probl??mes des moindres carr??s. Chaque probl??me particulier n??cessite expressions particuli??res pour le mod??le et ses d??riv??es partielles.

Lin??aire des moindres carr??s

Le syst??me est lin??aire quand le mod??le comprend un combinaison lin??aire des param??tres.

f (x_i, \ boldsymbol \ beta) = \ sum_ {j = 1} ^ {j = n} {X_ ij} \ beta_j

Les coefficients X_ {ij} sont des constantes ou des fonctions de la variable ind??pendante, x i.

Depuis \ Frac {\ f partielle (x_i, \ boldsymbol \ beta)} {\ partial \ beta_j} = {ij} X_ et r_i = y_i- \ sum_ {j = 1} ^ {j = n} {X_ ij} \ beta_j les ??quations deviennent de gradient

-2 \ Sum_ {i = 1} ^ {i = m} X_ {ij} \ left (y_i- \ sum_ {j = 1} ^ {j = n} {X_ ij} \ beta_j \ right) = 0

qui, r??arrangement, devenu n ??quations lin??aires simultan??es, les ??quations normales.

\ Sum_ {i = 1} ^ {i = m} \ sum_ {k = 1} ^ {k = n} {ij} X_ X_ {ik} \ hat \ beta_k = \ sum_ {i = 1} ^ {i = m} X_ {ij} y_i (j = 1, \ ldots, n) \,

Les ??quations normales sont ??crites en notation matricielle

\ Mathbf {\ left (X ^ TX \ right) \ hat \ boldsymbol \ beta = X ^ Ty}

Solution des ??quations normales donne les estimateurs des moindres carr??s, \ Hat \ boldsymbol \ beta , Des valeurs de param??tre. Voir moindres carr??s lin??aires (exemple) et la r??gression lin??aire (par exemple) pour des exemples num??riques ??labor??e.

Moindres carr??s non lin??aires

Il n'y a pas de solution ?? un probl??me de fermeture moins carr??s non lin??aire. Au lieu de cela, les valeurs initiales doivent ??tre choisies pour les param??tres. Ensuite, les param??tres sont raffin??es de fa??on it??rative, ?? savoir les valeurs sont obtenues par approximations successives.

\ Beta_j ^ {k + 1} = \ beta ^ k_j + \ Delta \ beta_j

k est un nombre d'it??rations et le vecteur d'incr??ments, \ Delta \ beta_j \, qui est connu comme le vecteur de d??calage. A chaque it??ration Le mod??le peut ??tre lin??aris?? par approximation d'un premier ordre s??rie de Taylor ?? propos de l'expansion \ Boldsymbol \ beta ^ k \!

f (x_i, \ boldsymbol \ beta) = f ^ k (x_i, \ boldsymbol \ beta) + \ sum_j \ frac {\ f partielle (x_i, \ boldsymbol \ beta)} {\ partial \ beta_j} \ left (\ beta ^ k_j - \ beta_j \ right) = f ^ k (x_i, \ boldsymbol \ beta) + \ sum_j J_ {ij} \ Delta \ beta_j.

Le Jacobien, J est une fonction de constantes, la variable ind??pendante et les param??tres, de sorte qu'il passe d'une it??ration ?? l'autre. Les r??sidus sont donn??s par

r_i = f ^ k y_i- (x_i, \ boldsymbol \ beta) - \ sum_ {j = 1} ^ {j = n} {ij} J_ \ Delta \ beta_j = \ Delta y_i- \ sum_ {j = 1} ^ {j = n} {ij} J_ \ Delta \ beta_j

et les ??quations deviennent de gradient

-2 \ Sum_ {i = 1} ^ {i = m} J_ {ij} \ left (\ Delta y_i- \ sum_ {j = 1} ^ {i = n} {ij} J_ \ Delta \ beta_j \ right) = 0

qui, r??arrangement, devenu n ??quations lin??aires simultan??es, les ??quations normales.

\ Sum_ {i = 1} ^ {i = m} \ sum_ {k = 1} ^ {k = n} {ij} J_ J_ {ik} \ Delta \ beta_k = \ sum_ {i = 1} ^ {i = m} J_ {ij} \ Delta y_i (j = 1, \ ldots, n) \,

Les ??quations normales sont ??crites en notation matricielle

\ Mathbf {\ left (J ^ TJ \ right) \ Delta \ boldsymbol \ beta = J ^ T \ Delta y}

Ce sont les ??quations d??finissant de la Algorithme de Gauss-Newton.

Les diff??rences entre lin??aire et non-lin??aire des moindres carr??s

  • La fonction mod??le f, dans LLSQ (lin??aire des moindres carr??s) est une combinaison lin??aire des param??tres de la forme f = X_ {i1} \ beta_1 + X_ {i2} \ beta_2 ... Le mod??le peut repr??senter une ligne droite, une parabole ou toute autre fonction de type polynomiale. Dans NLLSQ (non-lin??aire des moindres carr??s) les param??tres apparaissent comme des fonctions, telles que \ Beta ^ 2, e ^ {\ beta} x et ainsi de suite. Si les d??riv??s \ F partielle / \ partial \ beta_j sont soit constante ou ne d??pendent que des valeurs de la variable ind??pendante, le mod??le est lin??aire dans les param??tres. Sinon, le mod??le est non lin??aire.
  • NLLSQ n??cessite valeurs initiales pour les param??tres, LLSQ ne fait pas.
  • NLLSQ exige que le jacobien ??tre calcul??e. Des expressions analytiques pour les d??riv??es partielles peuvent ??tre compliqu??es. Si expressions analytiques sont impossibles ?? obtenir les d??riv??es partielles doivent ??tre calcul??s par approximation num??rique.
  • Dans NLLSQ divergence est un ph??nom??ne commun alors que dans LLSQ il est assez rare. La divergence se produit lorsque la somme des carr??s augmente d'une it??ration ?? l'autre. Elle est caus??e par l'insuffisance de l'approximation que la s??rie de Taylor peut ??tre tronqu?? ?? la premi??re p??riode. Lorsque divergence se produit la m??thode doit ??tre modifi??e. Le Algorithme de Levenberg-Marquardt offre une bonne protection contre la divergence en tournant le vecteur de changement dans la direction de la plus grande pente. Par la convergence de d??finition est assur??e lorsque les points de vecteur de changement dans la direction de la plus grande pente.
  • NLLSQ est un processus it??ratif processus.Les intrins??quement it??ratif doit ??tre termin?? quand un crit??re de convergence est satisfaite. LLSQ solutions peuvent ??tre calcul??s en utilisant des proc??d??s directs, bien que des probl??mes avec un grand nombre de param??tres sont habituellement r??solus par des m??thodes it??ratives, comme le M??thode de Gauss-Seidel ..
  • Dans LLSQ la solution est unique, mais dans NLLSQ il peut y avoir plusieurs minima dans la somme des carr??s.
  • Dans NLLSQ estimations des erreurs de param??tres sont biais??e, mais dans LLSQ ils ne sont pas.

Ces diff??rences doivent ??tre consid??r??s chaque fois que la solution d'un probl??me des moindres carr??s non lin??aire est recherch??.

Moindres carr??s, analyse de r??gression et statistiques

Les m??thodes de moindres carr??s et analyse de r??gression peuvent sembler ??tre des m??thodes diff??rentes, mais il ya des similitudes importantes entre ceux qui sont obscurcies par l'utilisation de diff??rentes langues utilis??es pour d??crire les m??thodes. Les deux m??thodes sont utilis??es pour mod??liser les donn??es obtenues ?? partir d'observations, et les deux peuvent utiliser les m??mes techniques num??riques.

Dans les sciences physiques le mod??le a g??n??ralement une base th??orique. Par exemple, un ressort devrait ob??ir La loi de Hooke, qui indique que l'extension d'un ressort est proportionnelle ?? la force F, qui lui est appliqu??e.

f (f_i, k) = kF_i \!

constitue le mod??le, o?? F est la variable ind??pendante. Pour d??terminer la force constante, k, une s??rie de mesures avec diff??rentes forces produira un ensemble de donn??es, (F_i, y_i), i = 1, m \! , O?? y i est une extension de printemps mesur??e. La somme des carr??s ?? minimiser est

S = \ sum_ {i = 1} ^ {i = m} \ left (y_i - kF_i \ right) ^ 2.

L'estimation des moindres carr??s de la force constante, k, est donn??e par

\ Hat k = \ frac {\ sum_i f_i y_i} {\ sum_i f_i ^ 2}.

Ici, il est suppos?? que l'application de la force provoque le ressort ?? ??tendre et, apr??s avoir tir?? la force constante par ajustement par les moindres carr??s, l'extension peut ??tre pr??dite ?? partir de la loi de Hooke.

En analyse de r??gression du mod??le est souvent une question empirique. Par exemple, un mod??le tr??s commun est le mod??le de ligne droite qui est utilis??e pour tester se il ya une relation lin??aire entre la variable d??pendante et ind??pendante. Si une relation lin??aire est conclu ?? l'existence, sont dits ??tre les variables corr??l??es . Toutefois, il est bien connu que la corr??lation ne prouve pas la causalit??, comme deux variables peuvent ??tre corr??l??es avec d'autres, variables cach??es. Par exemple, il existe une corr??lation entre les d??c??s par noyade et le volume des ventes de cr??me glac??e. Tant le nombre de gens qui vont nager et le volume de glace augmentation des ventes de cr??me que le temps devient plus chaud et on peut supposer que le nombre de d??c??s par noyade en corr??lation avec le nombre de gens qui vont nager.

Dans les deux proc??d??s, il est g??n??ralement suppos?? que la variable ind??pendante est exempte d'erreurs, mais que la variable d??pendante est soumis ?? l'erreur exp??rimentale, \ Epsilon .

y_i = f (x_i, \ boldsymbol \ beta) + \ epsilon_i

Dans cette expression de la valeur du mod??le est pr??sum??e se rapprocher de la valeur r??elle, ce est la valeur qui serait observ?? se il n'y avait pas d'erreur. On suppose que l'erreur ε est un exp??rimental variable al??atoire de moyenne nulle, ce est-il exclut toutes les erreurs d'un caract??re syst??matique. Comme le mod??le ne est qu'une approximation de la valeur r??elle, les r??sidus sont conceptuellement diff??rent des erreurs. Si la variable ind??pendante est sujette ?? l'erreur, moindres carr??s totaux doivent ??tre utilis??s.

Afin de faire des tests statistiques sur les r??sultats, il est n??cessaire de faire des hypoth??ses sur la nature des erreurs exp??rimentales. L'hypoth??se la plus commune est que les erreurs font partie d'une distribution normale . Le th??or??me central limite soutient l'id??e que ce est une bonne hypoth??se dans de nombreux cas.

  • Le Th??or??me de Gauss-Markov. Dans un mod??le lin??aire dans lequel les erreurs ont esp??rance nulle, sont non corr??l??s et ont les m??mes ??carts , le meilleur lin??aire estimateur non biais?? de toute combinaison lin??aire des observations, est son estimateur des moindres carr??s. "Best" signifie que les estimateurs des moindres carr??s des param??tres ont variance minimale. L'hypoth??se de l'??galit?? de la variance est valable lorsque les erreurs appartiennent tous ?? la m??me distribution.
  • Dans un mod??le lin??aire, si les erreurs appartiennent ?? une distribution normale estimateurs des moindres carr??s sont aussi les estimateurs du maximum de vraisemblance.

L'hypoth??se selon laquelle les erreurs appartiennent ?? une fonction de distribution particulier ne est pas limit??e ?? l'analyse de r??gression. En effet, ces hypoth??ses doivent ??tre faites lors des tests statistiques sur les param??tres. Dans un calcul des moindres carr??s avec des poids unitaires, ou dans la r??gression lin??aire, la variance sur la j ??me param??tre est donn?? par

\ Sigma ^ 2 (\ beta_j) = \ frac {S} {mn} \ left (\ left [X ^ TX \ right] ^ {- 1} \ right) _ {} jj.

Les limites de confiance peuvent ??tre trouv??s si la distribution de probabilit?? des param??tres est connu ou pr??sum??. De m??me des tests statistiques sur les r??sidus peuvent ??tre faites si la distribution de probabilit?? des r??sidus est connue ou suppos??e. La distribution de probabilit?? d'une combinaison lin??aire des variables d??pendantes peut ??tre d??duite si la distribution de probabilit?? des erreurs exp??rimentales est connue ou suppos??e. Le plus souvent, on suppose que les erreurs exp??rimentales appartiennent ?? une distribution normale. Dans ce cas, il est souvent suppos?? que les param??tres et les r??sidus appartiennent ?? une Loi de Student .

La somme des carr??s des r??sidus peut ??tre exprim?? en

S = \ mathbf {y ^ T (I} _m \ mathbf {- X (X ^ TX) ^ {- 1} X ^ T) y} \.!

La matrice \ Mathbf {I - X (X ^ T X) ^ {- 1} X ^ T} est une matrice sym??trique idempotente de rang mn. Voici un exemple de l'utilisation de ce fait dans la th??orie de la r??gression lin??aire. Les valeurs propres d'une matrice d'idempotent sont 0 ou 1. Par cons??quent, les valeurs propres de la matrice Mn ce sont ??gaux ?? 1 et n valeurs propres sont ??gales ?? z??ro. Ce est la plupart du travail ?? d??montrer que la somme des carr??s des r??sidus a une distribution chi-carr?? avec des degr??s de libert?? mn.

Pond??r??es moindres carr??s

Les expressions donn??es ci-dessus sont bas??es sur l'hypoth??se implicite que toutes les mesures ne sont pas corr??l??es et ont ??gale incertitude. Le Gauss-Markov montre que, lorsqu'il en est ainsi, \ Hat \ boldsymbol \ beta est un meilleur estimateur lin??aire sans biais (BLEU). Si, toutefois, les mesures ne sont pas corr??l??es mais ont des incertitudes, une approche modifi??e doit ??tre adopt??e. Aitken a montr?? que lorsque la somme pond??r??e des carr??s des r??sidus soit minimis??e, \ Hat \ boldsymbol \ beta est bleu si chaque poids est ??gal ?? l'inverse de la variance de la mesure.

S = \ sum_ {i = 1} ^ {i = m} W_ {ii} r_i ^ 2, \ W_ {ii} = \ frac {1} {\ sigma ^ 2_i}

Les ??quations de gradient pour cette somme des carr??s sont

-2 \ Sum_i W_ {ii} \ frac {\ f partielle (x_i, \ boldsymbol \ beta)} {\ partial \ beta_j} R_I = 0, \ j = 1, \ ldots, n

qui, dans un syst??me des moindres carr??s lin??aire donner les ??quations normales modifi??s

\ Sum_ {i = 1} ^ {i = m} \ sum_ {k = 1} ^ {k = n} {ij} X_ W_ {ii} {ik} X_ \ hat \ beta_k = \ sum_ {i = 1} ^ {i = m} X_ {ij} {ii} W_ y_i (j = 1, \ ldots, n) \,

ou

\ Mathbf {\ left (X ^ TWX \ right) \ hat \ boldsymbol \ beta = X ^ twy}.

Lorsque les erreurs d'observation ne sont pas corr??l??es la matrice de poids W, est diagonale. Si les erreurs sont corr??l??es, la matrice de poids doit ??tre ??gal ?? l'inverse de la matrice de variance-covariance des observations, mais cela ne affecte pas l'expression de la matrice des ??quations normales et les estimations de param??tres sont encore BLEU. Voir Moindres carr??s g??n??ralis??s pour plus de d??tails.

Lorsque les erreurs ne sont pas corr??l??es, il est commode de simplifier les calculs pour tenir compte de la matrice de poids w_ {ii} = \ sqrt W_ {ii} . Les ??quations normales peuvent alors ??tre ??crites comme

\ Mathbf {\ left (WX \ right) ^ T \ left (WX \ right) \ hat \ boldsymbol \ beta = \ left (WX \ right) ^ T \ left (WY \ right)} \ ou \ \ mathbf {\ gauche (X '^ TX' \ right) \ hat \ boldsymbol \ beta = X '^ Ty'}.

Pour les syst??mes non lin??aires des moindres carr??s un argument similaire montre que les ??quations normales doivent ??tre modifi??es comme suit.

\ Mathbf {\ gauche (J ^ TWJ \ right) \ boldsymbol \ Delta \ beta = J ^ TW \ boldsymbol \ Delta y}

D'autres m??thodes

Estimation des moindres carr??s pour les mod??les lin??aires est notoirement non-robuste pour aberrantes. Si la distribution des valeurs aberrantes est biais??, les estimations peuvent ??tre biais??es. En pr??sence de valeurs aberrantes, les estimations des moindres carr??s sont inefficaces et peuvent ??tre extr??mement lente. Lorsque les valeurs aberrantes se produisent dans les donn??es, les m??thodes de r??gression robuste sont plus appropri??s.

La technique de moindres carr??s partiels gagne en popularit?? dans chimiom??trie et d'autres disciplines. Il est utilis?? lorsque le mod??le est partiellement connus et partiellement inconnue.

Les param??tres de r??gression peuvent ??galement ??tre estim??es par M??thodes bay??siennes. Cela pr??sente les avantages que

  • les intervalles de confiance peuvent ??tre produites pour les estimations des param??tres sans l'utilisation d'approximations asymptotiques,
  • information pr??alable peut ??tre incorpor?? dans l'analyse.

Dans la r??gression lin??aire,

f (x_i, \ boldsymbol \ beta) = \ alpha + \ beta x_i \,

supposons que nous savons de la connaissance de domaine \ Alpha ne peut prendre l'une des valeurs {-1, 1}, mais nous ne savons pas qui. Nous pouvons construire cette information dans l'analyse en choisissant un pr??alable pour \ Alpha qui est une distribution discr??te avec une probabilit?? de 0,5 ?? 0,5 sur 1 et 1. Le post??rieure pour \ Alpha sera ??galement une distribution discr??te sur {-1, 1}, mais les poids de probabilit?? vont changer pour refl??ter les ??l??ments de preuve ?? partir des donn??es.

M??thode Lasso

Dans certains contextes, une Version r??gularis?? de la solution des moindres carr??s peut ??tre pr??f??rable. L'algorithme LASSO, par exemple, trouve une solution des moindres carr??s avec la contrainte que | \ Beta | _1 , Le L 1 -norme du vecteur de param??tre, ne est pas sup??rieure ?? une valeur donn??e. ??quivalente, il peut r??soudre une minimisation sans contrainte de la peine moindres carr??s avec \ Alpha | \ beta | _1 ajout??e, o?? \ Alpha est une constante. (Ceci est le Lagrangien double probl??me de la contrainte.) Ce probl??me peut ??tre r??solu en utilisant programmation quadratique ou plus g??n??rale m??thodes d'optimisation convexe. La formulation -regularized L 1 est utile dans certains contextes, en raison de sa tendance ?? pr??f??rer des solutions ayant moins de valeurs de param??tres non nuls, ce qui r??duit efficacement le nombre de variables sur lesquelles la solution donn??e est d??pendante.

R??cup??r?? ?? partir de " http://en.wikipedia.org/w/index.php?title=Least_squares&oldid=207194202 "