Kleinsten Quadrate

The result of fitting a set of data points with a quadratic function
Conic fitting a set of points using least-squares approximation

Die Methode von kleinsten Quadrate is a standard approach in Regressionsanalyse to approximate the solution of overdetermined systems (sets of equations in which there are more equations than unknowns) by minimizing the sum of the squares of the Residuen (a residual being the difference between an observed value and the fitted value provided by a model) made in the results of each individual equation.

The most important application is in data fitting. When the problem has substantial uncertainties in the unabhängige Variable (das x variable), then simple regression and least-squares methods have problems; in such cases, the methodology required for fitting errors-in-variables models may be considered instead of that for least squares.

Least-squares problems fall into two categories: linear or Gewöhnliche kleinste Quadrate und nonlinear least squares, depending on whether or not the residuals are linear in all unknowns. The linear least-squares problem occurs in statistical Regressionsanalyse; es hat ein geschlossene Lösung. The nonlinear problem is usually solved by iterative refinement; at each iteration the system is approximated by a linear one, and thus the core calculation is similar in both cases.

Polynomial least squares describes the variance in a prediction of the dependent variable as a function of the independent variable and the deviations from the fitted curve.

When the observations come from an Exponentielle Familie with identity as its natural sufficient statistics and mild-conditions are satisfied (e.g. for normal, exponential, Poisson and binomial distributions), standardized least-squares estimates and Maximum-Likelihood estimates are identical.[1] The method of least squares can also be derived as a Momente Methode estimator.

The following discussion is mostly presented in terms of linear functions but the use of least squares is valid and practical for more general families of functions. Also, by iteratively applying local quadratic approximation to the likelihood (through the Fischerinformationen), the least-squares method may be used to fit a Verallgemeinerter linearer Modell.

The least-squares method was officially discovered and published by Adrien-Marie Legendre (1805),[2] though it is usually also co-credited to Carl Friedrich Gauß (1795)[3][4] who contributed significant theoretical advances to the method and may have previously used it in his work.[5][6]

Geschichte

Gründung

The method of least squares grew out of the fields of Astronomie und Geodäsie, as scientists and mathematicians sought to provide solutions to the challenges of navigating the Earth's oceans during the Alter der Entdeckung. The accurate description of the behavior of celestial bodies was the key to enabling ships to sail in open seas, where sailors could no longer rely on land sightings for navigation.

The method was the culmination of several advances that took place during the course of the eighteenth century:[7]

  • The combination of different observations as being the best estimate of the true value; errors decrease with aggregation rather than increase, perhaps first expressed by Roger Cotes 1722.
  • The combination of different observations taken under the gleich conditions contrary to simply trying one's best to observe and record a single observation accurately. The approach was known as the method of averages. This approach was notably used by Tobias Mayer while studying the Librationen of the moon in 1750, and by Pierre-Simon Laplace in his work in explaining the differences in motion of Jupiter und Saturn 1788.
  • The combination of different observations taken under anders Bedingungen. The method came to be known as the method of least absolute deviation. It was notably performed by Roger Joseph Boscovich in his work on the shape of the earth in 1757 and by Pierre-Simon Laplace for the same problem in 1799.
  • The development of a criterion that can be evaluated to determine when the solution with the minimum error has been achieved. Laplace tried to specify a mathematical form of the Wahrscheinlichkeit density for the errors and define a method of estimation that minimizes the error of estimation. For this purpose, Laplace used a symmetric two-sided exponential distribution we now call Laplace -Verteilung to model the error distribution, and used the sum of absolute deviation as error of estimation. He felt these to be the simplest assumptions he could make, and he had hoped to obtain the arithmetic mean as the best estimate. Instead, his estimator was the posterior median.

Die Methode

The first clear and concise exposition of the method of least squares was published by Legendre im Jahr 1805.[8] The technique is described as an algebraic procedure for fitting linear equations to data and Legendre demonstrates the new method by analyzing the same data as Laplace for the shape of the earth. Within ten years after Legendre's publication, the method of least squares had been adopted as a standard tool in astronomy and geodesy in France, Italy, and Prussia, which constitutes an extraordinarily rapid acceptance of a scientific technique.[7]

Im Jahr 1809 Carl Friedrich Gauß veröffentlichte seine Methode zur Berechnung der Umlaufbahnen von Himmelskörpern. In dieser Arbeit behauptete er, seit 1795 die Methode der kleinsten Quadrate zu besitzen. Dies führte natürlich zu einem vorrangigen Streit gegen Legendre. Zu Gaußs Ehre ging er jedoch über Legendre hinaus und gelang es, die Methode der kleinsten Quadrate mit den Prinzipien der Wahrscheinlichkeit und der Wahrscheinlichkeit zu verbinden Normalverteilung. Er hatte es geschafft, das Programm von LAPLACE zu vervollständigen, eine mathematische Form der Wahrscheinlichkeitsdichte für die Beobachtungen anzugeben, abhängig von einer endlichen Anzahl unbekannter Parameter, und eine Schätzmethode zu definieren, die den Schätzfehler minimiert. Gauß zeigte, dass die arithmetisches Mittel is indeed the best estimate of the location parameter by changing both the Wahrscheinlichkeitsdichte und die Methode der Schätzung. Anschließend drehte er das Problem um, indem er gefragt hat, welche Form die Dichte haben sollte und welche Schätzmethode verwendet werden sollte, um den arithmetischen Mittelwert als Schätzung des Standortparameters zu erhalten. Bei diesem Versuch erfand er die Normalverteilung.

An early demonstration of the strength of Gaußs Methode kam, als es verwendet wurde, um den zukünftigen Standort des neu entdeckten Asteroiden vorherzusagen Ceres. Am 1. Januar 1801 der italienische Astronom Giuseppe Piazzi Entdeckte Ceres und konnte seinen Weg 40 Tage verfolgen, bevor er im Glanz der Sonne verloren ging. Basierend auf diesen Daten wollten die Astronomen den Ort von Ceres bestimmen, nachdem sie hinter der Sonne ohne Lösung aufgetaucht war Keplers komplizierte nichtlineare Gleichungen der Planetenbewegung. Die einzigen Vorhersagen, die einen ungarischen Astronom erfolgreich erlaubten Franz Xaver von Zach Um die Ceres zu verlagern, wurden die vom 24-jährigen Gauß unter Verwendung der Analyse der kleinsten Quadrate durchgeführt.

1810, nachdem Gauss 'Arbeit Laplace gelesen hatte, nachdem er das bewiesen hatte Zentralgrenze Theoremverwendete es, um eine große Stichprobe für die Methode der kleinsten Quadrate und der Normalverteilung zu erhalten. Im Jahr 1822 konnte Gauß angeben, dass der Ansatz der kleinsten Quadrate zur Regressionsanalyse in dem Sinne optimal ist Die Koeffizienten sind der Schätzer der kleinsten Quadrate. Dieses Ergebnis ist als das bekannt Gauss -Markov -Theorem.

Die Idee der Analyse der kleinsten Quadrate wurde auch vom Amerikaner unabhängig formuliert Robert Adrain 1808. In den nächsten zwei Jahrhunderten fanden Arbeitnehmer in der Theorie der Fehler und in Statistiken viele verschiedene Möglichkeiten zur Implementierung der kleinsten Quadrate.[9]

Problemstellung

Das Ziel besteht darin, die Parameter einer Modellfunktion so anzupassen, dass sie am besten in einen Datensatz passen. Ein einfacher Datensatz besteht aus n Punkte (Datenpaare) , i = 1,…, n, wo ist ein unabhängige Variable und ist ein abhängige Variable deren Wert wird durch Beobachtung gefunden. Die Modellfunktion hat die Form , wo m Im Vektor werden einstellbare Parameter gehalten . Ziel ist es, die Parameterwerte für das Modell zu finden, das "am besten" zu den Daten passt. Die Anpassung eines Modells zu einem Datenpunkt wird anhand seiner gemessen Restwert, definiert als die Differenz zwischen dem beobachteten Wert der abhängigen Variablen und dem vom Modell vorhergesagten Wert:

Die Residuen werden gegen entsprechend aufgetragen Werte. Die zufälligen Schwankungen um Geben Sie an, dass ein lineares Modell angemessen ist.

Die Methode mit den kleinsten Quadraten findet die optimalen Parameterwerte, indem die minimieren Summe von quadratischen Residuen, :[10]

Ein Beispiel für ein Modell in zwei Dimensionen ist das der geraden Linie. Bezeichnung des y-Schnittpunktes als und der Hang als , die Modellfunktion ist gegeben durch . Sehen Lineare kleinste Quadrate für ein voll ausgearbeitetes Beispiel für dieses Modell.

Ein Datenpunkt kann aus mehr als einer unabhängigen Variablen bestehen. Wenn Sie beispielsweise eine Ebene an einen Satz von Höhenmessungen anpassen, ist die Ebene eine Funktion von zwei unabhängigen Variablen. x und z, sagen. Im allgemeinsten Fall kann es an jedem Datenpunkt eine oder mehrere unabhängige Variablen und eine oder mehrere abhängige Variablen geben.

Rechts befindet sich ein Restplot, das zufällige Schwankungen veranschaulicht , was angibt, dass ein lineares Modell Ist angemessen. ist eine unabhängige, zufällige Variable.[10]  

Die Residuen werden gegen die entsprechenden Aufzeichnungen aufgetragen Werte. Die parabolische Form der Schwankungen um Geben Sie an, dass ein Parabolmodell angemessen ist.

Wenn die Restpunkte eine Form hätten und nicht zufällig schwankten, wäre ein lineares Modell nicht angemessen. Zum Beispiel, wenn die Restplot eine parabolische Form hatte, wie sie rechts gesehen wird, ein parabolisches Modell wäre für die Daten angemessen. Die Residuen für ein Parabolmodell können durch berechnet werden .[10]

Einschränkungen

Diese Regressionsformulierung berücksichtigt nur Beobachtungsfehler in der abhängigen Variablen (jedoch der Alternative Insgesamt die kleinsten Quadrate Die Regression kann in beiden Variablen Fehler berücksichtigen. Es gibt zwei ziemlich unterschiedliche Kontexte mit unterschiedlichen Auswirkungen:

  • Regression for prediction. Here a model is fitted to provide a prediction rule for application in a similar situation to which the data used for fitting apply. Here the dependent variables corresponding to such future application would be subject to the same types of observation error as those in the data used for fitting. It is therefore logically consistent to use the least-squares prediction rule for such data.
  • Regression zur Anpassung einer "wahren Beziehung". Im Standard Regressionsanalyse that leads to fitting by least squares there is an implicit assumption that errors in the unabhängige Variable are zero or strictly controlled so as to be negligible. When errors in the unabhängige Variable sind nicht vernachlässigbar, models of measurement error kann verwendet werden; such methods can lead to parameter estimates, Hypothesentest und Vertrauensintervalle that take into account the presence of observation errors in the independent variables.[11] An alternative approach is to fit a model by Insgesamt die kleinsten Quadrate; this can be viewed as taking a pragmatic approach to balancing the effects of the different sources of error in formulating an objective function for use in model-fitting.

Solving the least squares problem

Das Minimum of the sum of squares is found by setting the Gradient bis Null. Since the model contains m parameters, there are m gradient equations:

und da , the gradient equations become

The gradient equations apply to all least squares problems. Each particular problem requires particular expressions for the model and its partial derivatives.[12]

Lineare kleinste Quadrate

A regression model is a linear one when the model comprises a lineare Kombination of the parameters, i.e.,

where the function ist eine Funktion von .[12]

Vermeiden and putting the independent and dependent variables in matrices und , respectively, we can compute the least squares in the following way. Beachten Sie, dass is the set of all data. [12][13]

Finding the minimum can be achieved through setting the gradient of the loss to zero and solving for

Finally setting the gradient of the loss to zero and solving for wir bekommen: [13][12]

Non-linear least squares

There is, in some cases, a geschlossene Lösung to a non-linear least squares problem – but in general there is not. In the case of no closed-form solution, numerical algorithms are used to find the value of the parameters that minimizes the objective. Most algorithms involve choosing initial values for the parameters. Then, the parameters are refined iteratively, that is, the values are obtained by successive approximation:

where a superscript k is an iteration number, and the vector of increments is called the shift vector. In some commonly used algorithms, at each iteration the model may be linearized by approximation to a first-order Taylor -Serie expansion about :

Das Jacobian J is a function of constants, the independent variable und the parameters, so it changes from one iteration to the next. The residuals are given by

To minimize the sum of squares of , the gradient equation is set to zero and solved for :

which, on rearrangement, become m simultaneous linear equations, the Normale Gleichungen:

Die normalen Gleichungen sind in Matrix -Notation als geschrieben als

Dies sind die definierenden Gleichungen der Gauß -Newton -Algorithmus.

Differences between linear and nonlinear least squares

  • Die Modellfunktion, fIn LLSQ (lineare kleinste Quadrate) ist eine lineare Kombination von Parametern der Form Das Modell kann eine gerade Linie, eine Parabel oder eine andere lineare Kombination von Funktionen darstellen. In NLLSQ (nichtlineare kleinste Quadrate) erscheinen die Parameter als Funktionen, wie z. und so weiter. Wenn die Derivate sind entweder konstant oder hängen nur von den Werten der unabhängigen Variablen ab. Das Modell ist in den Parametern linear. Ansonsten ist das Modell nichtlinear.
  • Benötigen Anfangswerte für die Parameter, um die Lösung für ein NLLSQ -Problem zu finden. LLSQ benötigt sie nicht.
  • Lösungsalgorithmen für NLLSQ erfordern häufig, dass der Jacobian ähnlich wie LLSQ berechnet werden kann. Analytische Ausdrücke für die Teilableitungen können kompliziert werden. Wenn analytische Ausdrücke unmöglich sind, entweder die partiellen Derivate zu erhalten endliche Unterschiede.
  • Nicht-Konvergenz (Versagen des Algorithmus, ein Minimum zu finden) ist ein gemeinsames Phänomen in NLLSQ.
  • LLSQ ist global konkav, so dass Nicht-Konvergenz kein Problem ist.
  • Das Lösen von NLLSQ ist normalerweise ein iterativer Prozess, der beendet werden muss, wenn ein Konvergenzkriterium erfüllt ist. LLSQ -Lösungen können mit direkten Methoden berechnet werden, obwohl Probleme mit einer großen Anzahl von Parametern typischerweise mit iterativen Methoden gelöst werden, wie z. Gauss–Seidel Methode.
  • In LLSQ ist die Lösung eindeutig, aber in NLLSQ kann es in der Summe der Quadrate mehrere Minima geben.
  • Unter der Bedingung, dass die Fehler mit den Prädiktorvariablen nicht korreliert sind, liefert LLSQ unvoreingenommene Schätzungen, aber selbst unter dieser Bedingung sind NLLSQ -Schätzungen im Allgemeinen verzerrt.

Diese Unterschiede müssen berücksichtigt werden, wenn die Lösung für ein nichtlineares Problem der kleinsten Quadrate gesucht wird.[12]

Beispiel

Betrachten Sie ein einfaches Beispiel aus der Physik. Eine Frühling sollte gehorchen Hookes Gesetz was besagt, dass die Erweiterung einer Feder y ist proportional zur Kraft, F, darauf angewendet.

stellt das Modell dar, wo F ist die unabhängige Variable. Um die abzuschätzen Kraftkonstante, kwir führen eine Reihe von einer Reihe von n Messungen mit verschiedenen Kräften zur Erzeugung einer Datenmenge, , wo yi ist eine gemessene Federverlängerung.[14] Jede experimentelle Beobachtung enthält einen Fehler. und so können wir ein empirisches Modell für unsere Beobachtungen angeben.

Es gibt viele Methoden, mit denen wir den unbekannten Parameter abschätzen könnten k. Seit der n Gleichungen in der m Variablen in unseren Daten umfassen eine überbestimmtes System mit einem unbekannt und n Gleichungen schätzen wir k Verwenden der kleinsten Quadrate. Die zu minimierende Summe der Quadrate ist

[12]

Die geringste Quadrate Schätzung der Kraftkonstante, k, wird gegeben durch

Wir gehen davon aus, dass die Anwendung von Kraft angewendet wird Ursachen die Frühling zu erweitern. Nachdem wir die Kraftkonstante durch die am wenigsten anpassenden Quadrate abgeleitet haben, prognostizieren wir die Erweiterung des Hookes's Gesetz.

Unsicherheitsquantifizierung

In einer Berechnung der kleinsten Quadrate mit Einheitengewichten oder in der linearen Regression die Varianz auf dem jTH Parameter, bezeichnet , wird normalerweise mit geschätzt mit

wo die wahre Fehlervarianz σ2 wird durch eine Schätzung ersetzt, die Reduzierte Chi-Quadrat-Statistik, basierend auf dem minimierten Wert der Restbetragsumme (Zielfunktion), S. Der Nenner, n-m, ist der statistische Freiheitsgrade; sehen Wirksame Freiheitsgrade für Verallgemeinerungen.[12] C ist der Kovarianzmatrix.

Statistical testing

Wenn die Wahrscheinlichkeitsverteilung der Parameter ist bekannt oder eine asymptotische Näherung wird gemacht, Grenzen des Selbstvertrauens kann gefunden werden. In ähnlicher Weise können statistische Tests an den Residuen durchgeführt werden, wenn die Wahrscheinlichkeitsverteilung der Residuen bekannt oder angenommen wird. Wir können die Wahrscheinlichkeitsverteilung einer linearen Kombination der abhängigen Variablen ableiten, wenn die Wahrscheinlichkeitsverteilung experimenteller Fehler bekannt oder angenommen wird. Das Abschluss ist einfach, wenn man angenommen wird, dass die Fehler einer Normalverteilung folgen, was darauf hinweist, dass die Parameterschätzungen und Residuen normalerweise auch auf die Werte der unabhängigen Variablen bedingt sind.[12]

Es ist notwendig, Annahmen über die Art der experimentellen Fehler zu treffen, um die Ergebnisse statistisch zu testen. Eine häufige Annahme ist, dass die Fehler zu einer Normalverteilung gehören. Das Zentralgrenze Theorem Unterstützt die Idee, dass dies in vielen Fällen eine gute Annäherung ist.

  • Das Gauss -Markov -Theorem. In einem linearen Modell, in dem die Fehler haben Erwartung Null bedingt auf die unabhängigen Variablen sind unkorreliert und gleich haben Abweichungen, der beste lineare unvoreingenommen Der Schätzer einer linearen Kombination der Beobachtungen ist der Schätzer mit kleinem Quadrat. "Best" bedeutet, dass die Schätzer der kleinsten Quadrate der Parameter minimale Varianz aufweisen. Die Annahme der gleichen Varianz ist gültig, wenn die Fehler zur gleichen Verteilung gehören.
  • Wenn die Fehler zu einer Normalverteilung gehören, sind die Schätzer der kleinsten Quadrate auch die Maximale Wahrscheinlichkeitsschätzer in einem linearen Modell.

Angenommen, die Fehler werden jedoch nicht normal verteilt. In diesem Fall a Zentralgrenze Theorem Impliziert jedoch häufig, dass die Parameterschätzungen ungefähr normal verteilt werden, sofern die Stichprobe einigermaßen groß ist. Aus diesem Grund ist die Verteilung des Fehlerbegriffs angesichts der wichtigen Eigenschaft, dass der Fehlermittelwert unabhängig von den unabhängigen Variablen ist, kein wichtiges Problem in der Regressionsanalyse. Insbesondere ist es in der Regel nicht wichtig, ob der Fehlerbegriff einer Normalverteilung folgt.

Gewichtete kleinste Quadrate

"Fanning Out" -Effekt der Heteroskedastizität

Ein Sonderfall von Verallgemeinerte kleinste Quadrate genannt gewichtete kleinste Quadrate tritt auf, wenn alle außer-diagonalen Einträge von Ω (Die Korrelationsmatrix der Residuen) sind null; das Abweichungen der Beobachtungen (entlang der Kovarianzmatrix diagonale) können immer noch ungleich sein (Heteroskedastizität). In einfacher Begriffen, Heteroskedastizität ist, wenn die Varianz von hängt vom Wert von ab Dies führt dazu, dass das verbleibende Handlung einen "Fanning Out" -Effekt auf größere Erzeugung erzeugt Werte, wie im restlichen Diagramm nach rechts zu sehen ist. Auf der anderen Seite, Homoskedastizität geht davon aus, dass die Varianz von und ist gleich.[10]  

Relationship to principal components

Der Erste Hauptbestandteil Über den Mittelwert einer Reihe von Punkten kann durch diese Linie dargestellt werden, die den Datenpunkten am besten nähert (gemessen durch quadratische Entfernung des nächsten Ansatzes, d. H. Senkrecht zur Linie). Im Gegensatz dazu versucht lineare kleinste Quadrate, den Abstand in der zu minimieren Nur Richtung. Obwohl die beiden eine ähnliche Fehlermetrik verwenden, ist lineare kleinste Quadrate eine Methode, die eine Dimension der Daten bevorzugt behandelt, während PCA alle Dimensionen gleich behandelt.

Relationship to Measure Theory

Bemerkenswerter Statistiker Sara van de Geer Gebraucht Empirische Prozesstheorie und die Vapnik-chervonenkis-Dimension Um ein Schätzer der kleinsten Quadrate zu beweisen, kann als interpretiert werden als messen auf den Raum von quadratisch integrierbare Funktionen.[15]

Regulierung

Tikhonov -Regularisierung

In einigen Kontexten a reguliert Die Version der Lösung mit der kleinsten Quadrate kann vorzuziehen sein. Tikhonov -Regularisierung (oder Ridge Regression) fügt eine Einschränkung hinzu, die , das L2-Norm des Parametervektors ist nicht größer als ein gegebener Wert. Äquivalent,[zweifelhaft ] Es kann eine nicht eingeschränkte Minimierung der Strafe der kleinsten Quadrate mit lösen hinzugefügt, wo ist eine Konstante (das ist das Lagrange Form des eingeschränkten Problems). In einem Bayesian Kontext entspricht dies der Platzierung eines normal verteilten Null-Mittelwerts frühere auf dem Parametervektor.

Lasso method

Eine Alternative reguliert Version von kleinsten Quadräten ist Lasso (am wenigsten absoluter Schrumpfungs- und Auswahlbetreiber), der die Einschränkung verwendet, die , das L1-Norm des Parametervektors ist nicht größer als ein gegebener Wert.[16][17][18] (Wie oben ist dies gleichwertig[zweifelhaft ] zu einer nicht eingeschränkten Minimierung der Strafe der kleinsten Quadrate mit hinzugefügt.) In a Bayesian Kontext ist dies gleichwertig der Platzierung eines Null-Mittelwerts Laplace vorherige Verteilung auf dem Parametervektor.[19] Das Optimierungsproblem kann mit Verwendung gelöst werden Quadratische Programmierung oder allgemeiner konvexe Optimierung Methoden sowie bestimmte Algorithmen wie die Die Regression des geringsten Winkels Algorithmus.

Einer der Hauptunterschiede zwischen Lasso und Ridge-Regression besteht darin, dass bei der Erhöhung der Strafe bei der Regression der Rückenregelung alle Parameter reduziert werden, während sie immer noch ungleich Null bleiben, während in lasso die Erhöhung der Strafe immer mehr von den Parametern verursacht wird zu Null gefahren. Dies ist ein Vorteil von Lasso gegenüber der Rückenregression, da die Antriebsparameter auf Null die Merkmale aus der Regression abweichen. Daher wählt Lasso automatisch relevantere Funktionen und verworfen die anderen, während die Ridge -Regression keine Funktionen vollständig verwaltet. Etwas Merkmalsauswahl Techniken werden basierend auf dem Lasso einschließlich Bolasso entwickelt, das Proben startet,[20] und Fealect, der die Regressionskoeffizienten analysiert, die unterschiedlichen Werten von entsprechen um alle Funktionen zu erzielen.[21]

Das l1-reguläre Formulierung ist in einigen Kontexten nützlich, da ihre Tendenz, Lösungen zu bevorzugen, bei denen mehr Parameter Null sind, was Lösungen ergibt, die von weniger Variablen abhängen.[16] Aus diesem Grund sind das Lasso und seine Varianten für das Gebiet von grundlegend Komprimierte Erfindung. Eine Erweiterung dieses Ansatzes ist elastische Netto -Regularisierung.

Siehe auch

Verweise

  1. ^ Charnes, A.; Frome, E. L.; Yu, P. L. (1976). "Die Äquivalenz der generalisierten kleinsten Quadrate und der maximalen Wahrscheinlichkeitsschätzungen in der exponentiellen Familie". Zeitschrift der American Statistical Association. 71 (353): 169–171. doi:10.1080/01621459.1976.10481508.
  2. ^ Mansfield Merriman, "Eine Liste von Schriften in Bezug auf die Methode der kleinsten Quadrate"
  3. ^ Bretscher, Otto (1995). Lineare Algebra mit Anwendungen (3. Aufl.). Upper Saddle River, NJ: Prentice Hall.
  4. ^ Stigler, Stephen M. (1981). "Gauß und die Erfindung der kleinsten Quadrate". Ann. Stat. 9 (3): 465–474. doi:10.1214/aoS/1176345451.
  5. ^ Britannica, "Mindestquadrate" -Methode "
  6. ^ Studien zur Vorgeschichte von Wahrscheinlichkeit und Statistik. XXIX: Die Entdeckung der Methode der kleinsten Quadrate R. L. Plackett
  7. ^ a b Stigler, Stephen M. (1986). Die Geschichte der Statistik: Die Messung der Unsicherheit vor 1900. Cambridge, MA: Belknap Press von Harvard University Press. ISBN 978-0-674-40340-6.
  8. ^ Legendre, Adrien-Marie (1805), Nouvelles Méthodes Posen [Neue Methoden zur Bestimmung der Umlaufbahnen von Kometen] (in Französisch), Paris: F. Didot, HDL:2027/NYP.33433069112559
  9. ^ Aldrich, J. (1998). "Mindestquadler machen: Perspektiven von Gauß und Yule". Internationale statistische Überprüfung. 66 (1): 61–81. doi:10.1111/j.1751-5823.1998.tb00406.x. S2CID 121471194.
  10. ^ a b c d Eine moderne Einführung in Wahrscheinlichkeit und Statistik: Verstehen Sie warum und wie. Dekking, Michel, 1946-. London: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588.{{}}: CS1 Wartung: Andere (Link)
  11. ^ Eine gute Einführung in Fehler in Variablen finden Sie unter Fuller, W. A. (1987). Messfehlermodelle. John Wiley & Sons. ISBN 978-0-471-86187-4.
  12. ^ a b c d e f g h Williams, Jeffrey H. (Jeffrey Huw), 1956- (November 2016). Quantifizierung der Messung: die Tyrannei der Zahlen. Morgan & Claypool Publishers ,, Institute of Physics (Großbritannien). San Rafael [Kalifornien] (40 Oak Drive, San Rafael, CA, 94903, USA). ISBN 978-1-68174-433-9. OCLC 962422324.{{}}: CS1 Wartung: Standort (Link) CS1 Wartung: Mehrere Namen: Autorenliste (Link)
  13. ^ a b Rencher, Alvin C.; Christensen, William F. (2012-08-15). Methoden der multivariaten Analyse. John Wiley & Sons. p. 155. ISBN 978-1-118-39167-9.
  14. ^ Gere, James M. (2013). Werkstoffmechanik. Goodno, Barry J. (8. Aufl.). Stamford, Conn.: Cengage Learning. ISBN 978-1-111-57773-5. OCLC 741541348.
  15. ^ Van de Geer, Sara (Juni 1987). "Ein neuer Ansatz zur Schätzung der kleinsten Quadrate mit Anwendungen". Annals of Statistics. 15 (2): 587–602. doi:10.1214/aoS/1176350362.
  16. ^ a b Tibshirani, R. (1996). "Regressionsschrumpfung und Auswahl über das Lasso". Zeitschrift der Royal Statistical Society, Serie B. 58 (1): 267–288. JStor 2346178.
  17. ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009). Die Elemente des statistischen Lernens (zweite Ausgabe). Springer-Verlag. ISBN 978-0-387-84858-7. Archiviert von das Original am 2009-11-10.
  18. ^ Brühlmann, Peter; Van de Geer, Sara (2011). Statistiken für hochdimensionale Daten: Methoden, Theorie und Anwendungen. Springer. ISBN 9783642201929.
  19. ^ Park, Trevor; Casella, George (2008). "Das Bayes'sche Lasso". Zeitschrift der American Statistical Association. 103 (482): 681–686. doi:10.1198/016214508000000337. S2CID 11797924.
  20. ^ Bach, Francis R (2008). "Bolasso: Modellkonsistente Lasso -Schätzung durch die Bootstrap". Verfahren der 25. Internationalen Konferenz über maschinelles Lernen. ICML '08: 33–40. Arxiv:0804.1302. Bibcode:2008ArXIV0804.1302B. doi:10.1145/1390156.1390161. ISBN 9781605582054. S2CID 609778.
  21. ^ Zare, Habil (2013). "Bewertung der Relevanz von Merkmalen, die auf einer kombinatorischen Analyse von lasso mit Anwendung auf Lymphomdiagnose basieren". BMC -Genomik. 14: S14. doi:10.1186/1471-2164-14-s1-s14. PMC 3549810. PMID 23369194.

Weitere Lektüre

Externe Links

  • Medien im Zusammenhang mit den geringsten Quadraten bei Wikimedia Commons