Maximale Entropiewahrscheinlichkeitsverteilung
Im Statistiken und Informationstheorie, a Maximale Entropiewahrscheinlichkeitsverteilung hat Entropie Das ist mindestens so groß wie die aller anderen Mitglieder einer bestimmten Klasse von Wahrscheinlichkeitsverteilungen. Laut dem Prinzip der maximalen Entropie, Wenn nichts über eine Verteilung bekannt ist, außer dass es zu einer bestimmten Klasse gehört (normalerweise definiert in Bezug auf bestimmte Eigenschaften oder Maßnahmen), sollte die Verteilung mit der größten Entropie als am wenigsten informativer Ausfall ausgewählt werden. Die Motivation ist zweifach: Erstens minimiert die Maximierung der Entropie die Menge an vorherige Information in die Verteilung eingebaut; Zweitens neigen viele physikalische Systeme dazu, sich im Laufe der Zeit zu maximalen Entropiekonfigurationen zu bewegen.
Definition von Entropie und Differentialentropie
Wenn ist ein diskrete Zufallsvariable mit Verteilung gegeben durch
dann die Entropie von ist definiert als
Wenn ist ein kontinuierliche Zufallsvariable mit Wahrscheinlichkeitsdichte , dann ist die Differentialentropie von ist definiert als[1][2][3]
Die Quantität wird als Null verstanden, wann immer .
Dies ist ein besonderer Fall von allgemeineren Formen, die in den Artikeln beschrieben werden Entropie (Informationstheorie), Prinzip der maximalen Entropieund differentielle Entropie. In Verbindung mit maximalen Entropieverteilungen ist dies das einzige, das benötigt wird, da Maximierung erforderlich ist wird auch die allgemeineren Formen maximieren.
Die Basis der Logarithmus ist nicht wichtig, solange das gleiche konsequent verwendet wird: Die Änderung der Basis führt lediglich zu einer Neusautomierung der Entropie. Informationstheoretiker könnten es vorziehen, Base 2 zu verwenden, um die Entropie in auszudrücken Bits; Mathematiker und Physiker bevorzugen oft das Natürlicher Logarithmus, was zu einer Einheit von führt Nats für die Entropie.
Die Wahl der Maßnahme ist jedoch entscheidend für die Bestimmung der Entropie und der resultierenden maximalen Entropieverteilung, obwohl der übliche Rückgriff auf die Lebesgue -Maßnahme wird oft als "natürlich" verteidigt.
Verteilungen mit gemessenen Konstanten
Viele statistische Verteilungen von anwendbarem Interesse sind diejenigen, für die die Momente oder andere messbare Größen werden als Konstanten beschränkt. Der folgende Satz von Ludwig Boltzmann gibt die Form der Wahrscheinlichkeitsdichte unter diesen Einschränkungen an.
Kontinuierlicher Fall
Vermuten S ist ein geschlossene Teilmenge des reale Nummern R und wir entscheiden uns für die Angabe n messbare Funktionen f1, ...,fn und n Zahlen a1, ...,an. Wir betrachten die Klasse C von allen realwertigen Zufallsvariablen, die auf unterstützt werden S (d. h. deren Dichtefunktion außerhalb von Null ist S) und die das befriedigen n Momentbedingungen:
Wenn es ein Mitglied in gibt C deren Dichtefunktion ist überall positiv in Sund wenn es eine maximale Entropieverteilung für existiert Cdann seine Wahrscheinlichkeitsdichte p(x) hat die folgende Form:
wo wir das annehmen . Die Konstante und die n Lagrange -Multiplikatoren Lösen Sie das eingeschränkte Optimierungsproblem mit (Dieser Zustand sorgt dafür integriert in die Einheit):[4]
Verwendung der Karush -Kuhn -Tucker -BedingungenEs kann gezeigt werden, dass das Optimierungsproblem eine eindeutige Lösung hat, da die objektive Funktion in der Optimierung konkav ist .
Beachten Sie, dass, wenn die Momentbedingungen Gleichheiten sind (anstelle von Ungleichheiten), das heißt,
dann die Einschränkungsbedingung wird fallen gelassen und die Optimierung über die Lagrange -Multiplikatoren nicht eingeschränkt.
Diskreter Fall
Vermuten ist eine (endliche oder unendliche) diskrete Untergruppe der Realität und wir entscheiden uns dafür, festzulegen Funktionen f1, ...,fn und n Zahlen a1, ...,an. Wir betrachten die Klasse C aller diskreten Zufallsvariablen X die unterstützt werden S und die die befriedigen die n Momentbedingungen
Wenn es ein Mitglied von gibt C was allen Mitgliedern eine positive Wahrscheinlichkeit zuweist S und wenn es eine maximale Entropieverteilung für gibt CDann hat diese Verteilung die folgende Form:
wo wir das annehmen und die Konstanten Lösen Sie das eingeschränkte Optimierungsproblem mit :[5]
Wenn die Momentbedingungen Gleichheiten sind (anstelle von Ungleichheiten), dann die Einschränkungsbedingung ist nicht in der Optimierung vorhanden.
Beweis bei Gleichstellungsbeschränkungen
Bei Gleichstellungsbeschränkungen wird dieser Satz mit dem bewiesen Variationskalkül und Lagrange -Multiplikatoren. Die Einschränkungen können geschrieben werden
Wir betrachten das funktional
wo und sind die Lagrange -Multiplikatoren. Die Nullbeschränkung sorgt dafür Zweites Axiom der Wahrscheinlichkeit. Die anderen Einschränkungen sind, dass die Messungen der Funktion konstants auf Ordnung sind . Die Entropie erreicht ein Extremum, wenn die Funktionsableitung ist gleich Null:
Es ist eine Übung für den Leser, dass dieses Extremum in der Tat maximal ist. Daher muss die maximale Entropiewahrscheinlichkeitsverteilung in diesem Fall von der Form sein (())
Der Beweis der diskreten Version ist im Wesentlichen gleich.
Einzigartigkeit des Maximums
Vermuten , sind Verteilungen, die die Erwartungsabstruktionen erfüllen. Vermeiden und unter Berücksichtigung der Verteilung Es ist klar, dass diese Verteilung die Erwartungskonstruktionen erfüllt und außerdem die Unterstützung hat . Aus grundlegenden Fakten über Entropie enthält es das . Grenzen nehmen und ergibt sich jeweils .
Daraus folgt, dass eine Verteilung, die die Erwartungskonstruktionen erfüllt und die Entropie maximiert, notwendigerweise volle Unterstützung haben muss- ich. e. Die Verteilung ist fast überall positiv. Daraus folgt, dass die Maximierungsverteilung ein interner Punkt im Raum der Verteilungen sein muss, die die Erwartungskonstruktionen erfüllen, dh es muss ein lokales Extrem sein. Daher reicht es aus, zu zeigen, dass das lokale Extrem einzigartig ist, um zu zeigen, dass die Entropie-Maximierverteilung einzigartig ist (und dies zeigt auch, dass das lokale Extrem das globale Maximum ist).
Vermuten sind lokale Extreme. Umformulieren die obigen Berechnungen, die durch Parameter gekennzeichnet sind über und ähnlich für , wo . Wir bemerken nun eine Reihe von Identitäten: Durch die Zufriedenheit der Erwartungsabbau und die Verwendung von Gradienten/Richtungsderivaten hat man und ähnlich für . Vermeiden Man erhält:
wo für einige . Berechnung weiter hat man hat
wo ähnelt der obigen Verteilung, nur parametrisiert durch . Assuming dass keine nicht triviale lineare Kombination der Observablen fast überall (a.e.) konstant ist (was z.B. gilt, wenn die Observablen unabhängig sind und nicht A.E. konstant) das hält das hat Varianz ungleich Null, es sei denn . Nach der obigen Gleichung ist daher klar, dass letzteres der Fall sein muss. Somit Also die Parameter, die die lokale Extrema charakterisieren sind identisch, was bedeutet, dass die Verteilungen selbst identisch sind. Somit ist das lokale Extrem einzigartig und nach der obigen Diskussion ist das Maximum einzigartig - ein lokales Extrem hat tatsächlich existiert.
Vorbehalte
Beachten Sie, dass nicht alle Verteilungsklassen eine maximale Entropieverteilung enthalten. Es ist möglich, dass eine Klasse Verteilungen von willkürlich großer Entropie enthält (z. B. die Klasse aller kontinuierlichen Verteilungen auf R mit Mittelwert 0, aber willkürlicher Standardabweichung) oder dass die Entropien oben begrenzt sind, es gibt jedoch keine Verteilung, die die maximale Entropie erreicht.[a] Es ist auch möglich, dass die erwarteten Wertbeschränkungen für die Klasse C erzwingen die Wahrscheinlichkeitsverteilung in bestimmten Untergruppen von Null Null S. In diesem Fall gilt unser Satz nicht, aber man kann dies durch Schrumpfen des Sets bearbeiten S.
Beispiele
Jede Wahrscheinlichkeitsverteilung ist trivial eine maximale Wahrscheinlichkeitsverteilung der Entropie unter der Einschränkung, dass die Verteilung eine eigene Entropie hat. Um dies zu sehen, schreiben Sie die Dichte als um und vergleichen Sie mit dem Ausdruck des oben genannten Satzes. Durch Auswählen die messbare Funktion sein und
die Konstante sein, ist die maximale Wahrscheinlichkeitsverteilung der Entropie unter der Einschränkung
- .
Nichttriviale Beispiele sind Verteilungen, die mehreren Einschränkungen unterliegen, die sich von der Zuordnung der Entropie unterscheiden. Diese werden häufig durch Beginn des gleichen Verfahrens festgestellt und das finden kann in Teile getrennt werden.
Eine Tabelle mit Beispielen für maximale Entropieverteilungen ist in Lisman (1972) angegeben [6] und Park & Bera (2009)[7]
Einheitliche und stückweise einheitliche Verteilungen
Das einheitliche Verteilung in der Pause [a,b] ist die maximale Entropieverteilung zwischen allen kontinuierlichen Verteilungen, die im Intervall unterstützt werden [a, b], und damit die Wahrscheinlichkeitsdichte ist 0 außerhalb des Intervalls. Diese einheitliche Dichte kann mit Laplace's zusammenhängen Prinzip der Gleichgültigkeit, manchmal als Prinzip der unzureichenden Vernunft bezeichnet. Allgemeiner, wenn wir eine Unterteilung erhalten a=a0 < a1 < ... < ak = b des Intervalls [a,b] und Wahrscheinlichkeiten p1, ...,pk das ergibt einen, dann können wir die Klasse aller kontinuierlichen Verteilungen so betrachten, dass
Die Dichte der maximalen Entropieverteilung für diese Klasse ist in jedem der Intervalle konstant [aj-1,aj). Die einheitliche Verteilung am endlichen Satz {x1, ...,xn} (was eine Wahrscheinlichkeit von 1/ zuweistn Für jeden dieser Werte) ist die maximale Entropieverteilung zwischen allen in diesem Satz unterstützten diskreten Verteilungen.
Positiver und spezifizierter Mittelwert: die Exponentialverteilung
Das Exponentialverteilung, für die die Dichtefunktion ist
ist die maximale Entropieverteilung zwischen allen in [0, ∞) unterstützten kontinuierlichen Verteilungen, die einen bestimmten Mittelwert von 1/λ haben.
Angegebener Mittelwert und Varianz: Die Normalverteilung
Das Normalverteilung N (μ, σ2), für die die Dichtefunktion ist
hat maximale Entropie unter allen real-Valierte Verteilungen, die auf (−∞, ∞) mit einem angegebenen gestützt werden Varianz σ2 (ein bestimmtes Moment). Daher führt die Annahme der Normalität die minimale vorherige strukturelle Einschränkung über diesen Moment hinaus. (Siehe Differentialentropie Artikel für eine Ableitung.)
Bei Verteilungen, die auf [0, ∞) gestützt werden, hängt die maximale Entropieverteilung von den Beziehungen zwischen den ersten und zweiten Momenten ab. In bestimmten Fällen kann es die Exponentialverteilung oder eine andere Verteilung sein oder nicht definierbar sein.[8]
Diskrete Verteilungen mit dem angegebenen Mittelwert
Unter allen diskreten Verteilungen, die am Set unterstützt werden {x1, ...,xn} Mit einem angegebenen Mittelwert μ hat die maximale Entropieverteilung die folgende Form:
wo die positiven Konstanten C und r kann durch die Anforderungen bestimmt werden, dass die Summe aller Wahrscheinlichkeiten 1 sein muss und der erwartete Wert μ sein muss.
Zum Beispiel, wenn eine große Zahl N von Würfel werden geworfen, und Ihnen wird gesagt, dass die Summe aller gezeigten Zahlen ist S. Was wäre eine vernünftige Annahme für die Anzahl der Würfel, die 1, 2, ..., 6 angemessen sind? Dies ist eine Instanz der oben genannten Situation mit {x1, ...,x6} = {1, ..., 6} und μ = S/N.
Schließlich unter allen diskreten Verteilungen, die am unendlichen Satz unterstützt werden Mit mittlerer μ hat die maximale Entropieverteilung die Form:
Wo wieder die Konstanten C und r wurden durch die Anforderungen bestimmt, dass die Summe aller Wahrscheinlichkeiten 1 sein muss und der erwartete Wert μ sein muss. Zum Beispiel für den Fall, dass xk = k, das gibt
so dass die jeweilige maximale Entropieverteilung die ist Geometrische Verteilung.
Kreislauf -Zufallsvariablen
Für eine kontinuierliche Zufallsvariable über den Einheitskreis verteilt, die Von Mises Verteilung maximiert die Entropie, wenn die realen und imaginären Teile der ersten zirkulärer Moment sind angegeben[9] oder gleichwertig die Rundmittelmittel und Kreisvarianz sind angegeben.
Wenn der Mittelwert und die Varianz der Winkel Modulo sind angegeben, die Verpackte Normalverteilung maximiert die Entropie.[9]
Maximizer für den angegebenen Mittelwert, Varianz und Verschleierung
Es gibt eine Obergrenze für die Entropie kontinuierlicher Zufallsvariablen an mit einem bestimmten Mittelwert, einer Varianz und einem Schräg. Es gibt jedoch Keine Verteilung, die diese Obergrenze erreicht, Weil ist unbegrenzt wann (Siehe Cover & Thomas (2006: Kapitel 12)).
Die maximale Entropie ist jedoch ε-Abreitbar: Die Entropie einer Verteilung kann willkürlich nahe an der Obergrenze liegen. Beginnen Sie mit einer Normalverteilung des angegebenen Mittelwerts und der angegebenen Varianz. Um einen positiven Versatz vorzustellen, stören Sie die Normalverteilung um einen kleinen Betrag, der zu einem großen Wert viele σ größer als der Mittelwert. Die Schiefe, die proportional zum dritten Moment ist, wird mehr als die Momente niedrigerer Ordnung betroffen sein.
Dies ist ein Sonderfall des allgemeinen Fall x wird unbegrenzt sein . Zum Beispiel, wird ebenfalls unbegrenzt sein , aber wenn die Unterstützung auf ein begrenztes oder halbgebundenes Intervall beschränkt ist, kann die obere Entropiegebundene erreicht werden (z. B. wenn x liegt in dem Intervall [0, ∞] und λ <0, das Exponentialverteilung wird resultieren).
Maximizer für das bestimmte mittlere und Abweichungsrisikomaß
Jede Verteilung mit Protokollkonkav Die Dichte ist eine maximale Entropieverteilung mit dem angegebenen Mittelwert μ und Abweichungsrisikomaß D.[10]
Insbesondere die maximale Entropieverteilung mit dem angegebenen Mittelwert und Abweichung ist:
- Das Normalverteilung , wenn ist der Standardabweichung;
- Das Laplace -Verteilung, wenn ist der durchschnittliche absolute Abweichung;[6]
- Die Verteilung mit Dichte der Form wenn ist der Standard niedrigere Halbbewertung, wo , und ABC sind Konstanten.[10]
Andere Beispiele
In der folgenden Tabelle maximiert jede aufgelistete Verteilung die Entropie für einen bestimmten Satz von funktionalen Einschränkungen, die in der dritten Spalte aufgeführt sind, und die Einschränkung, dass X in die Unterstützung der Wahrscheinlichkeitsdichte einbezogen wird, die in der vierten Spalte aufgeführt ist.[6][7] Mehrere Beispiele (Bernoulli, Geometrische, exponentielle, Laplace, Pareto) sind trivial wahr, da ihre damit verbundenen Einschränkungen der Zuordnung ihrer Entropie entsprechen. Sie sind sowieso enthalten, weil ihre Einschränkung mit einer gemeinsamen oder leicht gemessenen Menge zusammenhängt. Als Referenz, ist der Gamma -Funktion, ist der Digamma -Funktion, ist der Beta -Funktion, und γE ist der Euler-Mascheroni-Konstante.
Verteilungsname | Wahrscheinlichkeitsdichte/Massenfunktion | Maximale Entropiebeschränkung | Die Unterstützung |
---|---|---|---|
Einheitlich (diskret) | Keiner | ||
Einheitlich (kontinuierlich) | Keiner | ||
Bernoulli | |||
Geometrisch | |||
Exponentiell | |||
Laplace | |||
Asymmetrischer Laplace | |||
Pareto | |||
Normal | |||
Normal abgeschnitten | (Siehe Artikel) | ||
von Mises | |||
Rayleigh | |||
Beta | zum | | |
Cauchy | |||
Chi | |||
Chi-Quadrat | |||
Erlang | |||
Gamma | |||
Lognormal | |||
Maxwell -Boltzmann | |||
Weibull | |||
Multivariate normal | | ||
Binomial | [11] | ||
Poisson | [11] | ||
Logistisch |
Das maximale Entropieprinzip kann verwendet werden, um die Entropie statistischer Gemische zu begrenzen.[12]
Siehe auch
- Exponentielle Familie
- Gibbs messen
- Partitionsfunktion (Mathematik)
- Maximaler Entropie -Zufalls Walk - Maximierung der Entropierate für eine Grafik
Anmerkungen
- ^ Zum Beispiel die Klasse aller kontinuierlichen Verteilungen X an R mit E (X) = 0 und E (X2) = E (X3) = 1 (Siehe Cover, Ch 12).
Zitate
- ^ Williams, D. (2001), Die Chancen wiegen, Cambridge University Press, ISBN0-521-00618-X (Seiten 197-199).
- ^ Bernardo, J. M., Smith, A.F.M. (2000), Bayes'sche Theorie, Wiley. ISBN0-471-49464-X (Seiten 209, 366)
- ^ O'Hagan, A. (1994), Kendalls fortgeschrittene Theorie der Statistik, Band 2B, Bayes'sche Inferenz, Edward Arnold. ISBN0-340-52922-9 (Abschnitt 5.40)
- ^ Botev, Z. I.; Kroese, D. P. (2011). "Die verallgemeinerte Kreuzentropy -Methode mit Anwendungen zur Wahrscheinlichkeitsdichteschätzung" (PDF). Methodik und Berechnung der angewandten Wahrscheinlichkeit. 13 (1): 1–27. doi:10.1007/s11009-009-9133-7. S2CID 18155189.
- ^ Botev, Z. I.; Kroese, D. P. (2008). "Nicht-asymptotische Bandbreitenauswahl für die Dichteschätzung diskreter Daten". Methodik und Berechnung der angewandten Wahrscheinlichkeit. 10 (3): 435. doi:10.1007/s11009-007-9057-Z. S2CID 122047337.
- ^ a b c Lisman, J. H. C.; Van Zuylen, M. C. A. (1972). "Hinweis zur Erzeugung der wahrscheinlichsten Frequenzverteilungen". Statistica Neerlandica. 26 (1): 19–23. doi:10.1111/j.1467-9574.1972.tb00152.x.
- ^ a b Park, gesungen; Bera, Anil K. (2009). "Maximale Entropie Autoregressive bedingte Heteroskedastizitätsmodell" (PDF). Journal of Econometrics. 150 (2): 219–230. Citeseerx 10.1.1.511.9750. doi:10.1016/j.jeconom.2008.12.014. Archiviert von das Original (PDF) am 2016-03-07. Abgerufen 2011-06-02.
- ^ Dowson, D.; WRAGG, A. (September 1973). "Maximal-Entropie-Verteilungen, die erste und zweite Momente verschrieben". IEEE -Transaktionen zur Informationstheorie (Korrespondenz). 19 (5): 689–693. doi:10.1109/tit.1973.1055060. ISSN 0018-9448.
- ^ a b Jammalamadaka, S. Rao; Sengupta, A. (2001). Themen in kreisförmigen Statistiken. New Jersey: World Scientific. ISBN 978-981-02-3778-3. Abgerufen 2011-05-15.
- ^ a b B. Grechuk, A. Molyboha, M. Zabarankin (2009) Maximaler Entropieprinzip mit allgemeinen Abweichungsmaßnahmen, Mathematics of Operations Research 34 (2), 445-467, 2009.
- ^ a b Harremös, Peter (2001), "Binomial- und Poisson -Verteilungen als maximale Entropieverteilungen", IEEE -Transaktionen zur Informationstheorie, 47 (5): 2039–2041, doi:10.1109/18.930936.
- ^ Frank Nielsen; Richard Nock (2017). "Maxent Obergrenzen für die differentielle Entropie univariater kontinuierliche Verteilungen". IEEE -Signalverarbeitungsbuchstaben. IEEE. 24 (4): 402-406. doi:10.1109/lsp.2017.2666792.
Verweise
- Cover, T. M.; Thomas, J. A. (2006). "Kapitel 12, maximale Entropie" (PDF). Elemente der Informationstheorie (2 ed.). Wiley. ISBN 978-0471241959.
- F. Nielsen, R. Nock (2017), Maxent Obergrenzen für die differentielle Entropie der univariaten kontinuierlichen Verteilungen, IEEE-Signalverarbeitungsbuchstaben, 24 (4), 402-406
- I. J. Taneja (2001), Verallgemeinerte Informationsmaßnahmen und ihre Anwendungen. Kapitel 1
- Nader Ebrahimi, Ehsan S. Soofi, Refik Soyer (2008), "Multivariate maximale Entropieidentifikation, Transformation und Abhängigkeit", Journal of Multivariate Analysis 99: 1217–1231, doi:10.1016/j.jmva.2007.08.004