Waarom de steekproefvariant wordt gedeeld door n-1

Als u ditartikel doorleest, accepteer ik dat u de vergelijking van het testverschilheeft ervaren en zich realiseert waar het voor staat. In ieder geval blijft heteen puzzel waarom de noemer (n-1) is, niet n. Hier is de reden.

Hoofdstukvoor hoofdstuk gids

Instellingen

1. 2.Niveau van de opportuniteit

2. 2.Wellspring of Predispositie

3. 3.Rectificatie van Bessel

In eersteinstantie gedistribueerd op edenau.github.io.

Wording

Populace:een set die ALLE individuen van een bijeenkomst bevat

Test: eenset die enkele individuen van een populatie bevat (in feite een multi-subsetvan een populatie)

Autonomeen niet te onderscheiden (i.e.g.) arbitraire factoren:

Eenveronderstelling dat alle voorbeelden (a) algemeen vrij zijn, en (b) eenvergelijkbare waarschijnlijkheid van verspreiding hebben.

Focalebreekpunt hypothese:

Hetonderzoek naar de overdracht van i.i.d. onregelmatige factoren neigt naar eentypische (Gaussische) toe-eigening wanneer de voorbeeldgrootte groot genoeg is.

Verwachtewaarde:

Sinds eenhele tijd geleden loopt de normale schatting van de ontslagen van eensoortgelijke proef.

Onbevooroordeeldeschatter:

Deonbevooroordeelde schattingswaarde waarop wordt vertrouwd is gelijk aan dewerkelijke schatting van de te beoordelen parameter. De overdrachten vanonbevooroordeelde schatters zijn uiteindelijk gericht op de juiste waarde.

Instellingen

Gezien een grote Gaussische populatieverdeling met een onbekend populatiegemiddelde μ en populatievariantie σ², trekken we n i.i.d. steekproeven uit de populatie, zodanig dat voor elke steekproef x_i uit een set X,

Waarom de steekproefvariant wordt gedeeld door n-1 — DATA SCIENCE (4)

Terwijlde normale schatting van x_i μ is, is de normale schatting van x_i² meer danμ². Dit is het resultaat van het niet-rechtstreeks in kaart brengen van devierkante capaciteit, waarbij de vergroting van grotere getallen groter is dandie van kleinere getallen. Bijvoorbeeld, set (1,2,3,4,5) heeft een gemiddelde 3en verschil 2. Door de kwadratuur van elke component krijgen we (1,4,9,16,25)met een gemiddelde 11=3²+2. Deze eigenschap hebben we in een later stadiumnodig.

Schatters

Aangezienwe geen flauw idee hebben van de echte volkseigenschappen, kunnen we ons bestdoen om schatters van die eigenschappen uit de voorbeeldset te karakteriserenmet behulp van een vergelijkende ontwikkeling.

Wat dacht je ervan om een kapje (^) op μ en σ² te zetten en ze ‘pseudo-‘ gemiddelde en fluctuatie te noemen, en we karakteriseren het op een bijbehorende manier:

Waarom de steekproefvariant wordt gedeeld door n-1 — DATA SCIENCE (5)

Dedefinities zijn enigszins discretionair. U kunt ze in principe op een veelfijnere manier karakteriseren en testen, maar we moeten de meest directeproberen. We karakteriseren pseudo-middel ^μ als de normale van allevoorbeelden X. Het voelt alsof dit zo goed is als verwacht kan worden. Eenverstandige waarschuwing voor het pseudo-middel dat wordt voorgesteld als eenonpartijdige schattebout voor de bevolking:

Eenvoudig.Al met al is het echte voorbeeldverschil gebaseerd op het bevolkingsgemiddeldeμ, dat duister is. Wij vervangen het in deze zin door pseudo-middel ^μ, zoalshierboven is verschenen, in die mate dat pseudo-verandering onderhevig is aanpseudo-middel.

1. 2.Niveau van de opportuniteit

Stel datwe een eerlijke dobbelsteen hebben, maar niemand beseft dat het redelijk is,met uitzondering van Jason. Hij realiseert zich dat het bevolkingsgemiddelde μ(3,5 pts). Arme William vraagt om de feitelijke eigendom te krijgen, maar tochwil Jason niet verhuizen. William moet schattingen maken door te testen,bijvoorbeeld door de dobbelstenen even vaak te gooien als hij kan. Hij krijgtdeze show meerdere keren op de weg, en hij kreeg 1 en 3 pts in de eerste tweevoorrondes.

Gezien deechte bevolking gemiddelde μ (3,5 pts), zou je zelfs nu geen idee hebben wat dederde rol was. Niettemin, op de uit kans dat je je realiseerde dat hetvoorbeeld gemiddelde ^μ 3,33 pts was, zou je er zeker van zijn dat de derdeworp 6 was, omdat (1+3+6)/3=3,33 – snelle wiskunde.

Uiteindelijkbetekent het voorbeeld dat het precies één stukje data uit de voorbeeldsetbelichaamt, terwijl het populaat dat niet doet. Op deze manier geeft hetvoorbeeldmiddel één niveau minder kans aan de voorbeeldset.

Dit is dereden dat ons meestal werd verteld, maar dit is zeker geen hartverwarmend envolledig bewijs waarom we de noemer moeten vervangen door (n-1).

2. 2.Bron van vooringenomenheid

Met behulp van een soortgelijk dobbelsteenmodel. Jason kent het echte gemiddelde μ, langs deze lijnen kan hij met behulp van het echte populatiegemiddelde (3,5 pts) de fluctuatie vaststellen en krijgt hij een echte verandering van 4,25 pts². William moet pseudo-middel ^μ (3,33 pts voor deze situatie) nemen bij het bepalen van de pseudo-fluctuatie (een veranderingsschatter die we hebben gekarakteriseerd), die 4,22 pts² is.

Waarom de steekproefvariant wordt gedeeld door n-1 — DATA SCIENCE (6)

Dewaarheid wordt verteld, pseudo-verandering belichaamt consequent het echtevoorbeeldverschil (behalve als het testgemiddelde overeenkomt met hetpopulatiegemiddelde), want pseudo is de minimalisator van hetpseudo-fluctuatiewerk, zoals als volgt wordt gedemonstreerd.

U kuntdeze aankondiging controleren door de primaire ondergeschikte test, of dooronderzoek afhankelijk van de convexiteit van de capaciteit.

Ditsuggereert dat het gebruik van pseudo-middelen vooringenomenheid genereert. Ditgeeft ons echter niet de waarde van bia.

Bessel’sAanpassing

Ons enige doel is om te onderzoeken hoe eenzijdig dit verschil schatter ^μ is. We verwachten dat het pseudo-verschil een eenzijdige schatter is, omdat het weinig denkt aan echte fluctuaties zoals eerder genoemd. Door de normale schatting van ons pseudo-verschil te controleren, vinden we dat:

Waarom de steekproefvariant wordt gedeeld door n-1 — DATA SCIENCE (7)

Langzaam en voorzichtig. De normale schatting van x_j x_k (zoals als volgt gedemonstreerd) berust op het testen van unieke (autonome) voorbeelden waar j≠k, of het equivalent (zeker ondergeschikt voor deze situatie!) test waar j=k. Aangezien we n testen hebben, is de kans op het krijgen van een soortgelijk voorbeeld 1/n. Bijgevolg,

Waarom de steekproefvariant wordt gedeeld door n-1 — DATA SCIENCE (8)

Herinner je je de verwachte waarde van x_i² die in het begin werd vermeld? Door ^μ uit te breiden, hebben we

Waarom de steekproefvariant wordt gedeeld door n-1 — DATA SCIENCE (9)

Vervangdeze formules terug in, en we ontdekken dat de normale schatting vanpseudo-fluctuatie niet de verandering van de bevolking is, maar (n-1)/n ervan.Aangezien het schalingselement voor alle beperkte positieve n minder dan 1 is,toont dit opnieuw aan dat onze pseudo-verandering weinig denkt aan de echteschommeling van de bevolking.

Om een onpartijdige schattingschatter af te stemmen, passen we gewoon de correctie van Bessel toe die de normale schatting van de schatter op één lijn brengt met het echte volksverschil.

Waarom de steekproefvariant wordt gedeeld door n-1 — DATA SCIENCE (10)

Daar hebje het. We karakteriseren s² op een manier met als einddoel dat het eeneerlijke voorbeeldwijziging is. De (n-1) noemer komt voort uit het amendementvan Bessel, dat tot stand is gekomen vanwege de 1/n waarschijnlijkheid van hetinspecteren van een soortgelijk voorbeeld (met substitutie) in twee rug-aan-rugpreliminaries.s.

Naarmatehet aantal monsters toeneemt tot oneindig n→∞ gaat de bias weg (n-1)/n→1, omdatde kans dat hetzelfde monster in twee proeven wordt bemonsterd de neiging heeftom 0 te zijn.

Waarom de steekproefvariant wordt gedeeld door n-1 — DATA SCIENCE (2024)

References