Residuen sind die Unterschiede zwischen den beobachteten und vorhergesagten Antworten Residuen sind Schätzungen des experimentellen Fehlers, der durch Subtrahieren der beobachteten Antworten von den vorhergesagten Antworten erhalten wird. Die vorhergesagte Antwort wird aus dem gewählten Modell berechnet, nachdem alle unbekannten Modellparameter aus den experimentellen Daten abgeschätzt worden sind. Die Untersuchung von Residuen ist ein wichtiger Bestandteil aller statistischen Modellierungen, einschließlich DOEs. Die sorgfältige Betrachtung von Residuen kann uns sagen, ob unsere Annahmen vernünftig und unsere Wahl des Modells angemessen sind. Residuen sind Variablenelemente, die nicht durch das Modell modelliert werden. Residuale können als Elemente der Variation betrachtet werden, die durch das eingebaute Modell unerklärt sind. Da es sich dabei um eine Fehlerform handelt, gelten für die Gruppe von Residuen, die wir typischerweise für Fehler im Allgemeinen verwenden, dieselben allgemeinen Annahmen: Man erwartet, dass sie (annähernd) normal und (ungefähr) unabhängig mit einem Mittelwert von 0 und einer Konstanten verteilt sind Abweichung. Annahmen für Residuen Dies sind die Annahmen hinter ANOVA und klassische Regressionsanalyse. Dies bedeutet, dass ein Analytiker erwarten sollte, dass ein Regressionsmodell bei der Vorhersage einer Antwort in einer zufälligen Weise irrt, dass das Modell Werte höher als tatsächlich und niedriger als tatsächlich mit gleicher Wahrscheinlichkeit vorhersagen sollte. Zusätzlich sollte der Fehlerpegel unabhängig davon sein, wann die Beobachtung in der Studie auftrat, oder ob die Größe der Beobachtung vorhergesagt wurde, oder sogar die Faktoreinstellungen, die bei der Vorhersage involviert waren. Das Gesamtmuster der Residuen sollte ähnlich dem glockenförmigen Muster sein, das beobachtet wird, wenn ein Histogramm normal verteilter Daten aufgetragen wird. Wir betonen die Verwendung von grafischen Methoden, um Residuen zu untersuchen. Abweichungen deuten auf ein ungenügendes Modell hin. Abweichungen von diesen Annahmen bedeuten in der Regel, dass die Residuen Strukturen enthalten, die im Modell nicht berücksichtigt werden. Das Identifizieren dieser Struktur und das Hinzufügen von Term (en), die es zu dem ursprünglichen Modell repräsentieren, führt zu einem besseren Modell. Tests für die Restnormalität Plots für die Prüfung von Residuen Jeder Graph, der für die Anzeige der Verteilung eines Datensatzes geeignet ist, eignet sich zur Beurteilung der Normalität der Verteilung einer Gruppe von Residuen. Die drei häufigsten Typen sind: Histogramme. Normalwahrscheinlichkeiten. Und Dot-Plots. Das Histogramm ist ein Frequenzdiagramm, das erhalten wird, indem die Daten in Zellen mit regelmßigem Abstand plaziert werden und jede Zellenfrequenz gegen die Mitte der Zelle geplottet wird. Abbildung 2.2 veranschaulicht eine annähernd normale Verteilung von Resten, die durch ein Modell für einen Kalibrierprozess erzeugt werden. Wir haben eine normale Dichtefunktion auf das Histogramm überlagert. Kleine Probengrößen Die Probengrößen der Residuen sind im Allgemeinen klein (lt50), da Experimente nur begrenzte Behandlungskombinationen aufweisen, so dass ein Histogramm nicht die beste Wahl für die Beurteilung der Verteilung der Residuen ist. Ein empfindlicherer Graph ist die Normalwahrscheinlichkeit. Normales Wahrscheinlichkeitsdiagramm Die Schritte bei der Bildung einer Normalwahrscheinlichkeitsdarstellung sind: Sortieren der Residuen in aufsteigender Reihenfolge. Berechnen Sie die kumulative Wahrscheinlichkeit jedes Restes nach der Formel: wobei P die kumulative Wahrscheinlichkeit eines Punktes angibt, i die Ordnung des Wertes in der Liste und N die Anzahl der Einträge in der Liste ist. Zeichnen Sie die berechneten p-Werte gegen den Restwert auf normalem Wahrscheinlichkeitspapier. Die Normalwahrscheinlichkeitskurve sollte eine annähernd geradlinige Linie ergeben, wenn die Punkte aus einer Normalverteilung stammen. Sample-Normalwahrscheinlichkeits-Plot mit überlagerter Punktdarstellung Abbildung 2.3 zeigt den Normalwahrscheinlichkeitsgraph, der aus der gleichen Gruppe von Residuen, die für Abbildung 2.2 verwendet wurden, erstellt wurde. Dieser Graph enthält die Addition eines Punktdiagramms. Das Punktdiagramm ist die Punktsammlung entlang der linken y-Achse. Dies sind die Werte der Residuen. Der Zweck des Punktdiagramms besteht darin, einen Hinweis auf die Verteilung der Residuen zu liefern. S-förmige Kurven zeigen bimodale Verteilung Kleine Abweichungen von der Geraden in der Normalwahrscheinlichkeitsdarstellung sind üblich, aber eine deutlich S-förmige Kurve in diesem Diagramm deutet auf eine bimodale Verteilung der Residuen hin. Brüche in der Mitte dieses Graphen sind auch Anzeichen für Anomalien in der Restverteilung. ANMERKUNG: Studentisierte Residuen sind Residuen, die in eine Skala umgewandelt werden, die etwa die Standardabweichung eines einzelnen Residuen aus der Mitte der Restverteilung darstellt. Die Technik, die verwendet wird, um Residuen in diese Form umzuwandeln, ergibt eine T-Verteilung der Werte. Unabhängigkeit von Residuen im Zeitverlauf Sequenzdiagramm Wenn die Reihenfolge der Beobachtungen in einer Datentabelle die Reihenfolge der Ausführung jeder Behandlungskombination repräsentiert, wird eine Auftragung der Residuen dieser Beobachtungen gegenüber der Fallreihenfolge oder der Zeitreihenfolge der Beobachtungen getestet Jederzeit Abhängigkeit. Diese werden als Lauffolgeplots bezeichnet. Sample-Run-Sequence-Plot, das einen Zeitverlauf aufweist Sample-Run-Sequence-Plot, der keinen Zeitverlauf aufweist Interpretation der Sample-Run-Sequence-Plots Die Residuen in Abbildung 2.4 legen einen Zeitverlauf nahe, während die in Abbildung 2.5 nicht. Abbildung 2.4 deutet darauf hin, dass das System bei der Fortsetzung der Untersuchung langsam auf niedrigere Werte abfiel. In Extremfällen wird eine Drift des Gerätes Modelle mit sehr schlechter Fähigkeit zur Berücksichtigung der Variabilität in den Daten (niedrige R 2) zu produzieren. Wenn die Untersuchung zentrale Punkte enthält, kann die plottende Darstellung in Zeitreihenfolge einen klareren Hinweis auf einen Zeitverlauf liefern, wenn einer vorhanden ist. Das Plotten der Rohreaktionen in der Zeitsequenz kann manchmal auch Trendänderungen in einem Prozess erkennen, der Residuumcharakteristiken möglicherweise nicht erkennt. Diagramm der Residuen gegenüber den entsprechenden vorhergesagten Werten Überprüfen Sie die Erhöhung der Residuen in der Größe der angepassten Wertsteigerungen Plottenreste gegenüber dem Wert einer angepassten Antwort sollten eine Verteilung der Punkte erzeugen, die zufällig etwa 0 verstreut sind, unabhängig von der Größe des angepassten Werts. Ganz allgemein können jedoch Restwerte steigen, wenn die Größe des eingepassten Werts zunimmt. Wenn dies geschieht, wird die verbleibende Wolke trichterförmig mit dem größeren Ende zu grßeren angepaßten Werten, dh die Reste haben grßere und grßere Streuung, wenn der Wert der Reaktion zunimmt. Die Darstellung der Absolutwerte der Residuen anstelle der signierten Werte erzeugt eine keilförmige Verteilung. In jedem Graphen wird eine Glättungsfunktion hinzugefügt, die den Trend darstellt. Probenresiduen im Vergleich zu eingefügten Werten, die zunehmende Residuen zeigen Probenresiduen im Vergleich zu den gepaarten Werten, die keine zunehmenden Residuen zeigen Interpretation der Residuen gegenüber eingefügten Wertediagrammen Eine Restverteilung wie in Abbildung 2.6, die einen Trend zu höheren Absolutresten als Wert der Dass die Reaktion, etwa durch Modellierung ihres Logarithmus oder ihrer Quadratwurzel, etc. (Contractive Transformations) transformiert werden sollte. Das Umwandeln einer Antwort in dieser Weise vereinfacht oft ihre Beziehung zu einer Vorhersagevariablen und führt zu einfacheren Modellen. Spätere Abschnitte diskutieren die Transformation im Detail. Abbildung 2.7 zeigt die Residuen, nachdem eine Transformation auf die Antwortvariable verwendet wurde, um die Streuung zu reduzieren. Beachten Sie den Unterschied in den Skalen auf den vertikalen Achsen. Unabhängigkeit von Residuen aus Faktoreneinstellungen Beispiel Residuen gegenüber Faktorstellungsdiagramm Beispiel Residuen gegenüber Faktorstellungsdiagramm nach Hinzufügen eines quadratischen Terms Interpretation von Residuen gegenüber Faktorstellungsdiagrammen Abbildung 2.8 zeigt, dass sich die Größe der Residuen in Abhängigkeit von einer Prädiktor-Einstellung änderte. Ein Diagramm wie dieses deutet darauf hin, dass das Modell einen Ausdruck höherer Ordnung in diesem Prädiktor benötigt oder dass man den Prädiktor beispielsweise mit einem Logarithmus oder einer Quadratwurzel transformieren sollte. Abbildung 2.9 zeigt die Residuen für die gleiche Antwort nach Addition eines quadratischen Terms. Man beachte, dass der einzelne Punkt weit von den anderen Residuen in Abbildung 2.9 getrennt ist. Dieser Punkt ist ein Ausreißer. Das heißt, seine Position liegt gut innerhalb des Wertebereichs, der für diesen Prädiktor in der Untersuchung verwendet wird, aber sein Ergebnis war etwas niedriger als das vorhergesagte Modell. Ein Signal, dass Krümmung vorhanden ist, ist eine Spur, die einem Stirnrunzeln oder einem Lächeln in diesen Graphen ähnelt. Stichproben-Residuen im Vergleich zu Faktor-Setzplot ohne einen oder mehrere Terme höherer Ordnung Interpretation des Plots Das in den Abbildungen 2.8 und 2.9 gegebene Beispiel beinhaltet offensichtlich fünf Stufen des Prädiktors. Das Experiment verwendete ein Response-Oberflächen-Design. Für den einfachen faktoriellen Entwurf, der Mittelpunkte enthält, könnte das Diagramm der Residuen gegen Faktoreinstellungen wie in Abbildung 2.10 erscheinen, wenn das Response-Modell als nicht mehr als ein höherwertiger Term betrachtet wird. Die Kurve zeigt die Krümmungsvorgabe an Während die Kurve ein bestimmtes Signal liefert, dass eine Krümmung vorliegt, ist die Identifizierung der Quelle dieser Krümmung aufgrund der Struktur des Entwurfs nicht möglich. Graphen, die unter Verwendung der anderen Prädiktoren in dieser Situation erzeugt wurden, wären sehr ähnlich. Zusätzliche Diskussion der Restanalyse. Residuen sind ein wichtiges Thema, das in diesem Handbuch immer wieder diskutiert wird. Beispielsweise werden grafische Restdiagramme in Kapitel 1 diskutiert und die allgemeine Untersuchung von Residuen als Teil des Modellbaus wird in Kapitel 4 diskutiert. HINWEIS: Die IDRE Statistical Consulting Group wird im Februar die Website auf das WordPress CMS migrieren, um die Wartung zu erleichtern Und die Schaffung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, Redirects beizubehalten, damit die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen im Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group durch ein Geschenk Stata Class Notes Analysieren von Daten 1.0 Stata-Befehle in dieser Einheit Analyse der Varianz Erstellt Dummy-Variablen während der Modellschätzung Predicts nach Modellschätzung Kerndichte-Schätzungen und Graphen Graphs ein standardisiertes Normales Diagramm Graphs eines Residual-versus-platzierten Plots Testen linearer Hypothesen nach Modellschätzung Kreuztabellen mit Chi-Quadrat-Test Testet die Gleichheit der angepassten Paaren von Daten Wilcoxon-Matched-Paars unterschrieben Rang-Test Mann-Whitney Zwei-Stichproben-Test Nichtparametrisch analog zu One-way anova 2.0 Demonstration und Erläuterung 2.1 chi-quadratischer Test von Frequenzen Hier ist der tabellarische Befehl für eine Kreuztabelle mit der Option, den Chi-Quadrat-Test der Unabhängigkeit und Assoziationsmaße zu berechnen. Hier ist der Befehl mit einer Option, um die erwarteten Frequenzen anzuzeigen, so dass man nach Zellen mit sehr kleinen Erwartungswerten suchen kann. 2.2 t-Tests Dies ist der Ein-Stichproben-t-Test, der prüft, ob die Stichprobe aus einer Population mit einem Mittelwert von 50 gezogen wurde. Dies ist der gepaarte t-Test, der prüft, ob der Mittelwert von write gleich ist Mittelwert des Lesens. Dies ist der zweistufige unabhängige t-Test mit gepoolten (gleichen) Varianzen. Dies ist der zweistufige unabhängige t-Test mit separaten (ungleichen) Varianzen. 2.3 Abweichungsanalyse Der anova-Befehl führt nicht überraschend eine Varianzanalyse (ANOVA) durch. Hier ist ein Beispiel einer Einweg-Varianzanalyse. In diesem Beispiel wird der anova-Befehl verwendet, um eine Zwei-Wege-Faktoranalyse der Varianz (ANOVA) durchzuführen. Hier ist ein Beispiel für eine Analyse der Kovarianz (ANCOVA) mit dem Befehl anova. 2.4 Regression Einfache OLS-Lineare Regression der Vanille. Im folgenden Beispiel führen wir die Regression mit robusten Standardfehlern aus. Dies ist sehr nützlich, wenn es Heterogenität der Varianz gibt. Diese Option beeinflusst nicht die Schätzungen der Regressionskoeffizienten. Der Vorhersagebefehl berechnet Vorhersagen, Residuen, Einflussstatistiken und dergleichen nach einem Schätzbefehl. Die hier gezeigte Voreinstellung ist die Berechnung der vorhergesagten Werte. Bei Verwendung der Restoption berechnet der Vorhersagebefehl den Restwert. Der Listenbefehl zeigt die Werte der von uns generierten Variablen an. Die Option 120 legt fest, dass nur die ersten 20 Beobachtungen angezeigt werden. Der Befehl kdensity mit der normalen Option zeigt einen Dichtegraphen der Residuen mit einer Normalverteilung, die dem Graphen überlagert ist. Dies ist besonders nützlich bei der Überprüfung, dass die Residuen normal verteilt sind, was eine sehr wichtige Annahme für die Regression ist. Der Befehl pnorm erzeugt ein normales Wahrscheinlichkeitsdiagramm und es ist ein anderes Verfahren zum Testen, ob die Reste aus der Regression normal verteilt sind. Der Befehl qnorm erzeugt ein normales Quantilplot. Es ist ein weiteres Verfahren zum Testen, wenn die Residuen normal verteilt sind. Der qnorm-Plot ist empfindlicher auf Abweichungen von der Normalität in den Schwänzen der Verteilung, während der pnorm-Plot empfindlicher gegenüber Abweichungen nahe dem Mittelwert der Verteilung ist. Rvfplot ist ein Bequemlichkeitsbefehl, der eine Darstellung des Restwertes gegenüber den angepassten Werten erzeugt, die er nach regress oder anova verwendet. Erstellen von Dummy-Variablen mithilfe des Befehls xi Das xi-Präfix wird verwendet, um Code-kategoriale Variablen wie z. B. prog. Der Prädiktor prog hat drei Ebenen und benötigt zwei dummy-codierte Variablen. Der Testbefehl wird verwendet, um den kollektiven Effekt der beiden dummy-codierten Variablen zu testen, dh er prüft den Haupteffekt von prog. Das xi-Präfix kann auch verwendet werden, um Dummy-Variablen für prog und für die Interaktion von prog und read zu erzeugen. Der erste Testbefehl testet die Gesamtinteraktion und der zweite Testbefehl prüft die Hauptwirkung von prog. 2.5 Logistische Regression Um die logistischen Regressionsbefehle zu demonstrieren, erstellen wir eine dichotome Variable namens honcomp (honours composition), die als abhängige Variable verwendet werden soll. Dies ist nur zu illustrativen Zwecken vorgesehen. Der logistische Befehl liefert standardmäßig die Ausgabe in Quotenverhältnissen, kann aber die Koeffizienten anzeigen, wenn die Option coef verwendet wird. Die exakt gleichen Ergebnisse können mit dem Befehl logit erhalten werden, der Koeffizienten als Standard erzeugt, aber das Odds-Verhältnis anzeigt, wenn die Option oder die Option verwendet wird. 2.6 Nichtparametrische Tests Der Signetest ist das nicht-parametrische Analog des Einzelproben-t-Tests. Der Signrank-Befehl berechnet einen Wilcoxon-signierten Test, das nichtparametrische Analog des gepaarten t-Tests. Der Ranksum-Test ist das nicht-parametrische Analogon des unabhängigen zweistufigen t-Tests und ist als Mann-Whitney - oder Wilcoxon-Test bekannt. Der Befehl kwallis berechnet einen Kruskal-Wallis-Test, das nicht-parametrische Analogon der Einweg-ANOVA. 3.0 Für weitere Informationen Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, Buch oder Software-Produkt von der Universität von Kalifornien ausgelegt werden.
No comments:
Post a Comment