Mam 100 macierzy korelacji 50×50, z których wszystkie zostały przekształcone przez Fishera. Zrozumiałem, że powoduje to, że wszystkie wpisy jednej macierzy mają w przybliżeniu rozkład normalny.

Pytania

  • Gdzieś przeczytałem, że oznacza to również, że jeśli weźmiemy jakiś wpis (i, j) z wszystkich macierze (czyli na przykład pozycja (5, 12) dla macierzy1, macierzy2, …, macierz100), te wartości również mają rozkład normalny. Czy to prawda, a jeśli tak – dlaczego?

  • Chcę podzielić te 100 macierzy na dwie grupy. Klasyfikacja zakłada, że dane z każdej grupy mają rozkład normalny. Czy implikuje to transformacja z Fishera? Alternatywnie, czy fakt, że każdy wpis (i, j), $ 1 \ le i \ le 200 $, $ 1 \ le j \ le 200 $ ze wszystkich macierzy o rozkładzie normalnym, sugerowałby, że macierze każdej grupy mają rozkład normalny?

Odpowiedź

Transformacja Z Fishera nie gwarantuje rozkład normalny; w szczególności nie wewnątrz macierzy korelacji przy użyciu różnych zmiennych.

  • każda z 50 zmiennych wejściowych $ X_1 … X_ {50} $ musi mieć rozkład normalny
  • jeśli wielokrotnie rysujesz próbki z dwóch zmiennych $ i $ i $ j $ z tych samych rozkładów: $ Y_i \ sim X_i $ i $ Y_j \ sim X_j $ z tych rozkładów, to przekształcone współczynniki korelacji $ \ {f_z (\ rho_ {ij}) \} $ będą miały w przybliżeniu rozkład normalny.

Więc jeśli twoje 100 macierzy korelacji wywodzi się z tego samego rozkładu (i nie zmieniło się pomiędzy), to wartości każdej komórki powinny mieć w przybliżeniu rozkład normalny. Jednakże, jeśli masz dwie klasy, to założenie prawdopodobnie nie jest aktualne i wpis nie będzie już normalnie dystrybuowany.

Kluczową kwestią jest to, że potrzebujesz wielu zestawy próbek pobrane z tej samej dystrybucji. Celem transformacji Fishera jest oszacowanie przedziałów ufności współczynnika korelacji . Ponieważ (nietransformowany) współczynnik korelacji jest ograniczony przez -1 $ … + 1 $, nie może mieć rozkładu normalnego; ale używając transformacji Fishera możesz mimo wszystko użyć znanych statystyk dla normalnych rozkładów.

Więc załóżmy, że chcesz oszacować korelację wzrostu i wagi (zakładając, że oba mają rozkład normalny!) . Możesz pobrać jedną próbkę i obliczyć korelację – ale jak duże są granice błędów w korelacji? Zamiast tego można pobrać 100 niezależnych próbek, dla każdej z nich obliczyć korelację, Fishera przekształcić korelację, oszacować błędy rozkładu normalnego i przekształcić je z powrotem. Następnie możesz uzyskać średnią korelację dwóch zmiennych i przedział ufności.

Komentarze

  • Dzięki! Zatem wiersze i kolumny macierzy (które są oczywiście takie same) mają wspólnie rozkład normalny – stąd twój pierwszy punkt, w którym X1, .., X50 są (marginalnie) normalne. Czy dobrze rozumiem twój drugi punkt: jeśli próbuję powiedzieć z X_1 i X_10, nawet jeśli są to dwa normalne rozkłady z różnymi parametrami, (wielokrotnie) próbkowane dane będą wynosić ok. normalna? Jeśli jednak X_1 i X_10 z różnych macierzy mają różne rozkłady normalne, nie jest to prawdą (?). Dzięki!
  • Rzeczywiście. To ' jest dosłownie tym samym, co rysowanie z różnych rozkładów normalnych. Jeśli mam rozkład normalny, który porusza się w czasie i próbuję w różnych punktach czasowych, wynikowe dane ogólne wygrywają ' t muszą mieć rozkład normalny.
  • Mam inne, powiązane pytanie: Jeśli wiem, że próbki (i, j) z X_i, X_j wszystkich 100 macierzy są w przybliżeniu rozłożone w normie – czy to oznacza, że X_i, X_j wszystkich tych 100 są takie same (normalne) dystrybucji?
  • Nie. Wszystkie korelacje mogą mieć rozkład normalny wokół 0, tj. Średnio nieskorelowane.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *