# Instrumentarium Badań Ekonomicznych 17.05.26

https://www.youtube.com/watch?v=J52s8dsDzS4
Translation: en

[01:04] Я

[07:17] Dzień dobry państwu. Trochę miałem

[07:19] kłopotów z przejściem tych tenantów

[07:21] między tym

[07:24] uczelnianym a tym studenckim i się

[07:26] okazuje, że

[07:28] gdzieś coś się przy aktualizacjach

[07:29] poblokowało, ale mam nadzieję, że mnie

[07:32] słychać. Proszę mi tylko potwierdzić, że

[07:33] państwo mnie słyszycie, bo różne

[07:36] >> Dzień dobry. Słycham?

[07:37] >> A dzień dobry. Bardzo się cieszę. Super.

[07:39] Przepraszam, trochę opóźnienia, ale

[07:40] chyba napisałem, że 10 połą się

[07:43] szybciej. Poczekamy jeszcze w takim

[07:44] razie merytorycznie te dwie, trzy

[07:46] minuty, a przy okazji powiem

[07:50] trochę o terminie wykładu, bo on

[07:52] zostałby już ten termin y państwu

[07:55] określony. Nie wiem czy sprawdzaliście w

[07:57] planie sesji, ale już sprawdzam kiedy my

[08:01] będziemy w ten kiedy my będziemy mieli

[08:05] zapisaliśmy,

[08:09] że będzie to, proszę państwa

[08:13] y 20 czerwca

[08:19] o 9:00, czyli 20 czerwca o 9:00.

[08:25] Szczegóły pewnie jeszcze państwu podam

[08:28] mailem albo informacja, która będzie u

[08:31] planistów naacie dostępna. Więc

[08:35] Tak jest. Tak to wygląda. A nie o 13

[08:41] przypadkiem, bo my o 9:00 chyba mamy

[08:42] inny egzamin, tak mi się wydaje.

[08:44] >> Mam zapisany o 9:00, ale może być o

[08:46] 13:00, nie wiem, to sprawdzę jeszcze

[08:47] dobrze, bo

[08:49] >> bo wiem, że jest 20 mam napisano 9:00,

[08:52] ale oczywiście do tego czasu my

[08:53] sprawdzimy, bo inaczej my egzamin dla

[08:55] państwa planujemy, tak

[08:58] że wiadomo, że jest ich kilka w ciągu

[08:59] dnia, więc na pewno nie przyjeżdżacie

[09:02] tylko na ten egzamin, no bo byśmy się po

[09:04] prostu nie wyrobili

[09:06] w te kilka dni sesji, które państwo

[09:08] mają.

[09:10] w soboty i niedzielę, nie? Ale mamy 19

[09:12] czerwca jeszcze zajęcia, tak więc więc

[09:16] jeszcze na tych zajęciach sobie

[09:18] podsumujemy co nieco. Proszę mi tylko

[09:21] jeszcze dzisiaj przypomnieć, mam 4

[09:22] godziny zajęć, prawda, zgodnie z tym, co

[09:25] widzimy, czy nie?

[09:27] >> Tak, tak,

[09:28] >> tak. Dlatego, że

[09:30] >> znaczy tego 19 czerwca to jest ten

[09:32] dodatkowy wykład, o którym pan mówił.

[09:34] >> No tak mi się wydaje, że to będzie

[09:35] musiał być tylko dodatkowy wykład. Tak

[09:38] więc tak to wygląda w skrócie. Ja

[09:41] jeszcze muszę to sprawdzić, dlatego że

[09:43] nam się z uwagi na różne obostrzenia

[09:46] troszeczkę plan pozmieniał, no niestety.

[09:49] I próbujemy cały czas

[09:52] taki adjustment zrobić, jeśli chodzi o o

[09:55] zajęcia, ale no dzisiaj na pewno na

[09:58] pewno te zajęcia

[10:01] w ctery godzinki to będziemy mieli.

[10:03] Także przepraszam za niedogodności, ale

[10:05] te po aktualizacji Microsoftu Teamsów

[10:08] coś innego się zawsze dzieje. Zawsze po

[10:10] aktualizacji tydzień oni potem

[10:13] dostosowują różnego rodzaju rzeczy i

[10:15] tutaj chyba też to miało miejsce. Tym

[10:17] bardziej wczoraj miałem zajęcia z

[10:18] studentami dziennymi i było równie

[10:21] dziwnie na początku jeśli chodzi o

[10:23] logowanie się. Dobra, myślę, że

[10:27] mamy. Czy mają państwo, zanim zaczniemy,

[10:29] jakieś ewentualnie pytania, sugestie,

[10:33] cokolwiek?

[10:35] Przypominam jeszcze, że jak ktoś się

[10:37] loguje z

[10:39] konta spoza domeny, to nie wchodzi na

[10:41] zajęcia. Tak, takie są nowe obostrzenia,

[10:43] jeśli chodzi o

[10:45] kwestie bezpieczeństwa. Więc jak

[10:49] odrzucam kogoś, czy odrzuca system, to

[10:52] dlatego, że jest poza domeną. Więc

[10:53] proszę się, ewentualnie,

[10:56] jeżeli ktoś z państwa będzie miał

[10:58] kontakt z tymi osobami, które piszą,

[11:00] dlaczego się nie mogę zalogować coś, no

[11:02] to trzeba się zalogować z domeny

[11:03] uniwersyteckiej, inaczej po prostu już

[11:06] na te zajęcie wejścia nie ma. Okej. Coś

[11:09] z państwa strony?

[11:12] >> Tak, przepraszam, ja chciałam tylko

[11:13] przekazać, że część osób z MSG ma w tym

[11:16] momencie seminaria i nie mogą dołączyć.

[11:19] Okej, dobrze. To pamiętamy, bo tam była

[11:21] taka sytuacja, że

[11:24] parę osób sygnalizowało. My dokończymy

[11:28] ten temat, który był ostatnio, a od 9:45

[11:31] już wiem, że wszyscy państwo będą mogli

[11:33] na spokojnie, prawda? Także

[11:36] będzie będziemy w komplecie. Także

[11:39] proszę państwa, spokojnym tempem z tego

[11:42] co zapisałem, zwantowałem, my

[11:44] zakończyliśmy. Proszę mnie tylko w tym

[11:47] utwierdzić. zakończyliśmy przy analizie

[11:52] podstaw rozkładu normalnego, kiedy

[11:54] podaliśmy sobie przykład wzrostu,

[11:56] prawda? Tak było. Wrzucamy okiem

[11:59] notatki. Knoa, a ja tak zapisałem, nie

[12:02] wiem czy czy państwo to widzą, żebyśmy

[12:04] startowali

[12:06] z tego samego miejsca.

[12:08] A

[12:11] rozumiem

[12:13] przez aklamację, czyli bez głosowania

[12:15] przyjmujecie państwo mój punkt widzenia.

[12:17] No to dobrze, to w takim razie tak.

[12:20] >> Tak, ja właśnie sprawdziłam i na

[12:22] skończyliśmy.

[12:22] >> Brawo. Zduch. Świetnie. Zatem proszę

[12:25] państwa

[12:27] zrobimy tak, że ja oczywiście się

[12:28] wyłączę, żeby ten streaming był na

[12:30] jakimś wyższym poziomie.

[12:32] Przełączę się tak, żeby państwo widzieli

[12:35] za chwilę

[12:37] prezentację i umawiamy się w ten sposób,

[12:39] że jeżeli coś będzie nie tak, będą

[12:42] chcieli państwo zapytać i tak dalej, to

[12:44] przerywamy, tak? To znaczy po prostu

[12:46] państwo wchodzą głosem, bo czasami te

[12:49] łapki albo inne oznaki zainteresowania

[12:53] gdzieś nam w tym, przynajmniej moim

[12:55] interfejsie

[12:58] mogą zginąć. Dobra, proszę państwa, a

[13:01] zatem my sobie

[13:04] w takim razie

[13:06] wrócimy do naszego wzrostu.

[13:08] Okej. Mam nadzieję, że państwo widzicie

[13:10] teraz jak wygląda

[13:14] slajd z tym przytoczonym rozkładem.

[13:19] Widzą państwo na naszym

[13:22] rysunku dwie kolumny. Oczywiście te dwie

[13:25] kolumny są tak poukładane, tak pocięte,

[13:28] że jest ich de facto na slajdzie więcej,

[13:30] ale tak naprawdę to, co nas interesuje,

[13:33] to to, co w tych kolumnach jest. A jeśli

[13:36] chodzi o zmienne, to mamy dwie, czyli w

[13:38] centymetrach wzrost. I druga zmienna to

[13:40] jest zmienna, która nam

[13:43] dzieli te wartości na dwie podgrupy,

[13:48] czyli na mężczyźni i na k, czyli na

[13:52] grupę kobiet.

[13:54] Widzimy, że mamy tych obserwacji

[13:58] ponad 100. I to co będzie dla nas

[14:01] istotne to chcemy z tych informacji,

[14:04] które tutaj są podane w sposób bardzo

[14:06] dokładny, to znaczy w ten sposób, że

[14:09] mamy 100% informacji, bo mamy wszystkie

[14:12] osoby, które badane jeśli chodzi o ich

[14:15] wzrost i jeśli chodzi o to, do której

[14:17] grupy, czy do kobiet, czy do mężczyzn

[14:19] należą, czyli nie ma żadnych tutaj

[14:22] braków w informacji. Natomiast państwo

[14:26] wiedzą, że statystyka

[14:28] to jest pewnego rodzaju ułatwianie sobie

[14:31] życia, ale kosztem precyzji często. I w

[14:35] momencie kiedy my sobie

[14:37] sprowadzimy tę postać tej ność

[14:40] skomplikowanej i jednak obszernej

[14:42] tabeli, jeśli chodzi o percepcję, tak,

[14:44] bo tego było dużo, do

[14:46] pewnych zbiorczych

[14:49] a wartości, czyli do czegoś, co nazywamy

[14:51] głównymi statystykami opisowymi, no to

[14:54] zobaczymy, że mimo

[14:57] pewnego skondensowania

[14:59] gdzieś ta

[15:02] pojemność tych informacji, które się w

[15:04] tej tabeli

[15:06] w tym momencie znajdują. Zaczyna nam

[15:09] umykać, zaczyna nam zmykać i zobaczmy.

[15:11] Mamy oczywiście podaną

[15:13] wartość

[15:15] dotyczącą liczby przypadków. To jest n

[15:18] ważny, czyli ile bierzemy pod uwagę?

[15:20] Widzimy, że 66

[15:22] kobiet, 76

[15:24] 76 siedmiu mężczyzn. Liczymy odpowiednio

[15:28] dla kobiet, dla mężczyzn średnią,

[15:32] czyli liczymy jaki jest przeciętny

[15:36] wzrost. Sumując oczywiście

[15:39] wszystkie przypadki, czyli dla kobiety

[15:41] 66

[15:43] a osób, 66 pań i sumujemy wartości

[15:48] wzrostu, dzielimy przez 66 i mamy

[15:50] wartość średnią. Mamy wartość medialnę

[15:53] czy środkową. Mówiliśmy o tej wartości

[15:55] medialnej, czy wspomnieliśmy wcześniej,

[15:56] czyli do wyliczenia mediany nie

[15:59] potrzebujemy tak naprawdę niczego, nic

[16:02] liczyć. Wystarczy, że uporządkujemy

[16:05] rosnącą na przykład od najniższych do

[16:08] najwyższych wartości i

[16:11] przeprowadzimy

[16:12] dzielenie tego naszego

[16:15] uporządkowanego szeregu na pół, czyli w

[16:18] tym momencie 33

[16:20] osoby pierwsze do jednej grupy, 33 do

[16:23] drugiej i ta 33, 34 osoba, czyli

[16:26] dokładnie wzrost tej środkowo ułożonej

[16:30] rosnąco bądź malejąco osoby pokazuje nam

[16:33] wartość środkową, czyli medianę. Moda to

[16:36] jest kolejna wartość porządkowa, ale

[16:40] pokazuje nam najczęściej występującą

[16:43] wartość. Czyli w przypadku pań

[16:46] najczęstszym

[16:48] przynajmniej raportowanym

[16:50] a wzrostem było 170. W przypadku panów

[16:53] 180. Moda to inaczej dominanta. To to co

[16:56] najczęściej występuje. Jak coś jest

[16:57] modne to dominuje i tak dalej i tak

[16:59] dalej. Stąd jakby prawdopodobnie

[17:00] etymologia. aby zapytać językoznawców.

[17:03] Natomiast widzimy, że to to to nie jest

[17:06] przypadek, że to jest akurat 1 70 1 80.

[17:08] To byśmy się musieli odwołać pewnie do

[17:12] antropologii, może do kwestii

[17:17] ewolucyjnych.

[17:20] No nie jest 1 69 ani 179, chociaż jest

[17:23] to bliższe prawdzie niż 170 i 1 80 w

[17:25] obiektywnych pomiarach. Pamiętajmy, że

[17:27] te pomiary, które tutaj mamy, to są czy

[17:29] te wartości to są wartości raportowane,

[17:31] które powstały poprzez to, że podawano,

[17:34] tak? I widzimy, że jest pewnego rodzaju

[17:39] jakby zaokrąglenie w górę tutaj

[17:41] najczęściej i i to to prawdopodobna

[17:44] przyczyna jest, że lepiej wygląda 180

[17:47] czy 179. Jest jakiś taki tempie

[17:53] występuje w notacji amerykańskiej. tam

[17:56] 180 nie występuje, tam są pełne stopy i

[17:59] cale i tam nagle ten wzrost najczęściej

[18:01] występowany jest nieco inny. Tak, 6 stóp

[18:04] i jest to troszeczkę inna wartość. Więc

[18:06] to widzimy jak takie cechy środowiskowe,

[18:10] społeczne oddziałują również na naszą

[18:14] skłonność do podawania pewnych, do

[18:15] raportowania pewnych wartości.

[18:17] Oczywiście skąd o tym wiemy? No stąd, że

[18:20] jak to potem do tego rozkładu normalnego

[18:22] wrzucimy, a rozkład tak rozkład normalny

[18:25] właśnie do wzrostu możemy spokojnie

[18:28] stosować, to widzimy pewną

[18:30] nadreprezentację. akurat 1 80 u panów,

[18:33] akurat 1 70 u

[18:35] pań,

[18:37] co jest pewną aberacją uzasadniony

[18:40] wyłącznie wyłącznie sposobem

[18:43] raportowania, a nie obiektywnymi

[18:45] pomiarami. Zatem, proszę państwa,

[18:47] widzimy, że mamy określone wartości,

[18:48] mamy różne odchylenie standardowe, czyli

[18:51] ta ostatnia wartość w kolumnie prawej,

[18:52] czyli o ile przeciętnie od średniej w

[18:55] przypadku wzrostu dla kobiet i dla

[18:57] mężczyzn, te wyniki się odchylają. yyy y

[19:02] 542 dla mężczyzn

[19:05] yyy to jest wartość, którą zapamiętamy

[19:08] sobie na chwilkę, bo będziemy z niej za

[19:10] moment również korzystać przy analizach,

[19:13] przy odwoływaniu się do rozumienia tego

[19:16] zjawiska. Oczywiście podajemy tutaj

[19:18] przykład wzrostu, bo na podstawie tego

[19:20] będziemy starali się omówić

[19:23] właśnie postać rozkładu normalnego, ale

[19:28] w zjawiskach ekonomicznych

[19:32] będzie również

[19:34] mnóstwo, może nie mnóstwo, ale będą

[19:36] przykłady, które się będą odwoływać,

[19:40] będą oparte na

[19:43] właśnie uporządkowaniu, na rozkładzie

[19:45] normalnym I dlaczego my startujemy od

[19:48] rozkładu normalnego? Dlatego, że

[19:49] najprościej na tym akurat przykładzie

[19:52] wytłumaczyć w ogóle na czym polega idea

[19:54] rozkładu. Po drugie,

[19:56] bardzo dobrze ten rozkład jest opisany,

[19:58] do tego za chwilę przejdziemy i jest

[20:01] stosunkowo łatwa analiza, dlatego że ten

[20:04] rozkład ma bardzo konkretne, przydatne

[20:07] nam właściwości. I po trzecie, my musimy

[20:10] sobie zawęzić naszą analizę, jeśli

[20:12] chodzi o kwestie dydaktyczne. To znaczy

[20:15] chodzi o to, żebyśmy na wykładach nie

[20:19] przy tej małej stosunkowej ilości czasu

[20:21] nie rozszerzali naszych analiz o rzeczy,

[20:23] które możecie państwo przez analogię

[20:26] samemu dalej stosować, bo tam gdzie

[20:29] następnie w różnych zjawiskach okaże

[20:32] się, że nie mamy do czynienia z

[20:34] rozkładem normalnym, tylko na przykład z

[20:35] innym rozkładem,

[20:37] mechanika pracy przy wnioskowaniu

[20:39] statystycznym będzie analogiczna. A

[20:41] tylko nie będziemy się odwoływać do

[20:42] rozkładu normalnego. No a tego nie

[20:44] musimy pokazywać, to inteligentnie sobie

[20:46] z tym poradzą. Natomiast bardziej musimy

[20:49] się skupić, żeby dogłębniej wejść raczej

[20:51] w sam właśnie rozkład, czym jest i na

[20:55] bazie tego rozkładu pokazać możliwości

[20:58] wnioskowania. Oczywiście możemy potem w

[21:01] podgrupy to dla kobiet i dla mężczyzn

[21:05] odpowiednio w przedziały pogrupować. My

[21:07] to zrobimy.

[21:09] Mamy wykres dla

[21:12] kobiet. Jest to poukładany w pięcio

[21:15] przedziały o rozpiętości 5 cm, czyli

[21:18] między 1 50 55 i tak dalej i tak dalej.

[21:21] Są 5 cm. I państwo widzą to jest

[21:24] histogram, czyli wykres właśnie

[21:26] liczności w odpowiednich przedziałach.

[21:28] Gdybyśmy mieli tych obserwacji dużo

[21:30] więcej, przypomnę, że mamy ich 60 parę

[21:32] dla pań.

[21:34] Gdybyśmy mieli 6000, to nie jest takie

[21:36] trudne specjalnie, to byśmy

[21:39] nawet nie musieli robić przedziału, bo

[21:42] byśmy mieli tak gęsto, tak dużo

[21:43] przypadków, że pięknie by nam się

[21:45] rozkład co ten jeden, prawda, co tę 1 cm

[21:50] tutaj objawił. Ze wzrostem jest taka

[21:52] pocieszna sytuacja, dlatego że tak

[21:55] matematycznie do tego podchodząc de

[21:57] facto wzrost jest zmiennoskokową, nie

[21:59] jest zmienną ciągn zmienia się co

[22:00] centymetr, prawda? albo w notacji

[22:02] amerykańskiej co cal. Natomiast no my

[22:05] traktujemy, szczególnie u nas, że jest

[22:07] to zmienna ciągła, prawda? Tak trochę

[22:10] dodajemy sobie, ale świetnie na

[22:11] przykładzie wzrostu się pokazuje różnego

[22:14] rodzaju przykłady. Tu widzimy różnego

[22:17] rodzaju właściwości właśnie rozkładu. To

[22:19] co widzimy tutaj na tym rysunku to

[22:22] pewnego rodzaju

[22:25] symetryczne odwzorowanie. Zobaczmy, że

[22:29] te prostokąty, które ma jeszcze państwo,

[22:31] te niebieskie prostokąty, one mają

[22:34] rozpiętość, czyli szerokość właśnie 5

[22:36] cm, bo tak sobie przyjęliśmy. Oczywiście

[22:38] możemy przyjąć inną wartość. Również

[22:41] mamy pewnego rodzaju sugestie, wzory,

[22:44] jaka to wartość w danej sytuacji powinna

[22:46] być, albo taką referencyjną rozpiętość

[22:50] przedziału, która wydaje się optymalna z

[22:52] punktu widzenia kalkulacyjnego. Nie

[22:54] będziemy się teraz tym zajmować.

[22:55] Przyliśmy pięć, bo jest nam wygodnie.

[22:57] Natomiast widzimy, że ten rozkład, ten

[23:00] histogram jest taki kwa symetryczny, że

[23:04] rosną liczności, czyli jest więcej pań

[23:08] między 155 a 160 niż między 150, a z

[23:12] kolei mniej niż między 160 a 165 i potem

[23:15] ten przedział najliczniejszy między 1

[23:17] 650 i potem znowu to znowu to spada, ale

[23:22] ta symetria, to lustrzane względem osi

[23:24] pionowej jest zachowane dla ułatwienia

[23:27] Mamy postać na czerwono wykreśloną

[23:31] oczekiwanej normalnej. Czyli gdyby

[23:33] rozkład był wzrostu absolutnie rozkładem

[23:36] normalnym, perfekcyjnym normalny, to

[23:38] mniej więcej wyglądałby

[23:40] dokładnie wyglądałby tak jak ta

[23:42] narysowana krzywa. Więc widzimy, że ta

[23:45] postać jest podobna. Oczywiście, no

[23:48] trudno mówić jeden do jeden, bo mamy

[23:50] rozpiętość na tyle szeroką, że nam się

[23:52] to troszeczkę rozmywa, ale

[23:56] jest to dość dość przypominające tę

[23:58] krzywą właśnie czerwoną, czyli ten

[23:59] rozkład nam, ten histogram niebieski,

[24:02] jakbyśmy tak sobie z daleka na to

[24:04] spojrzeli, rzeczywiście koresponduje z

[24:05] tym, co mamy na czerwono. U mężczyzn

[24:08] jest podobnie, aczkolwiek oczywiście te

[24:10] frakcje, te te

[24:13] poszczególne przedziały są

[24:15] reprezentowane w innych proporcjach, ale

[24:16] nie zmienia to głównego obrazu. No i

[24:18] proszę państwa to co jest istotne to

[24:21] gdybyśmy to już państwu mówiłem

[24:24] przeprowadzili takie badanie

[24:27] a no nie dla tych 100 paru osób które

[24:30] były na pierwszym roku wtedy parę lat

[24:32] temu na wydziale ekonomicznym ale na

[24:36] całym uniwersytecie to byśmy

[24:38] prawdopodobnie dostali bardzo

[24:41] podobną

[24:43] tutaj

[24:45] bardzo bardzo podobne wykresy tylko

[24:47] oczywiście były

[24:49] nieco dokładniejsze, bo tych obserwacji

[24:51] byłoby więcej i pewnie by ten wzrost

[24:55] przybrał postać tak zwanych krzywych

[24:57] dzwonowych, czyli tych czerwonych, które

[24:59] państwo widzieli, takich referencyjnych

[25:02] wykresów dla rozkładu normalnego. Ktoś

[25:05] powiem, no to ciekawe, ale z czego to

[25:07] wynika? No właśnie wynika to z pewnych,

[25:10] byśmy powiedzieli,

[25:12] zależności, które po pierwsze

[25:14] empirycznie udało nam się obserwować, bo

[25:17] w świecie, który nas otacza, w świecie,

[25:20] w którym ingerencja ludzka

[25:24] jest niewielka, byśmy powiedzieli, albo

[25:26] była niewielka, zauważono, że szereg

[25:28] zjawisk przybiera określoną formę

[25:30] zdarzeń częstości, prawda? Czy określone

[25:34] zjawiska są częściej spotykane, niektóre

[25:37] rzadziej i jakbyśmy się przyjrzeli wielu

[25:40] zjawiskom o charakterze biologicznym,

[25:42] czy właśnie wcześniej mówiliśmy

[25:44] kulturowym, czy czy ze styku tych

[25:47] rzeczy, czy rzeczy związanych raczej

[25:50] właśnie z fizycznością, biologią

[25:53] w świecie w świecie przyrody również

[25:55] odnoszącym się nie tylko oczywiście do

[25:57] zwierząt czy do roślin, ale również

[25:58] odnoszącym się do ludzi. Oczywiście te

[26:00] zjawiska układają się w taki dość

[26:03] charakterystyczny

[26:05] sposób i gdyby się nad tym pochylić od

[26:10] strony analitycznej, co zresztą

[26:11] zrobiono, okaże się, że ma to

[26:15] pewien określony wzór. Czy można to co

[26:18] się dzieje czy zaobserwowano często

[26:20] obserwuje się w przyrodzie również ująć

[26:23] w pewne ramy

[26:25] matematyczne i znaleźć na to wzór. I

[26:27] taki rzeczywiście sposób opisu

[26:30] zaproponowano i wyznaczono krzywą

[26:33] referencyjną właśnie dzisiaj ją nazywamy

[26:36] rozkładem Gausa czy rozkładem normalnym.

[26:40] Jest to jeden z dowodów bardzo, bardzo

[26:43] ciekawych i i chyba mocnych na to, że

[26:45] świat nauki przenika się dość mocno ze

[26:49] światem przyrody, bo na bazie tego

[26:52] świata przyrody udało nam się coś w

[26:54] jakiejś formule opisać i potem okazuje

[26:56] się, że my to odwzorowujemy to, co mamy

[26:59] przychodzić do szeregu zjawisk, które

[27:01] jako ludzie sami potem tworzymy, czy

[27:04] właśnie z kwestii związanych na przykład

[27:07] z wydajnością pracy, czy w naszym życiu,

[27:13] powiedzmy w sporcie jest w statystykach

[27:16] sportowych też szereg zjawisk się w

[27:18] koszykówce na przykład rozkłada

[27:21] w według rozkładu normalnego w

[27:24] transporcie. okazuje się, aczkolwiek tak

[27:27] mówię, nie jest to

[27:29] jedyny rozkład, który jest przydatny

[27:31] ekonomistom, natomiast od niego

[27:32] zaczniemy analizę, żeby po prostu

[27:34] zrozumieć ideę, która tego typu analizą

[27:37] jak wnioskowanie

[27:39] statystyczne oparte na porównywaniu do

[27:42] pewnej matrycy, do odnoszenia się do

[27:43] matrycy, a tą matrycą będzie właśnie

[27:45] rozkład normalny w naszych przykładach

[27:49] występuje. I teraz, proszę państwa,

[27:51] mamy opisany rozkład normalny. Ja celowo

[27:54] unikam podawania wzoru. On się gdzieś

[27:57] tam mimochodem pojawi. Nie jest dla nas

[28:00] to potrzebne. Dla nas istotne jest to,

[28:02] że rozumiejąc czym jest rozkład

[28:05] normalny, my będziemy badali inne

[28:10] zjawiska. Zjawiska finansowe, zjawiska

[28:12] ekonomiczne, zjawiska z

[28:15] gdzieś tam pogranicza psychologii i

[28:18] ekonomii, czyli jakaś psychologia

[28:20] ekonomiczna albo ekonomia behawioralna.

[28:22] I my będziemy się zastanawiali, czy

[28:24] nasze zjawisko ma rozkład normalny.

[28:26] Będziemy to badali. To już pewnie

[28:27] państwo na ćwiczeniach zobaczyli. I

[28:29] jeżeli będzie rzeczywiście

[28:32] taka sytuacja, czyli będziemy mieli

[28:33] przesłankę, że ten rozkład nie odbiega

[28:35] od tego rozkładu normalnego, tego

[28:37] popularnego rozkładu właśnie różnych

[28:40] zjawisk, to my będziemy mogli to nasze

[28:42] zjawisko zbadać, odnosząc to do dobrze

[28:45] opisanego rozkładu normalnego, o którym

[28:47] będziemy wiedzieli za chwilę niemalże

[28:49] wszystko. No i proszę państwa, mamy

[28:53] rozkład normalny,

[28:56] czyli wykreśliliśmy

[28:58] sobie krzywą.

[29:01] Gdybyśmy przypomnieli sobie kwestię

[29:03] wzrostu, to będzie nam łatwo zrozumieć,

[29:07] o co w tym wszystkim chodzi. Ta krzywa

[29:10] tutaj

[29:11] pokazuje na osi. Tutaj mamy odniesione

[29:14] wartości. To są wartości poszczególnych

[29:19] poszczególne wartości zmiennej. Tak,

[29:20] jakbyśmy mieli wzrost, to mamy od

[29:22] najniższego najwyższego. Natomiast tutaj

[29:24] na osi pionowej pokazane jest bardzo

[29:28] prosto, ile mamy takich przypadków,

[29:31] czyli ile takich zjaw, ile takich osób o

[29:34] określonym wzroście występuje i im

[29:36] więcej, tym oczywiście wyżej ta krzywa

[29:39] występuje i znaczy tym ten punkt jest

[29:41] wyżej. i połączyliśmy te wszystkie

[29:43] punkty tak jak było w przypadku wzrostu

[29:45] i powstała taka krzywa. I teraz gdybyśmy

[29:47] sobie wyobrazili, że jest to rozkład

[29:49] wzrostu to m oznacza średnią i za chwilę

[29:51] do tego dojdziemy. Dla mężczyzn było to

[29:53] 181,5

[29:56] mniej więcej też średnio widzi się

[29:57] 181,5.

[30:00] No to

[30:01] osób, które mają 181, tak powiedzmy,

[30:06] raportowaliśmy czy 1880, tam są pewne

[30:08] niedokładności tego naszego pomiaru

[30:10] względem próby dominanty i średniej, ale

[30:12] powiedzmy niech to będzie 180 było

[30:14] najwięcej. Na przykład gdybyśmy

[30:17] spojrzeli na 185,

[30:21] tak? czy 186, czyli gdzieś tutaj to był

[30:24] to widzimy, że tych mężczyzn było już w

[30:26] naszej grupie

[30:29] zdecydowanie mniej, prawda? I tak dla

[30:32] każdego tego 1 centra, o który przesuwam

[30:35] byśmy podali określoną wartość. No i

[30:37] oczywiste jest to, że jest mniej panów,

[30:40] którzy mają 2 m niż tych, którzy mają

[30:42] 180 m. Bez specjalnych badań jesteśmy w

[30:45] stanie zaryzykować obcięcie głowy, że w

[30:47] populacji studentów tak jest. Oczywiście

[30:50] gdybyśmy wzięli populację koszykarzy

[30:52] NBA, no to prawdopodobnie moglibyśmy się

[30:54] pomylić, ale my nie bierzemy, nie badamy

[30:57] populacji NBA, graczy NBA, tylko

[30:59] bierzemy populację studentów. Tak samo

[31:02] jak nie bierzemy populację ani jokejów,

[31:05] ani marynarzy okrętów podwodnych, gdzie

[31:08] z kolei był ten wzrost pewnie

[31:10] przeciętny, dużo niższy niż czy 1880,

[31:16] czy ta dominanta byłaby nie na poziomie

[31:17] 180, tylko pewnie pewnie wcześniej. Więc

[31:21] widzimy, że rozkład, który tutaj państwo

[31:24] mają zaprezentowany, to jest nic innego

[31:27] jak pokazanie jak bardzo, jak często

[31:30] występuje określony,

[31:33] określona wartość zmienny. Tym samym

[31:35] gdybyśmy sobie wyobrazili taką próbę,

[31:39] tak, gdzie yyy mamy bardzo dokładnie

[31:42] zbadany wzrost mężczyzn na a yyy naszym

[31:47] wydziale i byśmy sobie wyobrazili, że

[31:49] tak samo jest w całej populacji na

[31:52] przykład wszystkich studentów na

[31:53] uniwersytecie, tak? jest tak samo, czyli

[31:56] to co my zbadaliśmy, to jest taki

[31:57] wycinek, ale idealnie tak korespondujący

[32:00] z całością, taki proporcjonalny, taki

[32:03] byśmy powiedzieli za chwilę yyy dobrze

[32:07] dobrany yyy byśmy powiedzieli

[32:10] reprezentatywny, ale dojdziemy do tego,

[32:12] wycinek tej całej rzeczywistości. No to

[32:14] siłą rzeczy państwo rozumieją, że

[32:16] gdybyśmy wybrali losowo tam powiedzmy

[32:20] jedną osobę, no to szansa, że akurat

[32:23] trafimy na kogoś,

[32:27] kto ma wzrost między 177 a 180 powiedzmy

[32:31] 3 jest dużo wyższa niż na kogoś, kto ma

[32:34] 189

[32:36] a 196, prawda? Bo w tych grupach ta

[32:41] pierwsza to jest gdzieś tutaj, prawda?

[32:44] Tutaj to byłby taki wycinek, a druga to

[32:46] byłby taki. Teraz samej matematyki

[32:49] pewnie państwo pamiętają, że te wartości

[32:53] skumulowanych prawdopodobieństw, czyli

[32:55] na przykład jakie jest

[32:56] prawdopodobieństwo, że wylosowana osoba

[32:59] ma nie więcej niż i tak dalej i tak

[33:02] dalej, tak wzrostu, to jest pole pod

[33:05] krzywą. Oczywiście, żeby wyliczyć te

[33:07] pola pod krzywą, za chwilę do tego

[33:10] dojdziemy w sposób bardziej analityczny.

[33:11] Posłuchujemy się rachunkiem.

[33:13] No możemy robić tam piechotkę, tak?

[33:15] możemy robić takie bardzo małe trapezy.

[33:17] Tak się w zasadzie na piechotkę robi i

[33:20] próbuje się liczyć pewne pola. No ale

[33:22] oczywiście po to wymyślono rachunek

[33:24] całkowy, żeby całki oznaczonej przy

[33:27] danym wzorze móc zakre zakreślając te

[33:31] przedziały całkowania wyliczyć

[33:34] pole powierzchni pod krzywą i dzięki

[33:36] temu określać te prawdopodobieństwa,

[33:39] które nas interesują. Ale oczywiście my

[33:40] tego nie będziemy robić, bo to już

[33:41] wielokrotnie zrobiono i widzimy, że

[33:44] policzono prawdopodobieństwa,

[33:46] które się gdzieś tutaj pojawiają. Ale

[33:48] żeby policzyć prawdopodobieństwa i

[33:51] odnieść te prawdopodobieństwa do naszego

[33:52] rozkładu, a będziemy posługiwać się

[33:55] wzrostem, to musimy jeszcze sobie

[33:56] wyjaśnić, czym są te małe oznaczenia. m

[34:00] powiedzieliśmy jest to średnia, a tutaj

[34:03] widzimy parametr, który nazywa się czy

[34:07] oznaczony jest sigma i dotyczy

[34:10] odchylenia standardowego.

[34:13] Mówiłem, że wrócimy w naszej analizie do

[34:18] odchylenia standardowego i to jest ten

[34:19] moment. I zobaczmy, średnia nasza

[34:23] wynosiła mniej więcej 181,5

[34:25] i odchylenie standardowe wynosi 5,5. Co

[34:29] to jest odchylenie standardowe? To jest

[34:30] wartość o ile przeciętnie

[34:33] wartości odchylać się będą odchylają się

[34:36] od średniej. Czyli tu mamy punkt wyjścia

[34:40] średnia 181,5 odchylenie standardowy

[34:43] mniej więcej 5,5.

[34:45] No i proszę państwa wracamy do naszego

[34:48] rozkładu. Więc tu mamy średnią, którą

[34:51] wyliczyliśmy 181,5.

[34:53] Średnia plus odchylenie to jest 187.

[34:57] Dlaczego? Bo 181,5 i 5,5 to daje około

[35:01] 187, czyli to jest przedział między

[35:04] 181,5

[35:06] i 187,

[35:08] czyli od średniej do wartości średniej

[35:10] plus odchylenie standardowe. I według

[35:14] założenia, że nasz rozkład jest

[35:17] rozkładem normalnym, 34%

[35:21] wszystkich badanych mężczyzn powinno

[35:24] mieć właśnie tak ten wzrost, czyli

[35:26] wzrost między od średniej do średniej

[35:28] plus odchylenie to jest 34

[35:31] ponad procent, czyli ponad 1/3 populacji

[35:34] mieści się w tym przedziemie. A gdybyśmy

[35:36] jeszcze poszli w drugą stronę, czyli od

[35:38] 181,5

[35:40] w drugą stronę, czyli od 177

[35:43] tak naprawdę, tak? Do 18 czy 81,5, tak?

[35:49] To mamy yyy 66, przepraszam, to mamy

[35:53] kolejne 34. A jakbyśmy się chcieli

[35:57] powiedzieć o otoczeniu

[36:00] plus minus jedno odchylenie od średniej,

[36:05] to mamy ponad 2/3, czyli ponad 68%

[36:10] populacji, czyli bardzo dużo. Czyli

[36:12] zobaczmy yyy zdecydowana większość

[36:15] populacji

[36:17] jeśli chodzi o wzrost mężczyzn na

[36:19] podstawie yyy wiary w to, że jest to

[36:21] rozkład normalny, oscyluje w tym

[36:24] przedziale jednego odchylenia

[36:26] standardowego. Oczywiście każde następne

[36:29] odchylenie

[36:31] powoduje, że te zgodnie z kształtem

[36:34] można to wywnioskować, te wartości tego

[36:37] pola są niższe. To jest oczywiste i

[36:40] właściwie już osoby, które tutaj po

[36:45] odchylają jeśli chodzi o wzrost o więcej

[36:48] niż trzy odchylenia standardowe, czyli

[36:50] tam ponad 16 cm, tak od tej naszej

[36:53] średnie, czyli mają powyżej 1998

[36:56] de facto, no są bardzo, bardzo

[36:58] nielicznie reprezentowane. Tak, w

[37:00] całości oczywiście populacji studentów.

[37:03] Jak powiedziałem, gdybyśmy się bawili w

[37:04] badania MBA, no to wiadomo, że ten

[37:06] wykres byłby nieco inny, ale nie jest to

[37:08] próba reprezentatywna, jeśli chodzi o

[37:10] wzrost zdecydowanie. Natomiast w

[37:12] przypadku studentów byśmy mogli

[37:14] powiedzieć, że tak, że taka próba może

[37:17] być pewnym przybliżeniem wzrostu,

[37:20] dlatego że wzrost nie jest kategorią,

[37:22] która ma istotne znaczenie przy podjęciu

[37:24] studiów, przy podjęciu gry w MBA, tak,

[37:27] domyślamy się, że jest to parametr dość

[37:30] ważny. Natomiast w przypadku

[37:32] studiowania, przynajmniej na

[37:35] uniwersytecie

[37:37] takim jak nasz, raczej wzrost nie jest

[37:40] najważniejszy. Oczywiście gdyby to był

[37:42] AWF, to pewnie tak. Gdyby to była

[37:44] Akademia Marynarki Wojennej pewnie też,

[37:47] bo tam akurat w drugą stronę, ale na

[37:50] uniwersytecie klasycznym wzrost nie jest

[37:52] kategorią, która ma jakiekolwiek

[37:55] znaczenie, jakieś ważniejsze znaczenie.

[37:57] No i teraz proszę państwa dwa

[38:00] takie

[38:02] krótkie spostrzeżenia na temat

[38:05] parametrów, a mianowicie te dwa

[38:08] parametry, które nam opisują rozkład

[38:10] normalny, to wartość oczekiwana, ale my

[38:12] częściej będziemy się posługiwali nazwą

[38:14] średnia. To jest to samo oczywiście

[38:16] matematycznie częściej matematycy

[38:18] używają wartość oczekiwania tego

[38:19] związane z z rachunkiem

[38:21] prawdopodobieństwa. Natomiast my

[38:22] częściej mówimy na w takim codziennym po

[38:26] prostu

[38:28] rozumowaniu w codziennym życiu, że wam

[38:30] po prostu wartość średnia i i i myślę,

[38:32] że nie będziemy specjalnie robili

[38:34] takiego upgradeu lingwistycznego,

[38:37] żeby być w spójności z notacją

[38:40] matematyczną i pozostaniemy przy tej

[38:42] średniej, bo wartościach przeciętnych.

[38:45] I my sobie to oznaczyliśmy. Najczęściej

[38:47] oznaczamy właśnie małe m i mamy drugi

[38:49] parametr, który nam się pojawia, czyli

[38:51] odchylenie standardowe, czyli informacja

[38:53] o ile przeciętnie od tej średniej to

[38:56] będą się odchylać nasze obserwacje,

[39:00] czyli odchylenie standardowe będzie

[39:03] pokazywało nam jak jak jaka jest

[39:06] dyspersja, jak jest to właściwie jak ten

[39:09] rozkład jest wokół średniej mocno bądź

[39:14] mniej

[39:16] skondensowany. Gdybyśmy sobie

[39:19] chcąc zwizualizować króciutko

[39:23] sprawę średniej odchylenia, podali

[39:25] przykład bardzo prosty. Może on nie jest

[39:28] statystycznie poprawny, bo jest trochę

[39:30] mało mało

[39:33] wartości branych pod uwagę, ale mamy

[39:36] trzy oceny, które student, studentka

[39:38] otrzymuje z polskiego, z matematyki.

[39:40] Uczennica bardziej polski, matematyka i

[39:42] WF, prawda? z polskiego tróje, z matmy

[39:46] ctery i z WFu 5. No to liczymy średnią z

[39:49] tych trzech ocen. Oczywiście w

[39:51] codziennym życiu byśmy nie liczyli

[39:52] średni z trzech wartości, tak? To to

[39:54] jest tak z tym psem, którym idziemy na

[39:55] spacer, tak? Idę z psem na spacer i mamy

[39:57] średnio trzy nogi. Ha haa. Nie, nie ma

[39:59] sensu liczyć średnich i trudnych sobie

[40:02] życia dla zbiorów dwuelementowych.

[40:04] Wystarczy powiedzieć: "Ja mam dwie nogi,

[40:05] a pies, o ile jest takim standardowym

[40:09] psem, ma cztery." No i po co liczyć

[40:11] średnią i i i robić się pajaca? mówiąc,

[40:13] że średnio mamy po trzy nogi. Statystyka

[40:15] to jest taka głupia, nie? My jesteśmy

[40:17] nie do końca przygotowani mentalnie na

[40:19] jej odbiór, więc jakby również tutaj nie

[40:21] powinniśmy liczyć średnio, jak mamy

[40:23] tylko trzy przedmioty. No bo specjalnie

[40:25] dużo czasu nam nie zabiera. Raportowanie

[40:27] całości informacji polski 3, ma 4 i WF5.

[40:30] No ile to zabiera czasu? Na pewno mniej

[40:33] niż liczenie 3 + 4 7 + 5 12/ 3 4. Aha,

[40:38] to średnia będzie 4, prawda? No jest de

[40:41] facto średnia ctery, ale powiedzmy, że

[40:42] się w tym lubujemy. Mamy średnio ctery i

[40:44] mamy, proszę państwa

[40:46] trzy inne przedmioty dla innej osoby. Ta

[40:50] inna osoba ma również średnią cztery,

[40:51] ale ma z polskiego cztery, z matematyki

[40:53] ctery i z WFU cter. I mamy dwie osoby,

[40:55] które mają tę samą średnią, prawda? Ale

[40:57] już zupełnie inaczej wygląda odchylenie.

[41:00] W tym drugim przypadku w ogóle się nie

[41:01] odchylają od średniej, czyli każda

[41:03] wartość jest równa średniej. Tak? Czyli

[41:05] mamy trzy czwórki, co daje też

[41:07] przeciętnie czwórkę, a w drugim już mamy

[41:09] odchylenie.

[41:11] Pierwsza wartość języka polskiego

[41:13] odchyla się o jeden w lewo, bo ma trzy,

[41:15] tak? Od średniej cztery. Druga wartość

[41:18] matematyki nie odchyla się o nic. Jest

[41:20] taka sama jak średnia, tak? A trzecia

[41:22] wartość jest wartością plus 1, czyli z

[41:26] WF jest piątka, czyli jest o jeden

[41:27] więcej niż średnia. Czyli widzimy, że

[41:29] mamy to odchylenie standardowe na pewno

[41:33] jakieś, tak? Bo już coś odchyla się od

[41:37] średnie. No ile? No to byśmy musieli

[41:38] policzyć, że przeciętnie się ta wartość

[41:43] odchyla o 2/3. No bo mamy 1, tak? Z0 i

[41:47] 1, czyli mamy dwa wartość bezwzględna,

[41:50] tak? tych odchyleń 2 na 3 obserwacje,

[41:53] więc 2/3 przeciętnie będzie wynosić

[41:55] właśnie to odkryenie standardowe. Więc

[41:57] widzimy, że mimo to, że jest ta sama

[42:00] średnia, to jest różna koncentracja

[42:02] wokół średniej. Ten pierwszy przypadek

[42:04] 345 jest od wokół średniej jest nieco

[42:09] rozszerzone wartości są. Ten drugi jest

[42:11] absolutnie

[42:13] skondensowany wokół średniej. Oczywiście

[42:15] to są skrajne przykłady.

[42:17] rzeczywistości mniej lub bardziej te

[42:19] wartości będą do średniej się zbliżały.

[42:23] No i proszę państwa, to co nas tutaj

[42:27] będzie interesowało to to, że jak

[42:31] powiedzieliśmy rozkład normalny, rozkład

[42:34] Gausa jest rozkładem, który będzie dla

[42:38] nas rozkładem referencyjnym. I w związku

[42:42] z tym, że my bardzo dokładnie poznamy

[42:45] jego

[42:47] właściwości,

[42:48] będziemy umieli dzięki temu

[42:52] porównywać różne zjawiska, które

[42:55] będziemy badali, czy z transportu, czy z

[42:58] psychologii ekonomicznej, czy z

[43:01] efektywności

[43:03] produkcji. Dzięki temu będziemy mogli

[43:05] porównywać do jakiegoś właśnie wzorca,

[43:09] do rozkładu normalnego i wyciągać

[43:10] wnioski. No ale żeby tak móc zrobić, to

[43:12] trzeba najpierw poznać dość y yyy yyy

[43:16] dobrze właściwości rozkładu normalnego.

[43:19] Pierwsza sprawa, o której wspominaliśmy,

[43:21] to tak, że rozkład jest symetryczny

[43:25] względem oczywiście osi pionowej, którą

[43:28] prowadzimy przez wartość średni. Tutaj

[43:31] widzimy, że to jest jakby lustrzane

[43:33] odbicie. Albo gdybyśmy tutaj zdjęli

[43:36] kartkę tak narysowalną, to nam się to,

[43:38] co z prawej i z lewej pokryje.

[43:40] W idealnym rozkładzie normalnym średnia

[43:43] jest równa medianie i dominancie,

[43:45] prawda? Więc tak to wygląda. Czyli

[43:49] wartość występująca najczęściej to jest

[43:51] zarazem wartość średniej i również

[43:54] wartości środkowej.

[43:57] Bardzo ważna,

[43:59] bardzo ważna.

[44:01] cecha

[44:03] to od razu państwo pamiętają takie

[44:05] bardzo

[44:09] nośne medialnie

[44:11] dyskusje na temat wartości przeciętnego

[44:15] wynagrodzenia

[44:17] zawsze w Polsce że przeciętne

[44:19] wynagrodzenie wynosi tam na przykład

[44:21] teraz już 9 chyba s 9 700 nie wiem w

[44:24] Gdańsku czy czy czy coś koło tego. No i

[44:27] potem się zastanawiamy, no tak, ale jak

[44:29] przecież kto tam taką średnią zarabia i

[44:31] tak dalej. Dlatego, że rozkład

[44:32] wynagrodzeń wcale nie jest rozkładem

[44:34] normalnym. On jest dość mocno

[44:35] asymetryczny. On jest skośny. Dużo

[44:37] więcej ludzi ma niższe wynagrodzenie i

[44:40] ta mediana wynagrodzeń, czyli wartość

[44:42] środkowa jest na niższym poziomie niż

[44:44] wartość średnia. Także stąd

[44:49] rozkład wynagrodzeń przynajmniej w

[44:51] Polsce nie jest nie jest rozkładem nie

[44:53] jest rozkładem normalnym. jest jest skoś

[44:56] dalej z naszych analiz to co mówiliśmy

[45:00] również wcześniej i pokazywaliśmy ponad

[45:04] 68% wyników te czyli te 3413

[45:08] i 34 13 tak dodajemy te dwa pola pod

[45:12] krzywą plus minus

[45:15] odchylenie standardowe od średniej 68%

[45:18] wyników leży właśnie w odległości co

[45:21] najwyżej jednego odchylenia od średniej

[45:24] w lewo

[45:25] i prawo. I dalej jakbyśmy dwa odchylenia

[45:28] wzięli pod uwagę to już 95%

[45:31] wyników znajduje się w odległości

[45:33] właśnie co najwyżej dwóch odchyleń od

[45:35] średnie. I jakbyśmy teraz chcieli

[45:37] odwrotne rozumowanie przeprowadzić, to

[45:39] bardzo niewielkie prawdopodobieństwo

[45:42] jest albo bardzo niewiele jest

[45:44] przypadków,

[45:46] które

[45:47] znajdują się w odległości w większej niż

[45:51] dwa odchylenia, tak? Czyli są większe

[45:53] niż średnia plus 2 odchylenia bądź

[45:55] mniejsze niż średnia -2 odchylenia. Więc

[45:59] bardzo takie yyy przypadki są rzadkie.

[46:05] No a już trzy odchylenia to już widzimy,

[46:07] że jest to absolutnie bardzo bardzo

[46:09] nikły procent całości. Wróćmy do tego

[46:12] wzrostu. Czyli pamiętamy trzy odchylenia

[46:15] dla mężczyzn dla wzrostu to było 3 x

[46:17] 5,5, czyli 16,5 mniej więcej. Średnia to

[46:20] była 181,5, więc mamy 98 mniej więcej.

[46:25] Tak, jeśli chodzi o wzrost, no to

[46:29] zobaczmy jak bardzo niewielka część

[46:32] populacji, przyjmując rozkład normalny z

[46:34] wzrostu na bazie tych naszych danych ma

[46:37] ten wzrost, czyli 98 i więcej. Jest to

[46:41] no rzadziej niż jeden stona na pewny.

[46:45] Dobrze. Proszę państwa, oczywiście tak

[46:47] jak powiedziałem w

[46:51] statystyce pamiętamy, że statystyka

[46:53] najczęściej rozwiązuje problemy, które

[46:56] pojawiają się właśnie w dużych zbiorach

[46:59] i często pojawiają się te zbiory wskutek

[47:02] obserwacji empirycznych, tak? Czyli

[47:06] badamy tak jak wygląda życie, zbieramy

[47:07] dane z życia i potem próbujemy z tego

[47:09] wyciągnąć jakiś materiał, żeby go łatwo

[47:12] przyswoić. Po to jest statystyka.

[47:14] Jeszcze do paru innych rzeczy to przy

[47:15] okazji też powiemy. Również występują

[47:18] inne rozkłady. No nie tylko rozkład

[47:19] normalny. On jest dość popularny, tak

[47:21] powiedziałem, ale występują również inne

[47:23] rozkłady i zmienne,

[47:26] które opisują nam inne zjawiska. Często

[47:29] właśnie mają postać inną niż rozkład

[47:32] normalny.

[47:33] podaję tutaj rozkład test studenta.

[47:37] To jest rozkład, który jest dość

[47:39] zbliżony do rozkładu normalnego, jeśli

[47:41] chodzi o jego kształt. Jest również

[47:45] symetryczny. I to co ciekawe w przypadku

[47:48] bardzo czy dużych prób może o rozkład

[47:51] też studenta bardzo mocno

[47:54] zbiega do rozkładu normalnego, więc my

[47:57] de facto na naszych zajęciach będziemy w

[47:59] pakietach statystycznych wykorzystywali

[48:02] rozkład test studenta jako po prostu

[48:05] punkt odniesienia, który jest wygodnym

[48:07] narzędziem. On ma trochę inne ten

[48:09] rozkład te studenta

[48:12] parametry. Tam dochodzi jeszcze liczba

[48:14] obserwacji, która ma znaczenie przy

[48:15] wnioskowaniu, ale ponieważ my będziemy i

[48:17] państwo na pakietach statystycznych,

[48:20] więc te rzeczy są raportowane na

[48:21] bieżąco, nie trzeba po prostu niczego w

[48:23] tablicach sprawdzać, więc nie będziemy

[48:24] tego specjalnie w tym momencie dodatkowo

[48:26] analizować. Inny rozkład to rozkład C

[48:29] kwadrat, który też gdzieś nam przemknie

[48:32] na zajęciach w jednym momencie, ale

[48:34] również będziemy tylko odczytywać,

[48:36] będziemy się zajmowali

[48:39] jego jego analizą. I to co jest istotne,

[48:41] proszę państwa, to to, że my będziemy

[48:44] w naszym na naszym kursie, tak

[48:46] powiedziałem, skupiać się na rozkładzie

[48:48] normalnym i będziemy musieli na początku

[48:52] zweryfikować, czy zjawisko, które

[48:54] badamy,

[48:56] ma przesłanki do tego, żeby w ogóle

[48:59] układało nam się w postać rozkładu

[49:00] normalnego. Jeżeli tak będzie, czy

[49:02] będziemy mieli

[49:04] mało argumentów, że tak nie jest, tak

[49:06] bym to nazwał, no to wtedy będziemy

[49:08] dopiero mogli liczyć. Jeżeli się okaże

[49:10] na zadaniu,

[49:12] czasami na zadaniach tak dajemy, że

[49:16] badana

[49:18] kwestia

[49:20] czy badane zjawisko nie ma rozkładu

[49:23] normalnego i będziemy mogli znaleźć

[49:25] dowody, że rozkład odbiega od rozkładu

[49:26] normalnego. Przy okazji wiecie państwo,

[49:29] że raczej nie mówimy, że rozkład jest

[49:30] nienormalny, tylko raczej odbiega do

[49:32] rozkładu normalnego. Zostawmy, że ktoś

[49:35] jest nienormalny dla innych grup,

[49:37] nazwijmy to. I jak będą państwo chcieli

[49:39] powiedzieć eufemistycznie coś, to też

[49:41] mogą państwo, że dana postać odbiega od

[49:45] normalności. Jest to zawsze ładniej i

[49:47] lepiej i bardziej miękko niż na twardo

[49:50] ktoś jest nienormalny. To nieładne. Tak,

[49:52] my zarezerwujemy

[49:54] y to dla tych, którzy rzeczywiście

[49:56] zapracowali na to. Więc wracając, jeżeli

[49:59] będzie rozkład nam odbiegał od rozkładu

[50:01] normalnego, no to wtedy my nie będziemy

[50:03] liczyli na zajęciach już, bo państwa

[50:05] odpowiedź będzie bardzo prosta. Halo,

[50:07] halo. Y, nie mamy tutaj przesłanych do

[50:10] rozkładu normalnego. Nie umiem i

[50:12] dziękuję. Wystarczy. I to będzie

[50:15] traktowany jako dobra odpowiedź. A to

[50:18] nie oznacza oczywiście, że statystycy

[50:19] nie umieją. Umieją, nie ma problemu.

[50:21] Natomiast my nie pokazujemy specjalnie,

[50:24] żeby państwa nie

[50:26] nie gmachmać w tak krótkim kursie.

[50:28] Natomiast błędem oczywiście będzie to,

[50:31] kiedy okaże się, że ta rozkład ten ta

[50:34] postać rozkładu normalnego odbiega,

[50:37] znaczy postać rozkładu odbiega od

[50:38] rozkładu normalnego, a państwo dalej

[50:40] liczą, prawda? Tak jakby się nic nie

[50:41] stało. No nie, to tak nie będzie.

[50:45] Dobrze. Okej. Więc proszę państwa, teraz

[50:47] przechodzimy trochę do tego, co jest

[50:49] ideą naszego

[50:51] wnioskowania,

[50:54] a mianowicie te wszystkie rzeczy, które

[50:57] państwo na ćwiczeniach robią, będą

[50:58] robić, to one mają pewien

[51:03] pewien schemat i my dzisiaj będziemy

[51:04] mówili absolutnie o tym schemacie, bo

[51:06] będziemy mówili o statystykach, o

[51:09] testach i o weryfikacji. Natomiast

[51:11] żebyśmy mieli jasność po co my to

[51:13] wszystko robimy. Rozumiem po to, żeby

[51:17] uprościć sobie życia. Może to brzmi

[51:19] trochę dziwnie, że skomplikowane sprawy

[51:21] stosujemy, żeby uprościć sobie życie,

[51:23] ale przede wszystkim uprościć sobie

[51:24] życie finansowo i czasowo. Dlaczego?

[51:26] dlatego, że bardzo trudno albo drogo

[51:30] wychodzi posiadanie pełnych informacji,

[51:32] posiadanie informacji o

[51:35] wszystkich

[51:37] osobach, które wchodzą w skład jakiejś

[51:40] grupy, albo o preferencjach wszystkich

[51:43] konsumentów, albo o preferencjach

[51:45] wszystkich wyborców, albo o wynikach

[51:49] wszystkich przedsiębiorstw. to z reguły

[51:52] dla ekonomisty jest dość kłopotne, ale

[51:54] jeżeli przyjmiemy sobie, że yyy mamy

[51:58] pewien wycinek yyy yyy stosunkowo liczny

[52:03] yyy z tej grupy, która nas interesuje,

[52:06] jeżeli przyjmiemy sobie, że ten wycinek

[52:08] to jest taka skala mikro tego co jest,

[52:10] czyli jakby a wzięliśmy 10% całości, ale

[52:15] te 10% dokładnie jest pomniejszonym

[52:20] obrazkiem tej całości, czyli ma

[52:23] zachowaną strukturę, no to jeżeli uda

[52:25] nam się bardzo dobrze zbadać pewien

[52:27] wycinek, czyli próbę, to być może będzie

[52:31] nam się również powiedzie nam się w tym,

[52:35] żeby rozciągnąć wnioski, które z badania

[52:38] bardzo dokładnego tego wycinka, no a

[52:40] łatwiej zbadać wycinek niż całość, to

[52:42] jest oczywiste,

[52:44] to może te wnioski z tego badania tego

[52:46] wycinku będziemy wycinka będziemy mogli

[52:48] i rozszerzyć na całość populacji, z

[52:52] którego ten kawałek wycinka chodzi. To

[52:54] tak jakbyście chcieli zbadać jak wygląda

[52:57] smak tortu, prawda? jak wygląda, jak

[52:59] jest zbudowany, z jakich rzeczy. No to

[53:02] oczywiście dokładnie byście musieli

[53:03] zjeść cały tort albo przebadać cały tort

[53:05] i powiedzieć tyle było cukru, tyle było

[53:08] tego, tyle było tego. No ale tak nie

[53:10] robimy. Bierzemy od kawałeczek torta, bo

[53:12] zakładamy, że każdy kawałek, który

[53:15] weźmiemy będzie miał określoną strukturę

[53:17] taką samą jak reszta tego tortu. I

[53:20] wystarczy, że zbadamy jeden kawałek,

[53:22] prawda, tortu. Tak samo jak badacie

[53:25] załóżmy zawartość

[53:27] określonej fauny i flory w basenie,

[53:29] prawda? No to przecież nie badacie czy

[53:31] nie bada sanepit całego basenu, tylko

[53:34] bierze pewną próbkę, bo zakłada, że

[53:36] dokładnie ta próbka jest częścią, ten

[53:39] skład próbki jest dokładnie taki sam,

[53:40] jeśli chodzi o proporcje jak w reszcie

[53:43] rozmieszanej wody w basenie, prawda?

[53:47] Tu mamy podobną oczywiście

[53:49] mechanikę pracy. Oczywiście musimy

[53:51] zaułożyć, że to co my badamy będzie

[53:53] miało rozkład normalny po to, żebyśmy

[53:55] mogli w ogóle móc stosować nasze

[53:58] punkty po kolei naszej procedury, bo my

[54:01] się odnosimy do rozkładu normalnego. I

[54:03] teraz to, co my, proszę państwa, robimy

[54:05] tu, to jest wnioskowanie na bazie próby

[54:09] o tym, co jest w całości populacji bez

[54:12] znajomości tejże populacji. bardzo

[54:15] dokładnie. Znamy tylko próbę. Próbę

[54:18] znamy bardzo dokładnie, a populację

[54:21] znamy tylko co do rozkładu. Wiemy, że

[54:23] jest rozkład normalny i tyle. Dlaczego

[54:26] to jest ważne? Dlatego, że dzięki temu

[54:28] możemy

[54:30] oszczędzić pieniądze i czas. To jest

[54:31] jasne. Oczywiście liczymy się z tym, że

[54:34] możemy się pomylić. Może być błąd. Ktoś

[54:36] pobierze złą próbkę z basenu, bo wziął

[54:38] na przykład z powierzchni. Okazuje się,

[54:40] że akurat tak to wygląda, że na

[54:42] powierzchni nie powinien brać, bo tam

[54:43] się co innego rozkłada niż wreszcie

[54:47] wody. No błąd, prawda? Błąd przy

[54:48] pobraniu próby. Tak samo my możemy

[54:50] zrobić błąd przy pobraniu próby. Tak

[54:52] rzeczy się zdarzają. My musimy wpisać

[54:55] sobie takie postępowanie gdzieś w nasz

[54:57] proces i być świadomym, że jak badamy

[54:59] wycinek, to ten wycinek może z jakichś

[55:02] różnych przypadków i powodów

[55:05] niekoniecznie zawsze odpowiadać i możemy

[55:07] się po prostu w całości możemy się po

[55:09] prostu w naszych badaniach pomylić.

[55:12] Natomiast będziemy starali się dążyć do

[55:15] tego, żeby nasza próba jednak miała

[55:16] charakter reprezentatywny,

[55:19] czyli żeby struktura tego, co bierzemy

[55:22] jako próbę, struktura, czyli skład,

[55:25] proporcje i tak dalej, odpowiadała jak

[55:28] najbardziej temu, co jest w całości

[55:29] populacji. Czyli żeby nasza próba była

[55:33] pewnym obrazem pomniejszonym, pewnym

[55:37] wycinkiem tego, co jest w całości

[55:38] populacji. No i tu się pojawia szereg

[55:40] błędów, które studenci na poziomie

[55:43] swoich

[55:45] prac, które piszą czy licencjatu, czy

[55:47] prac magisterskich bardzo często robią.

[55:49] Dobra, zrobię ankietę

[55:52] yyy na temat tego, jak studenci

[55:55] yyy jak studenci a

[56:00] dysponują budżetem

[56:03] na oszczędności, czyli albo inaczej jak

[56:05] wygląda budżet na oszczędności wśród

[56:07] studentów, studiów niestacjonarnych.

[56:09] Tak.

[56:10] i zapytam, czy tam miesięcznie

[56:13] oszczędzasz tyle, czy w ogóle nie

[56:15] oszczędzasz, czy

[56:17] masz akumulowane oszczędności, czy nie

[56:20] masz. No zapytamy studentów o kwestie

[56:24] oszczędności. Studentów studacjonarnych.

[56:25] Studenci studjonarnych raczej z tym mają

[56:29] większy problem, ale państwo częściej

[56:30] pracują już od dłuższego czasu, więc

[56:33] oszczędności jest to parametr, który no

[56:35] można badać. No ale mamy tych studentów,

[56:38] studów niestacjonarnych powiedzmy 1000

[56:40] na wydziale, a ktoś mówi: "Dobra, to

[56:43] rzucę ankietę". No i się okazuje, że

[56:45] ankietę wypełniło 30 osób akurat z

[56:47] piątego roku, prawda? I my na podstawie

[56:49] tego próbujemy uogólnić, no nie? Bo

[56:51] zupełnie inaczej wygląda

[56:54] student piątego roku, bo to wypełnili

[56:56] moi znajomi, tak? Poprosiłem, tak

[56:58] puściłem na seminarium na na roku, żeby

[57:01] ktoś mi tam wypełnił, tak? potrzebuję. A

[57:03] zupełnie inaczej wygląda oczywiście czy

[57:05] wyglądałaby sytuacja jeśli chodzi o

[57:07] oszczędności wśród studentów

[57:08] pierwszorocznych na licencjacie, prawda?

[57:10] No ale ja wziąłem, zbadałem, dostałem 30

[57:13] 40 odpowiedzi i na podstawie tego

[57:14] uogólniam, że wśród studentów

[57:16] uniwersytetu, wydziału ekonomicznego,

[57:19] tak wygląda to tak i tak dalej. No, no

[57:21] nie, bo ta nasza próba jest

[57:23] niereprezentatywna ewidentnie, prawda?

[57:25] Więc przestrzegam. Pytanie, czy to się

[57:28] mieści w dobrym badaniu, czy złym z

[57:30] punktu widzenia metody i i i punktu

[57:33] widzenia merytorycznego, z punktu

[57:34] widzenia wyników badań. No to to nie, bo

[57:37] na podstawie takiej próby nie udowodnimy

[57:39] jak jest w populacji studentów zaocznych

[57:42] na wydziale. Natomiast często promotorzy

[57:44] mówią: "No dobrze, no próba nie jest

[57:46] doskonała, ale nie tylko chodzi o wynik,

[57:49] tak, ale chodzi o to, żeby pokazać, że

[57:51] umiem coś przeprowadzić. Następnym razem

[57:53] ktoś po prostu dobierze w sposób

[57:55] właściwy próbę i już te wyniki będą

[57:57] mogły być odpowiednio inaczej

[57:58] interpretowane. Czasami promotorzy

[58:01] przymykają oko na tak dobrane próby, nie

[58:03] dlatego, że tam się dają złapać i tak

[58:05] dalej, tylko dlatego, że praca

[58:07] magisterska czy praca licencjacka bardzo

[58:09] często oprócz aspektów, że mają coś

[58:11] wnieść do świata, często niewiele

[58:13] wnoszą, jeśli chodzi o meritum, umówmy

[58:15] się, niewielu, niewiele tam się w tych

[58:17] pracach odkrywa,

[58:20] ale mają również funkcję przećwiczenia i

[58:24] sprawdzenia, że ktoś określonej metody

[58:27] używa w sposób

[58:30] właściwy, tak? Może nie perfekcyjny, ale

[58:33] właściwy. I dlatego czasami przymykamy

[58:35] oko, nawet jeśli ta próba nie jest do

[58:36] końca właściwie

[58:39] dobrana.

[58:42] Dalej, proszę państwa, jak zapewnić tę

[58:45] reprezentatywność? Oczywiście my nie

[58:47] będziemy teraz poświęcali specjalnie

[58:48] dużo czasu na to, bo powiem państwu

[58:51] szczerze, że mamy to szczęście, że jest

[58:54] pan profesor Szreder z wydziału

[58:55] zarządzania, który jest jednym z

[58:59] najlepszych specjalistów, ekspertów w

[59:01] Polsce i mówię to z pełnym przekonaniem

[59:04] właśnie jeśli chodzi o dobor,

[59:07] kwestię doboru próby i mnóstwo rzeczy

[59:10] pokazał jak to robić, żeby te próby były

[59:12] właściwie dobrane w różnych sytuacjach.

[59:14] badamy opinię publiczną odnośnie do

[59:17] wyborów, czy odnośnie do preferencji

[59:19] konsumenckich i tak dalej. No bo dobór

[59:22] właściwe próby to w zasadzie jest połowa

[59:24] sukcesu już jeśli chodzi o wyniki o

[59:26] wyniki

[59:28] na końcu. Więc

[59:31] to my tylko zasygnalizujemy, że ta

[59:35] reprezentatywność oczywiście przyjmując,

[59:37] że mamy

[59:41] grupę jak jakieś populacji, gdzie mamy

[59:44] określony rozkład, gdybyśmy losowali tak

[59:47] z tego, z tej populacji, to powinniśmy

[59:49] uzyskać zachód prawdopodobach wynika

[59:53] próbę reprezentatywną i tak czasami

[59:55] robimy. Jak mamy grupę na przykład kilku

[59:58] tysięcy przedsiębiorstw, którą chcemy

[59:59] ankietować, wiemy, że jest to bardzo

[01:00:01] dużo i nie będziemy ankietować

[01:00:04] wszystkich albo przeprowadzać wywiadów

[01:00:06] pogłębionych co więcej, to wybieramy

[01:00:09] pewną grupę. No i bardzo często po

[01:00:11] prostu losujemy, wierząc w to, że ten

[01:00:14] los zapewni nam właśnie rozkład

[01:00:17] reprezentatywny czy reprezentatywność,

[01:00:19] dlatego że z odpowiednim

[01:00:22] prawdopodobieństwem określone są

[01:00:24] przedsiębiorstwa mniejsze, większe

[01:00:27] tutaj

[01:00:28] dobierane i najczęściej w naszym

[01:00:30] przypadku absolutnie to wystarcza. W

[01:00:32] bardziej pogłębionych badaniach już się

[01:00:34] robi pewne a priori założenia. na

[01:00:37] przykład dobiera, już się dzieli

[01:00:38] wcześniej populację na pewne segmenty

[01:00:41] pod względem rzeczy, które mogą mieć

[01:00:42] znaczenie, żeby łatwiej dobrać. Y,

[01:00:45] głównie jeśli chodzi o badania

[01:00:47] konsumentów, to jest to, jak państwo

[01:00:50] wiedzą, y, kwestia y kwartyli

[01:00:54] dochodowych y albo nawet decyli

[01:00:56] dochodowych, kwestia zamieszkania, bo

[01:00:58] wybory konsumenckie to nie tylko dochód,

[01:01:00] ale też jakby sposób życia. My wiemy, że

[01:01:03] wydatki na konsumpcję zależą od wielu,

[01:01:05] wielu czynników. oprócz oczywiście od

[01:01:07] tego ile mamy pieniędzy czy od dochodu

[01:01:09] to jest jakby najważniejsza sprawa

[01:01:11] najważniejsze termina to również od tego

[01:01:13] kim jesteśmy z punktu widzenia

[01:01:15] oczywiście

[01:01:16] z punktu widzenia oczywiście naszej

[01:01:19] grupy społecznej z którą się

[01:01:21] identyfikujemy i to też ci, którzy się

[01:01:23] zajmują doborem biorą pod uwagę. No i

[01:01:27] proszę państwa, przechodzimy powolutku

[01:01:28] do kwestii związanych z procedurą, czyli

[01:01:33] my będziemy chcieli nasze

[01:01:36] zmagania

[01:01:39] opisać w formie, zresztą też na

[01:01:41] ćwiczeniach pewnie państwo zauważyli w

[01:01:42] formie takiej instrukcji punkt po

[01:01:45] punktu, czyli co robię po kolei, żeby na

[01:01:48] końcu wyszło dobrze. Takie

[01:01:52] podejście jest bliskie właśnie podejściu

[01:01:55] proceduralnemu, czyli po to mamy

[01:01:58] poszczególne

[01:02:00] elementy naszej listy, żeby je po kolei

[01:02:02] odhaczać i w zależności od tego,

[01:02:05] co uzyskujemy w poszczególnym momencie

[01:02:08] tej naszej procedury, przechodzimy do

[01:02:10] kolejnego etapu. To jest taki algorytm,

[01:02:13] który pozwala nam od a do z uzyskać

[01:02:16] określone

[01:02:18] wyniki i określoną pozyskać określoną

[01:02:21] wiedzę na końcu. No i to co my będziemy

[01:02:25] próbowali zrobić to tak naprawdę

[01:02:27] będziemy chcieli się odnieść do

[01:02:30] postawionej naszej hipotezy badawczej.

[01:02:33] Pamiętajmy, że nas teraz interesuje,

[01:02:36] żeby się wypowiedzieć o jakimś zjawisku.

[01:02:40] zjawisko oczywiście

[01:02:42] kategorii zjawisk gospodarczych, zjawisk

[01:02:44] ekonomicznych, finansowych, bo to jest

[01:02:46] to, co nas interesuje czasami oczywiście

[01:02:49] będziemy czy będą państwo gdzieś z

[01:02:51] ekonomią behawioralną się spotykać, ale

[01:02:54] to są te rzeczy, które nas interesują,

[01:02:56] czyli mamy zjawisko,

[01:02:59] stawiamy sobie jakąś hipotezę, mówiliśmy

[01:03:01] na wcześniejszych zajęciach jak różne

[01:03:03] mogą być to hipotezy. A powtórzę,

[01:03:06] namawiam państwa do tego, żeby falszy w

[01:03:07] pracach te hipotezy były ostro

[01:03:09] zakreślone, żeby nie było takich

[01:03:12] bzurnych hipotez, że globalizacja wpływa

[01:03:15] na zwiększenie konkurencyjności. No co

[01:03:17] to w ogóle za hipoteza? Tak jak to

[01:03:18] udowodnić na poziomie makro, trzeba być

[01:03:20] naprawdę mistrzem świata? Mówię to bez

[01:03:22] przekąsu absolutnie. Tak, żeby te

[01:03:25] hipotezy zakreślać bardzo, bardzo ostro.

[01:03:29] Wtedy jest po prostu łatwiej. yy

[01:03:32] jednocześnie, żeby te hipotezy były dość

[01:03:34] precyzyjne również jeśli chodzi o

[01:03:37] dobór danych, czyli nie trzeba było

[01:03:39] wielo wątkowych analiz prowadzić, żeby

[01:03:42] dwie, trzy zmienne wystarczyły nam do, a

[01:03:45] najczęściej jedna zmienna do po prostu

[01:03:48] potwierdzenia, a właściwie do

[01:03:50] wypowiedzenia się na temat określonych

[01:03:54] określonych zjawisk. A zatem my będziemy

[01:03:56] budowali test statystyczny, czyli

[01:03:58] stworzymy pewną procedurę, która pozwala

[01:04:00] do tego, żeby odnieść się do

[01:04:03] postawionych hipotez

[01:04:05] przy jednocześnie yyy określonym

[01:04:09] niewielkim poziomie błędu. Ja mówiłem,

[01:04:11] że zawsze jak upraszczamy sobie życie,

[01:04:14] czyli będziemy wnioskowali na bazie

[01:04:18] części obserwacji tylko, no to zawsze

[01:04:20] się może pojawić ryzyko popełnienia

[01:04:22] błędu i my byśmy chcieli sobie to ryzyko

[01:04:24] zminimalizować nie do zera, bo się nie

[01:04:26] da

[01:04:28] do zera tego zrobić, tylko przyjąć jakiś

[01:04:30] próg, który będzie dla nas progiem

[01:04:33] akceptowalnym w naszych badaniach. I za

[01:04:35] chwilę też o tym yyy chwilę powiemy i

[01:04:38] powiemy, czym my się różnimy jako

[01:04:40] ekonomiści od y, nie wiem lekarzy czy

[01:04:43] fizyków, nie? Dalej hipotezą

[01:04:46] statystyczną, pamiętamy hipotezy

[01:04:48] badawcze, które sobie stawialiśmy, one

[01:04:51] mają mieć, mogą mieć postać tak jak

[01:04:55] w pracach magisterskich państwo je chcą

[01:04:56] zapisać. One się odnoszą do określonych

[01:04:59] zjawisk. Natomiast my będziemy stawiać

[01:05:01] sobie hipotezy statystyczne, które będą

[01:05:04] już pewnym uszczegółowieniem

[01:05:07] w naszej procedurze tych hipotez

[01:05:11] badawczych. One będą pewnym ułatwieniem

[01:05:15] przy wnioskowaniu. Tego, że hipotezy

[01:05:17] statystyczne to będzie

[01:05:21] pewien konstrukt, który jest

[01:05:24] właśnie oparty na

[01:05:27] próbie, czyli my będziemy chcieli na

[01:05:30] bazie próby wypowiedzieć się o całości,

[01:05:35] z której ta próba pochodzi. nie znając

[01:05:37] tej całości, tylko mając jakieś

[01:05:39] przypuszczenie co do co do rozkładu.

[01:05:42] Czyli hipoteza statystyczna to będzie

[01:05:44] to, co sądzimy, przypuszczamy o

[01:05:47] zbiorowości generalnej, mimo że tej

[01:05:50] zbiorowości nie znamy. Jak państwo się

[01:05:53] domyślacie, taka hipoteza statystyczna

[01:05:56] może być oczywiście opłarczona pewnym

[01:06:00] pewnym pewnym błędem. I teraz, proszę

[01:06:03] państwa, my chcemy to już na ćwiczeniach

[01:06:07] też państwo mieli, chcemy sobie to

[01:06:10] poukładać w taki sposób, żeby nasza

[01:06:12] procedura była przyjazna do wykonania,

[01:06:15] żebyśmy nie musieli specjalnie się na

[01:06:18] każdym etapie zastanawiać o co chodzi.

[01:06:21] Więc budujemy sobie nasze myślenie w ten

[01:06:26] sposób, że stawiamy sobie pewną hipotezę

[01:06:29] zerową, która nam się pojawia. i

[01:06:33] automatycznie nasza hipoteza zerowa

[01:06:37] może mieć pewną hipotezę konkurencyjną,

[01:06:40] pewną hipotezę alternatywną. I

[01:06:42] najczęściej tak jest, że jesteśmy w

[01:06:45] stanie natychmiast

[01:06:47] postawić hipotezę przeciwną, często

[01:06:49] hipotezę konkurencyjną względem tego, co

[01:06:52] jako punkt wyjścia sobie życzymy, jako

[01:06:57] hipotezę zerową określić. Po co nam

[01:07:00] takie rozróżnienie będzie? Ono po to, że

[01:07:04] będzie nam zależeć na tym, żeby wykazać,

[01:07:06] najczęściej będzie nam zależeć na tym,

[01:07:08] żeby wykazać, że hipoteza zerowa, którą

[01:07:10] sobie stawiamy jest bardzo mało

[01:07:11] prawdopodobna. Albo będzie nam zależało

[01:07:14] na tym, żeby poka, żeby wyszło, że ona

[01:07:17] jest bardzo prawdopodobna. Na przykład

[01:07:19] rzadziej, ale też czasami tak będziemy

[01:07:22] analizować.

[01:07:23] Po to, że jeżeli jedna hipoteza jest na

[01:07:27] przykład hipoteza zerowa bardzo mało

[01:07:29] prawdopodobna, to automatycznie hipoteza

[01:07:32] konkurencyjna będzie bardzo

[01:07:33] prawdopodobna i oto często będzie nam w

[01:07:36] naszym schemacie dowodzenia czy

[01:07:38] prowadzenia dowodu, prowadzenia

[01:07:40] rozumowania i wyciągnięcia określonych

[01:07:43] istotnych wniosków. Takie rozumowanie

[01:07:45] będzie nam potrzebne. Nie wchodząc

[01:07:48] bardzo głęboko w filozofię nauki, bardzo

[01:07:50] często posługujemy się takim popperow

[01:07:53] Karl Popper, filozof, który podwaliny

[01:07:57] dowodzenia generalnie

[01:08:00] udowadniania, może tak s dowodzenie

[01:08:02] gdzieś tam militarnie nam się kojarzy,

[01:08:05] udowadniania pewnych rzeczy stworzył i

[01:08:07] te kwestie związane z falsyfikacją,

[01:08:10] czyli dopóki nam się nie uda czegoś

[01:08:11] sfalsyfikować, to nie mamy postaw, by

[01:08:13] sądzić, że tak nie jest, prawda? Więc my

[01:08:16] będziemy stosowali bardzo podobny

[01:08:18] mechanizm tutaj. No i teraz proszę

[01:08:20] państwa sformułujemy sobie H0, czyli

[01:08:25] jakiś osąd o

[01:08:29] zbiorowości generalnej. My najczęściej

[01:08:31] będziemy się

[01:08:33] my najczęściej będziemy odwołać się do

[01:08:36] do średniej, prawda? Do wartości

[01:08:38] średniej, do wartości być może

[01:08:41] odchyleń, do wartości rzadziej.

[01:08:45] dominant czy median. Najczęściej

[01:08:47] będziemy w naszych przykładach

[01:08:50] zastanawiali się, czy możliwe jest, żeby

[01:08:52] średnia z egzaminu była wyższa niż 80%

[01:08:57] na przykład. Tak. No albo na czy możliwe

[01:08:59] jest, że yyy czy prawdopodobne czy i tak

[01:09:03] dalej i tak dalej, że yyy średnia dla

[01:09:06] studentek y studentów studentek ekonomii

[01:09:09] będzie wyższa niż dla studentek MSG z

[01:09:15] prawda instrumentów badań ekonomicznych.

[01:09:17] Będziemy porównywać sobie taką stawiamy

[01:09:19] hipotezę, że średnia dla studentek i

[01:09:21] studentów MSG będzie taka sama jak

[01:09:24] średnia dla ekonomii. A nam zależy, żeby

[01:09:27] na przykład osobą z ekonomii założyć,

[01:09:30] nie, ja ci udowodnię, że średnia będzie

[01:09:33] w ekonomii wyższa, że my lepiej piszemy

[01:09:35] egzamin z instrumentarium badań

[01:09:37] ekonomicznych. No jak takie zadanie

[01:09:38] zrobić? Oczywiście my będziemy wiedzieli

[01:09:41] jak wszystkich przeegzaminujemy, prawda?

[01:09:44] Mamy tam państwa wszystkich na roku. Jak

[01:09:46] ja sprawdzę wszystkie egzaminy, to ja

[01:09:48] będę miał zn całą populację będę

[01:09:51] wiedział. No ale powiedzmy, że was było

[01:09:52] na roku 10 000. Zanim sprawdzimy 10 000

[01:09:56] egzaminów, to trochę potrwa. Więc co

[01:09:58] robimy? Losujemy próbę. Tak, dobieramy

[01:10:00] kilkudziesięciu z tego, kilkudziesięciu

[01:10:02] z tego kierunku i patrzymy i nam będzie

[01:10:05] zależało, ci którzy wierzą, że ekonomia

[01:10:07] lepiej nam pisze, będzie zżało, nie? Ja

[01:10:09] udowodnię, że nie jest prawdopodobne,

[01:10:11] żeby było tak, że te średnie będą równe.

[01:10:13] Nam będzie zależało na konkurencyjnej

[01:10:16] a hipotezie, że średnia dla

[01:10:20] ekonomii będzie wyższa. Więc będę chciał

[01:10:22] pokazać, że jest nieprawdopodobne, że te

[01:10:25] średnie są takie same. Będzie,

[01:10:28] będę chciał pokazać, że średnia jest

[01:10:30] istotnie wyższa dla ekonomii. Tak z

[01:10:32] kolei czy dla MSG będzie nie, my

[01:10:34] będziemy chcieli pokazać, że to tak jest

[01:10:37] mało prawdopodobne, że że dla was, a

[01:10:39] jest wysoce prawdopodobne, że nasza

[01:10:41] średnia będzie wyższa. Ja znam wyniki,

[01:10:43] tak, nie będę zdradzał. Wiem, kto

[01:10:44] statystycznie od lat pisze lepiej yyy i

[01:10:48] i który kierunek nieco nieco lepiej

[01:10:50] pisze. Nie będę zdradzał y wyników, ale

[01:10:54] powiem może tak państwo z MSG, mam

[01:10:58] nadzieję, że się w tym roku mile

[01:10:59] zaskoczę pozytywnie, więc do roboty.

[01:11:02] Zatem proszę państwa, my wracamy do

[01:11:04] naszego przykładu, bo on w sposób bardzo

[01:11:07] oczywisty pokazuje o co w tym wszystkim

[01:11:09] chodzi. Nam zależy na tym, żeby

[01:11:11] udowodnić, że średnia wzrostu dla

[01:11:14] mężczyzn jest wyższa niż średnia wzrostu

[01:11:17] dla kobiet. Intuicyjnie czujemy, tak?

[01:11:19] Nie ma żadnej wątpliwości. Jeżeli

[01:11:21] przyjmiemy sobie, że nasza próba, którą

[01:11:23] mamy, próba tych 130 paru osób, to jest

[01:11:29] próba całości studentek, studentów z

[01:11:32] uniwersytetu. Pobraliśmy próbę na jakąś,

[01:11:34] dobraliśmy próbę, niech to będzie próba

[01:11:36] z jednego wydziału, próba

[01:11:38] reprezentatywna.

[01:11:40] Zbadaliśmy, czy rozkład jest normalny.

[01:11:43] Jest normalny. Zbadałem to innym testem.

[01:11:46] Okej, więc mamy tutaj sytuację taką, że

[01:11:49] mamy próbę złożoną z 60 paru kobiet czy

[01:11:53] 70 paru mężczyzn. I jest to próba, która

[01:11:56] pokazuje, odzwierciedla nam w sposób

[01:11:59] reprezentatywny wzrost studentek i

[01:12:02] studentów na Uniwersytecie Gdańskim. I

[01:12:04] my chcemy dość oczywisty fakt udowodnić,

[01:12:07] że

[01:12:09] średnia dla mężczyzn jest w całości

[01:12:13] populacji, tak, na uniwersytecie wyższa

[01:12:15] niż dla kobiet. No to jest powi: "No

[01:12:17] tak, no tak jest, no nie muszę badać, no

[01:12:19] ale my chcemy to zbadać, żeby nie było

[01:12:20] wątpliwości, prawda? Co mamy na pewno na

[01:12:23] talerzu? Co wiemy? Wiemy jak wygląda

[01:12:26] wartość średnia w próbie. W próbie nam

[01:12:28] wyszło, że mężczyźni mieli 181, a

[01:12:30] kobiety tam 170,

[01:12:32] prawda, średnią wartość. wzrostu, więc

[01:12:35] ewidentnie ta średnia jest wyższa.

[01:12:37] Ewidentnie. No teraz pytanie, czy tak

[01:12:39] będzie jak my rozciągniemy to, czy czy

[01:12:41] to jest uprawnione i właśnie temu służy

[01:12:44] ta cała procedura. Czyli my sobie

[01:12:46] stawiamy hipotezę zerową, że jest ta

[01:12:48] średnia całości populacji dla kobiet i

[01:12:51] dla mężczyzn równa i to jest to h0,

[01:12:53] które państwo tutaj widzą. I nam będzie

[01:12:55] zależało na tym, żeby pokazać, że ta

[01:12:57] sytuacja jest absolutnie mało

[01:13:00] prawdopodobna,

[01:13:01] >> że jest nieprawdopodobne, że najbardziej

[01:13:03] prawdopodobne jest to, że szyna dla

[01:13:05] kobiet jest niższa niż szyna dla

[01:13:07] mężczyzn. Okej, ale zanim oczywiście

[01:13:10] będziemy to robili, to my musimy sobie

[01:13:14] to poukładać i skonceptualizować właśnie

[01:13:18] ten konkretny przypadek. I my tutaj mamy

[01:13:21] hipotezę konkurencyjną H1, hipotezę

[01:13:24] alternatywną

[01:13:26] pokazaną jako zaprzeczenie. Nie, tak nie

[01:13:29] jest. Czyli konkurencyjna jest taka, że

[01:13:32] średnia wzrostu dla kobiet nie jest

[01:13:34] równa średniej dla mężczyzn. I

[01:13:37] oczywiście jak państwo wiedzą nam będzie

[01:13:38] zależało, żeby pokazać, że rzeczywiście

[01:13:42] to jest wysoce prawdopodobne, że te

[01:13:44] średnie nie są równe. Technicznie rzecz

[01:13:48] mówiąc, dla tych, którzy już trochę

[01:13:49] liznęli wnioskowania statystycznego, my

[01:13:51] będziemy od razu wypowiadać się na temat

[01:13:54] kierunku, tak? czyli na temat tego,

[01:13:56] która z tych średnich jest wyższa, która

[01:13:59] z tych średnich jest niższa, bo tak

[01:14:00] naprawdę niewiele nam takie yyy

[01:14:02] postawienie hipotezy daje, ale my to

[01:14:04] robimy mechanicznie, już określając y

[01:14:08] kierunek y czyli co, która średnia jest

[01:14:10] wyższa na podstawie raportowanych

[01:14:12] danych. Tak jest po prostu nam

[01:14:15] wygodniej. Zatem proszę państwa to co my

[01:14:18] robimy, to jest ułożenie pewnego

[01:14:20] schematu myślenia. Natomiast musimy się

[01:14:24] cały czas tutaj przygotować na to, że my

[01:14:27] możemy się pomylić. Dlatego, że w

[01:14:31] związku z tym, że mogła być próba

[01:14:33] niewłaściwie dobrana i tak dalej, mogły

[01:14:35] być różne przypadkowe

[01:14:38] akurat osoby wzięte do tego badania

[01:14:41] bardzo dokładnego z tej całej populacji,

[01:14:44] tak? Dobrane czy wylosowane. Tak się

[01:14:46] może zdarzyć.

[01:14:48] My musimy się z tym liczyć. Jeśli badamy

[01:14:50] tylko wycinek, to zawsze może ten

[01:14:52] wycinek być akurat jakoś specyficzny z

[01:14:54] różnych powodów, prawda? No i w

[01:14:56] konsekwencji doprowadzi to do sytuacji,

[01:14:58] czy może doprowadzić do sytuacji, że

[01:15:01] hipoteza zerowa będzie prawdziwa, my ją

[01:15:03] po prostu odrzucimy i stwierdzimy: "Nie,

[01:15:05] ona jest mało prawdopodobna, ona będzie

[01:15:07] wysoce prawdopodobna". Więc jakby taki

[01:15:10] błąd jest wpisany w naszą procedurę

[01:15:13] badawczą i ten błąd nazwiemy błędem

[01:15:16] pierwszego rodzaju. Czyli

[01:15:19] może się zdarzyć sytuacja, że a

[01:15:22] odrzucimy hipotezę, która de facto jest

[01:15:25] prawdziwa. Trudno, jesteśmy gotowi na

[01:15:28] poniesienie takiego ryzyka badawczego.

[01:15:32] No tabeny, ten poziom istotności

[01:15:34] będziemy zaznaczali grecką literą alfa i

[01:15:38] to będzie pewien poziom, który sobie na

[01:15:44] początku naszych w ogóle zmagań z

[01:15:49] procedurą ustalimy. Czyli a priori

[01:15:52] ustalamy sobie pewną wartość, którą

[01:15:54] jesteśmy w stanie zaakceptować. I w

[01:15:56] naukach społecznych my taki konsensus

[01:15:58] złoty wypracowaliśmy, że ten poziom

[01:16:01] błędu, pierwszego rodzaju, ten poziom

[01:16:03] błędu, który akceptujemy, to będzie 5%.

[01:16:09] Innymi słowy, nasz poziom istotności

[01:16:13] będzie wynosił alfa 5%. Innymi słowy yyy

[01:16:18] przyjęliśmy yyy yyy 5% ryzyko

[01:16:23] popełnienia błędu pierwszego rodzaju.

[01:16:25] Ktoś powie: "Okej, no dobra, ale jak my

[01:16:27] sobie tak arbitralnie przecież to

[01:16:30] ustalamy, to dlaczego tego yyy poziomu y

[01:16:34] błędu?" Błąd nie jest pożądanym,

[01:16:40] nie jest pożądaną rzeczą tutaj, więc

[01:16:42] dlaczego go nie zmniejszyć? na przykład

[01:16:43] do 1%.

[01:16:45] Owszem, możemy go zmniejszyć do 1%, a do

[01:16:47] 1%

[01:16:49] to ryzyko popełnienia błędu. No ale coś

[01:16:52] za coś. Jak zobaczycie państwo na

[01:16:54] ćwiczeniach, zmniejsza nam się

[01:16:56] dokładność

[01:16:58] i czasami możemy zmniejszając bardzo

[01:17:01] ryzyko popełnienia błędu nie uzyskać w

[01:17:03] ogóle żadnych wyników. I to badanie nam

[01:17:06] niewiele da.

[01:17:08] Tak, będziemy mieli dylemat. Albo na 95%

[01:17:12] na przykład nasze nasza średnia zmieści

[01:17:15] się między 100 a 110 albo na 1%

[01:17:19] między 5 a 200. No to niewiele nam daje.

[01:17:23] Tak, jeżeli na 99% zmieści się nasza

[01:17:27] średnia między 1 a 200, no to to to co z

[01:17:31] tego badania wynika? Niewiele wynika. To

[01:17:33] jest bardzo niedokładne, ale no wiemy,

[01:17:35] że na 99% będzie gdzieś wynik leżał

[01:17:37] między tym a tym końcem przedziału. Coś

[01:17:41] za coś. Więc precyzja nam się zmniejsza

[01:17:44] w miarę, jak również zmniejsza nam się

[01:17:47] ryzyko popełnienia błędu. Więc my w

[01:17:49] naukach społecznych taki

[01:17:51] parametr przy wnioskowaniu statystycznym

[01:17:55] ustaliliśmy sobie na mniej więcej 005.

[01:17:57] Czasami jak będzie potrzeba to

[01:18:01] 01, czasami 001 w zależności od tego jak

[01:18:04] bardzo nasze

[01:18:07] zadanie jest konkretne i dotyczy

[01:18:08] określonych rzeczy. Zatem

[01:18:12] pamiętamy, że alfa i 5% to będzie taki

[01:18:17] nasz złoty punkt wyjścia do dalszych po

[01:18:20] prostu analiz. No i dalej pojawia się

[01:18:23] oczywiście kwestia tak zwanego testu

[01:18:25] statystycznego, czyli określone

[01:18:27] narzędzie do zbadania określonych

[01:18:30] rzeczy. Inne rzeczy testujemy

[01:18:34] termometrem, tak? Jak chcemy zmierzyć

[01:18:36] temperaturę, to bierzemy termometr. Jak

[01:18:38] chcemy zbadać ciśnienie, to bierzemy

[01:18:41] atmosferyczne, bierzemy baromet. Jak

[01:18:43] chcemy zbadać pH y cieczy, tak na

[01:18:46] przykład, to bierzemy papierek lakmusowy

[01:18:48] i badamy. Raczej yyy nie badamy

[01:18:53] temperatury wody papierkiem lakmusowym,

[01:18:56] bo to to nie ten test. Tak samo trudno

[01:18:59] byłoby, nie wiem, zbadać barometrem

[01:19:01] poziom estrogenu i stwierdzić, czy czy

[01:19:03] innych hormonów, czy ktoś, kobiety

[01:19:05] najczęściej są w ciąży, czy nie. No

[01:19:07] stosujemy test, który bada odpowiednie

[01:19:10] rzeczy. Podobnie będzie w naszych

[01:19:13] analizach. Musimy zastosować określoną

[01:19:15] procedurę czy określony test do

[01:19:16] określonych potrzeb. Nie możemy stosować

[01:19:20] jakiś procedur, które są nieadekwatne do

[01:19:22] tego, co chcemy osiągnąć. Zatem

[01:19:25] oczywiście my będziemy stosowali testy

[01:19:28] oparte na

[01:19:30] odwzorowaniu do rozkładu normalnego,

[01:19:32] dlatego że powiedzieliśmy, że to będzie

[01:19:34] nasza matryca, więc najpierw będziemy

[01:19:37] oczywiście badać, czy mamy do czynienia

[01:19:39] z tym rozkładem normalnym. To państwo

[01:19:40] też pewnie pamiętają. Tak, taki jest

[01:19:43] test y Szapiro Wilk, tak? I i ten test

[01:19:47] jest wykorzystywany.

[01:19:50] Zatem yyy my będziemy badali

[01:19:55] adekwatność i zbieżność z rozkładem

[01:19:57] normalnym. będziemy dochodzili do

[01:19:58] wniosku, że albo nie ma podstaw do

[01:20:01] odrzucenia hipotezy, tak, o składzie

[01:20:03] normalnym, wtedy będziemy milcząco

[01:20:04] przyjmować, że że okej, albo będzie nam

[01:20:08] to badanie wykluczało rozkład normalny i

[01:20:10] wtedy mówimy sobie: "Okej, dziękuję

[01:20:12] bardzo, dalej nie umiem". I to też jest

[01:20:13] dobra odpowiedź na naszym kursie, tak?

[01:20:15] Dlatego, że my nie będziemy ani

[01:20:17] stosowali testów nieparametrycznych,

[01:20:19] czyli takich, które nie wymagają

[01:20:21] znajomości rozkładu, ani też testów,

[01:20:23] które bazują na innych rozkładach niż

[01:20:25] rozkład normalny. Ktoś mógłby zapytać,

[01:20:28] no dobra, no ale skoro mamy takie

[01:20:31] możliwości, żeby w ogóle nie badać

[01:20:33] rozkładu i testować pewne rzeczy bez

[01:20:35] znajomości i rozkładu albo bez

[01:20:37] przekonania o tym, że to jest rozkład

[01:20:39] normalny, to dlaczego tego nie

[01:20:40] stosujemy? No i znowu odpowiedź jest ta

[01:20:42] sama. nie stosujemy, bo te testy nie są

[01:20:44] tak dobre jak testy parametryczne i w

[01:20:46] szczególności te oparte na odwzorowaniu

[01:20:48] do rozkładu normalnego czy do rozkładów,

[01:20:51] które są te najbardziej najlepiej

[01:20:54] opisanymi rozkładami. Więc to jest jakby

[01:20:56] coś zawsze za coś. No i pojawia się,

[01:20:58] proszę państwa, tak zwana statystyka

[01:21:00] testowa. Znowu się pojawia słowo

[01:21:02] statystyka. Ona się przewija. Słowo

[01:21:05] statystyka dla niektórych, ja już

[01:21:07] powiedziałem dzisiaj to jest czy dla nas

[01:21:08] to jest taka część matematyki, która

[01:21:11] zajmuje się analizą

[01:21:15] licznych, bardzo licznych zbiorów i

[01:21:17] pewnych zależności, które w tych

[01:21:20] licznych zbiorach występują. Dalej tako

[01:21:23] statystyka to są na przykład statystyka

[01:21:27] pomeczowa, tak? i i mamy statystyki

[01:21:32] po meczu tyle tenisowym na przykład,

[01:21:34] tyle winnerów, tyle asów, tyle

[01:21:36] podwójnych błędów serwisowych, tyle, nie

[01:21:38] wiem, unfalcedrors i tak dalej. Więc to

[01:21:41] są statystyki, które opisują nam dane

[01:21:44] zjawisko. Tak, dla niektórych statystyka

[01:21:47] to przedmiot w szkole, prawda? I tak

[01:21:49] dalej, i tak dalej. A dla nas tutaj w

[01:21:51] tym momencie statystyka, statystyka

[01:21:53] testowa to będzie po prostu konkretny

[01:21:55] wzdór. Za chwilę się pojawią konkretne

[01:21:57] wzory, znaczy my ich nie będziemy

[01:21:59] przytaczać, ale pojawią się pewne

[01:22:03] obliczenia, czy mogą pojawić się

[01:22:04] obliczenia i te wyniki pewnych obliczeń

[01:22:08] będą stanowiły pewną wartość

[01:22:09] referencyjną, będą stanowiło stanowiły

[01:22:13] podstawę do naszych dalszych analiz, do

[01:22:16] naszych dalszych dyskusji. Statystyka

[01:22:18] testowa to jest pewna wartość, którą

[01:22:20] wyliczymy po podstawieniu do wzoru i

[01:22:23] dzięki znajomości tej wartości będziemy

[01:22:25] mogli pójść dalej w naszym rozumowaniu.

[01:22:29] Więc my mając materiał

[01:22:33] liczbowy dokonamy pewnych obliczeń.

[01:22:37] Oczywiście nie my to zrobimy, tylko

[01:22:38] zrobi to za nas program. Możemy to

[01:22:40] zrobić przy pomocy kartki, kalkulatora.

[01:22:42] to nam zajmie pół godziny, nie ma sensu.

[01:22:44] Yyy, tak robiliśmy na zajęciach ze

[01:22:47] statystyki w latach 90. Mogę państwa

[01:22:50] zapewnić, że to co dzisiaj na zajęciach

[01:22:52] państwo są w stanie policzyć w 10

[01:22:54] sekund, tak? 10 sekund autentycznie

[01:22:57] zadanie, które rozwiązanie zadania

[01:23:00] dzisiaj zabiera 10 sekund i to naprawdę

[01:23:02] dla mniej wprawnych graczy, kiedyś

[01:23:05] zabierało 90 minut. Zobaczmy jaka jest

[01:23:07] efektywność. Tak. O, wtedy się znało te

[01:23:09] zadania od a do z, prawda? się

[01:23:11] siedziało, się liczyło, przeliczało się

[01:23:14] właśnie pewne wartości. Dzisiaj to

[01:23:15] wszystko robią za nas komputery, a więc

[01:23:19] nie będziemy oczywiście tego sami

[01:23:20] liczyli, ale dostaniemy raport, w którym

[01:23:22] komputer to policzy i odniesiemy się do

[01:23:24] tego raportu po to, żeby zobaczyć

[01:23:28] co jest w naszej próbie i czy nasze

[01:23:33] obserwacje pozwalają na potwierdzenie

[01:23:36] określonych faktów, a tak naprawdę czy

[01:23:39] pozwalają na to, żeby odrzucić bądź nie

[01:23:42] hipotezę

[01:23:44] zerową. I teraz jakie to będą

[01:23:46] statystyki? Dla nas najczęściej będzie

[01:23:48] statystyka T, czyli statystyka dla

[01:23:51] rozkładu T studenta raportowana, bo

[01:23:54] pakiet statystyka zą SPSS i mnóstwo

[01:23:57] innych raportuje statystykę T. Czasami w

[01:23:59] niektórych testach mamy statystykę F. My

[01:24:02] mamy też chyba jeden przykład, kiedy

[01:24:05] korzystamy z tej statystyki F.

[01:24:08] Mamy też parę innych statystyk, które

[01:24:10] chyba w która się pojawia przy

[01:24:12] rozkładzie normalnym, ale tego jakby nie

[01:24:15] analizujemy specjalnie

[01:24:18] dogłębnie. Nie jest nam to potrzebne tak

[01:24:20] samo jak nie są nam potrzebne wzory dla

[01:24:22] tych statystyk. No i teraz, proszę

[01:24:24] państwa, wprowadzamy sobie w naszym

[01:24:27] rozkładzie pojęcie y zbioru zdarzeń,

[01:24:32] które są bardzo mało prawdopodobne,

[01:24:36] czyli obszar krytyczny. jakbyśmy mieli

[01:24:38] odwzorowany tutaj pamiętają państwo

[01:24:40] wzrost no to tam na końcu i na początku

[01:24:43] mamy do czynienia z osobami panami

[01:24:45] akurat jeżeli mówimy o wzrosie mężczyzn

[01:24:47] bardzo wysokimi albo bardzo niskim ich

[01:24:50] nie jest specjalnie dużo w populacji.

[01:24:52] Wiemy, że większość zdecydowana oscyluje

[01:24:55] wokół średniej i jednego, dwóch odchyleń

[01:24:59] maksymalnie. Tak, 90 parę procent

[01:25:01] populacji to są dwa odchylenia od

[01:25:03] średniej. No ale też są osoby skrajnie

[01:25:06] wysokie i to są osoby bardzo niskie. nie

[01:25:09] jest ich, tak jak powiedziałem, w naszej

[01:25:10] grupie zbyt wiele. I ten obszar

[01:25:13] krytyczny to będzie właśnie taki nasz

[01:25:15] umowny obszar, który

[01:25:19] wyznaczamy właśnie dlatego, że jest

[01:25:23] wpadnięcie do tego obszaru jest bardzo

[01:25:26] mało prawdopodobne tej statystyki. A to

[01:25:28] się wzięło właśnie z rozumowania, że

[01:25:29] pewne zdarzenia gdzieś tam na końcach

[01:25:31] tego naszego rozkładu są tak rzadkie, że

[01:25:34] prawdopodobieństwo ich ziszczenia jest

[01:25:37] stosunkowo stosunkowo niewielkie.

[01:25:40] Natomiast my musimy sobie wprowadzić

[01:25:42] obszar krytyczny, dlatego że my będziemy

[01:25:44] obliczali taki mechanizm, będziemy

[01:25:45] stosowali, że będziemy liczyli wartość

[01:25:47] statystyki, która da nam pewną liczbę i

[01:25:51] będziemy ją odnosili do naszej osi. I

[01:25:56] tutaj w tych obszarach krytycznych to

[01:25:57] będą te wartości tej statystyki, które

[01:26:01] są bardzo rzadko spotykane, bardzo mało

[01:26:03] prawdopodobne, prawda? Więc raczej

[01:26:06] będziemy się zastanawiali,

[01:26:09] czy nasza statystyka wpadnie w ten

[01:26:12] obszar środkowy, czy wpadnie w to i na

[01:26:15] bazie tego mechanicznie będziemy

[01:26:18] wypowiadali się co do hipotez, żeby już

[01:26:21] się nie zastanawiać nad samą nad samym

[01:26:24] wnętrzem. Nad tym się zastanawiają ci,

[01:26:26] którzy studiują matematykę tego tego

[01:26:29] konstruktu. No i proszę państwa, to nam

[01:26:31] pozwoli podjąć decyzję, bo my zmierzamy

[01:26:34] do tego, żeby podjąć decyzję o tym, czy

[01:26:38] odrzucić hipotezę zerową, czy żeby,

[01:26:41] a żeby ją odrzucić, musimy mieć bardzo

[01:26:44] wyraźne przesłanki, że ta hipoteza

[01:26:45] zerowa jest mało prawdopodobna, a ona

[01:26:48] będzie mało prawdopodobna wtedy, kiedy

[01:26:51] nasza wyliczona w magiczny sposób

[01:26:53] wartość statystyki wpadnie do obszaru

[01:26:57] krytycznego, jednego z tych dwóch

[01:26:58] obszarów krytyczne. Wtedy my będziemy

[01:27:00] mieli informację, że nasza hipoteza

[01:27:04] zerowa jest bardzo mało prawdopodobna i

[01:27:07] powinniśmy ją odrzucić. Więc widzimy na

[01:27:11] rysunku, że

[01:27:14] kluczowe jest policzenie tej statystyki

[01:27:17] testowej. No i my oczywiście policzymy

[01:27:19] sobie, nie liczymy tego teraz, proszę

[01:27:21] państwa, w na piechotkę, tak? To nam

[01:27:25] liczy oczywiście zawsze program. Mam

[01:27:28] nadzieję, że państwo widzą. Ja tutaj

[01:27:29] próbuję

[01:27:31] yyy tak to zrobić, żeby było czytelniej.

[01:27:35] My wyliczyliśmy sobie na przykładzie

[01:27:39] jakimś tam tak czegoś wartość statystyki

[01:27:42] testowej, która wyszła nam 1,04.

[01:27:45] To jest to duże te wartość. Po

[01:27:47] podstawieniu do wzoru naszych danych

[01:27:50] wyszła nam wartość 104. Czyli liczyliśmy

[01:27:53] to na kalkulatorze, czy nam to zrobił

[01:27:54] program? Nie ma większego znaczenia.

[01:27:56] Taką mamy wartość. No i teraz co wiemy?

[01:27:58] No jeszcze nic nie wiemy, bo jeszcze

[01:27:59] musimy się zastanowić jakie są granice

[01:28:04] dla naszego zadania tego obszaru, tego

[01:28:08] zbioru krytycznego.

[01:28:10] Najczęściej te granice wyznaczaliśmy

[01:28:14] znając określoną wartość tego błędu,

[01:28:18] który chcemy popełnić najczęściej jako

[01:28:20] powiedzmy 5%. Znając na przykład liczbę

[01:28:23] obserwacji jako pewien parametr

[01:28:25] odczytywaliśmy stabit. To było żmudne

[01:28:27] zajęcie. Trzeba było stawić

[01:28:28] statystycznie, znaleźć jaki jest punkt

[01:28:30] tego obszaru krytycznego. Dzisiaj

[01:28:34] oczywiście my tego nie robimy, robi to

[01:28:36] automatycznie program, ale gdybyśmy tak

[01:28:38] zrobili to zobaczmy. Mamy obszar

[01:28:40] krytyczny dla naszych dla naszego

[01:28:44] któregoś tam z przykładów. Mamy liczymy

[01:28:47] sobie dla proszę zwrócić uwagę alfa

[01:28:49] drugi bo jeżeli mamy ryzyko popełnienia

[01:28:52] błędu 5% tak dla całości to dla jednej

[01:28:56] strony mamy

[01:28:58] 25000

[01:29:01] tak i dla drugiego tutaj 25 000 więc

[01:29:05] sprawdzamy w tablicach jaki jest ten

[01:29:08] punkt czyli jaka jest granica tu i jaka

[01:29:11] jest granica tu tego czerwonego obszaru

[01:29:12] i widzimy, że ta granica

[01:29:16] To jest min 1,1, czyli nam się obszar

[01:29:19] kończy na -1.

[01:29:23] Potem mamy

[01:29:26] obszar biały tutaj i mamy drugi obszar

[01:29:30] krytyczny, który zaczyna się od, który

[01:29:33] zaczyna się od 1 11 i idzie w prawo.

[01:29:37] Nasza statystyka, przypomnę, wyszła 104,

[01:29:41] czyli wpada w ten biały obszar, czyli

[01:29:43] nie wpada w obszar krytyczny. Co to

[01:29:45] oznacza? To oznacza, że my nie mamy

[01:29:47] podstaw do tego, żeby stwierdzić, że

[01:29:49] nasza hipoteza zerowa jest mało

[01:29:52] prawdopodobna, tak? Czy nie mamy postaw,

[01:29:55] żeby ją odrzucić. I taka jest mechanika

[01:29:57] badania. Oczywiście my nie będziemy

[01:29:58] rysować takich

[01:30:01] rozkładów, nie będziemy, co więcej nawet

[01:30:04] liczyli

[01:30:05] tych wartości krytycznych dla naszych

[01:30:09] przedziałów, nie? To wszystko zrobi dla

[01:30:11] nas program. My będziemy sobie życie

[01:30:13] upraszczać. A zatem, proszę państwa, to

[01:30:15] co jest istotne, jeżeli my wartość

[01:30:19] statystyki taką będziemy mieli, że

[01:30:25] wpadnie nam do zbioru krytycznego, czyli

[01:30:27] w naszym przypadku mogła być na przykład

[01:30:28] min5 albo plus 5, tak? Czyli byłaby

[01:30:31] większa niż tam 1, no to wtedy odrzucamy

[01:30:34] hipotezę zerową, przyjmujemy hipotezę

[01:30:36] alternatywną. Natomiast jeżeli mamy

[01:30:40] wartość statystyki obliczoną tę wartość

[01:30:43] i ona wpada nam w ten środek, tak, to

[01:30:45] nie mamy podstaw odrzucić H0, czyli nie

[01:30:49] odrzucamy H0 i nie przyjmujemy żadnej z

[01:30:53] hipotez alternatywnych absolutnie. I czy

[01:30:56] to oznacza, że my właśnie udowodniliśmy,

[01:30:58] że hipoteza zerowa jest prawdziwa? No

[01:31:00] nie. Nie odrzucając hipotezy zerowej, my

[01:31:03] nie automatycznie nie udowadniamy jej

[01:31:06] prawdziwości. No to co nam takie badanie

[01:31:08] dało? No powiem szczerze, niewiele. I to

[01:31:11] jest właśnie duży problem, że często

[01:31:13] badania są niekonkluzywne, czyli nie

[01:31:15] kończą się jakimś ostrym wnioskiem,

[01:31:17] prawda? yyy coś wyszło, ale nie jest to

[01:31:21] na tyle yyy mocne, na tyle istotne, żeby

[01:31:28] rozciągać naszą wiedzę szerzej na całość

[01:31:32] populacji. To jest pewien problem, bo

[01:31:34] często spotykają się państwo z takimi

[01:31:36] wynikami, że a coś tam zostało pokazane,

[01:31:39] ale wyniki nie są istotne statystycznie.

[01:31:40] No tak naprawdę nie mamy dowodu

[01:31:43] przekonującego

[01:31:45] na to, że tak po prostu będzie w

[01:31:48] rzeczywistości. Trzeba do takich wyników

[01:31:51] podchodzić bardzo, bardzo, bardzo

[01:31:53] ostrożnie. No i proszę państwa, żeby nie

[01:31:55] było zbyt trudno, to my znowu

[01:31:59] uprościliśmy pewne rzeczy i

[01:32:01] wprowadziliśmy w pakietach

[01:32:04] statystycznych pewne prawdopodobieństwo

[01:32:06] referencyjne. My to prawdopodobieństwo

[01:32:09] nazywamy jako P value.

[01:32:12] I to P value jest raportowane po to,

[01:32:15] żebyśmy mogli dokonać bardzo prostej,

[01:32:18] niemalże natychmiastowej analizy. I

[01:32:20] zrobimy sobie, proszę państwa, krótką

[01:32:23] przerwę. do mniej więcej 9:46,

[01:32:28] kiedy od tego pi value ruszymy dalej z

[01:32:32] analizą. Także troszeczkę więcej niż

[01:32:35] kwadrans przerwy i dziękuję państwu.

[01:32:37] Widzimy się o 9:46.

[01:32:41] Do zobaczenia.

[01:33:23] Я

[01:47:22] Dzień dobry państwu. Wracamy po

[01:47:24] przerwie. Mam nadzieję, że mnie słychać.

[01:47:26] Przez moment jeszcze widać. Zatem,

[01:47:29] proszę państwa, kontynuujemy

[01:47:33] nasze

[01:47:34] rozważania dotyczące

[01:47:38] podejmowania decyzji o odrzuceniu bądź o

[01:47:43] decyzji o tym, że nie odrzucamy hipotezy

[01:47:45] zerowej. I tak jak mówiliśmy poprzednio,

[01:47:48] na bazie wartości statystyki, którą

[01:47:50] odnosimy do

[01:47:53] obszaru krytycznego, jesteśmy w stanie

[01:47:55] wyrokować, czy hipoteza zerowa będzie do

[01:47:59] odrzucenia, czy też podstaw do

[01:48:00] odrzucenia tej hipotezy zerowej nie

[01:48:03] będzie. Natomiast to, o czym mówiłem

[01:48:06] jest taką mechaniką teoretyczną

[01:48:08] stosowaną wtedy, kiedy od początku do

[01:48:10] końca posługujemy się albo tablicami,

[01:48:12] albo rzeczywiście analitycznie liczymy

[01:48:15] każdy

[01:48:16] każdy punkt naszej procedury. My w

[01:48:19] pakietach statystycznych

[01:48:22] mamy już spore ułatwienie, mianowicie

[01:48:23] jest raportowany P value, to jest to

[01:48:25] małe P, które państwo pamiętają z tych

[01:48:28] raportów, statystyki, które się pojawia.

[01:48:31] To jest oczywiście prawdopodobieństwo,

[01:48:32] które od razu jest wyliczane na poziomie

[01:48:35] takiego y brzegowego prawdopodobieństwa,

[01:48:38] które yyy odnosi się właśnie do yyy yyy

[01:48:44] naszych hipotez i dzięki temu możemy

[01:48:47] opuścić yyy ten punkt porównywania

[01:48:51] statystyki do obszaru krytycznego. Nie

[01:48:53] musimy w ogóle obszaru krytycznego

[01:48:54] wyznaczać, tylko będziemy odnosić nasze

[01:48:58] uzyskane pi value do wartości

[01:49:01] referencyjnej tej tego poziomu

[01:49:04] istotności, który sobie zadaliśmy, który

[01:49:06] sobie obraliśmy na początku, czyli w

[01:49:09] naszym

[01:49:10] przypadku nauk, większości nauk

[01:49:13] społecznych będzie to to osłabiony 5%.

[01:49:19] I mechanika rozumowania jest bardzo

[01:49:21] prosta. Zwróćcie państwo uwagę, że na

[01:49:23] czerwono tę ramkę państwu zaznaczyłem,

[01:49:26] żeby to naprawdę nam w głowach utkwiło.

[01:49:30] Jeżeli to p będzie mniejsze, no bądź w

[01:49:33] szczególnym przypadku równe tej wartości

[01:49:37] 005, którą ustalamy, to mamy sytuację

[01:49:42] taką, że hipotezę zerową uznajemy za

[01:49:46] mało prawdopodobną i odrzucamy.

[01:49:51] odrzucamy hipotezę zerową i

[01:49:53] automatycznie przyjmujemy hipotezę

[01:49:55] alternatywną. Z kolei jeśli p wyjdzie

[01:49:57] bardzo wysokie, to znaczy wyższe niż 05,

[01:50:00] no to wtedy nie ma podstaw do odrzucenia

[01:50:03] hipotezy zerowej. To nie oznacza

[01:50:05] oczywiście, że hipoteza zerowa jest

[01:50:07] prawdziwa. Tego nadal nie wiemy, bo cały

[01:50:10] czas mamy gdzieś tam

[01:50:13] zupełnie inne inny sposób wnioskowania

[01:50:18] tutaj. Natomiast to jeśli to p jest

[01:50:21] większe od tego naszego referencyjnego

[01:50:24] alfa, to nam mówi, że po prostu nie

[01:50:27] wolno nam hipotezy zerowej w takim

[01:50:30] badaniu odrzucić. Czyli najczęściej

[01:50:33] nie udało nam się przekonująco zbyt

[01:50:36] wielu rzeczy udowodnić. Czasami

[01:50:38] oczywiście

[01:50:40] znaczy inaczej w większości przypadków

[01:50:42] dążymy do tego, żeby rzeczywiście

[01:50:43] hipotezę zerową odrzucić. Cieszymy się

[01:50:46] jako badacze, kiedy uda nam się

[01:50:48] udowodnić hipotezę alternatywną, czyli

[01:50:51] odrzucając hipotezę zerową, mamy silny

[01:50:53] dowód na to, że to hipoteza alternatywna

[01:50:55] jest prawdziwa. Natomiast czasami

[01:51:00] nam zależy na tym, żeby nie odrzucać

[01:51:02] hipotezy zerowej. mianowicie mamy taki

[01:51:05] przykład jeden z niewielu kiedy kiedy

[01:51:07] kiedy dla nas jest to pożądane kiedy

[01:51:09] mamy hipotezę zerową mówiącą o tym że

[01:51:12] rozkład nasz nasz badany rozkład

[01:51:16] jest zbieżny z rozkładem normalnym i my

[01:51:19] dostajemy wtedy takie duże P i się

[01:51:21] cieszymy mimy aha nie ma podstaw żeby

[01:51:23] odrzucić że ten rozkład

[01:51:26] odbiega od rozkładu normalnego, prawda?

[01:51:29] Czyli nie mamy nie mamy posa odrzucić

[01:51:31] hipotezy zzorowej mówiącej, że rozkład

[01:51:34] jest zbieżny z rozkładem normalny i

[01:51:36] przyjąć, że odbiega. To by dla nas było

[01:51:37] niekorzystne, gdybyśmy odrzucili h0, no

[01:51:40] bo byśmy nie mogli wielu rzeczy potem

[01:51:41] analitycznie robić, więc dostajemy

[01:51:43] wysokie p, cieszymy się. No ale de facto

[01:51:46] my nie udowodniliśmy, że rozkład jest

[01:51:49] rozkładem normalnym, ale też nie mamy

[01:51:51] dowodów, że z dużym prawdopodobieństwem

[01:51:54] odbiega od rozkładu normalnego i to na

[01:51:56] tym etapie nam musi wystarczyć.

[01:51:58] Natomiast

[01:52:00] co do zasady generalnie

[01:52:02] w większości przypadków nam w badaniu

[01:52:04] będzie zależało na tym, tak żeby to p

[01:52:06] było, żeby to p było takie, które

[01:52:10] pozwoli nam odrzucić hipotezę zerową i

[01:52:13] przyjąć hipotezę alternatywną. I teraz

[01:52:15] szybciutko wracamy do naszego

[01:52:17] intuicyjnie rozstrzygniętego oczywiście

[01:52:20] i myślę, że wątpliwości żadnych nie ma

[01:52:23] przykładu. Hipoteza zerowa w średni

[01:52:26] wzrost dla kobiet jest równy średniemu

[01:52:29] wzrostowi dla mężczyzn w całości

[01:52:31] populacji uniwersytetu. Oczywiście

[01:52:33] wiemy, że to jest sytuacja, której

[01:52:35] chcemy zaprzeczyć, tak? Chcemy mieć

[01:52:37] dowód, że tak nie jest. yyy formujemy

[01:52:40] hipotezę alternatywną. Oczywiście

[01:52:42] powinniśmy ją od razu zaostrzyć, że MK

[01:52:44] jest mniejsze niż mm, bo to wiemy z

[01:52:48] innych yyy oczywiście yyy racji. Y nam

[01:52:53] zależy na tym, żeby odrzucić H0. I teraz

[01:52:56] dostajemy raport z badania. Oczywiście

[01:52:58] wcześniej, jak się państwo chwilę

[01:53:00] dowiedzą, musimy przejść te wszystkie

[01:53:02] szczeble, czyli rozkład normalny,

[01:53:04] prawda? Odpowiedni liczebność prób i tak

[01:53:05] dalej. Dostajemy informacje o tym p. Ta

[01:53:08] jest bardzo niskie. Zobaczmy. 0. Byśmy

[01:53:11] tu rozciągnęli po paru miejscach po

[01:53:13] przecinku, to dopiero gdzieś tam by się

[01:53:14] pojawiło

[01:53:16] coś znaczącego. Więc na pewno jest

[01:53:18] niższe niż 500. Na pewno. Co więcej

[01:53:21] nawet jest niższe niż 2,5

[01:53:24] tak procenta, czyli 25,

[01:53:27] czyli połowa alfa/ i to jest to co nas

[01:53:30] interesuje, czyli odrzucamy hipotezę

[01:53:33] zerową. Wiemy, że ona jest bardzo mało

[01:53:36] prawdopodobna. Tak to jest to tak 00 to

[01:53:39] jest właściwie w ogóle nieprawdopodobne

[01:53:41] żeby się stało 0% szans na to tak

[01:53:44] średnia dla mężczyzn wyższe niż średnia

[01:53:46] dla kobiet więc

[01:53:49] automatycznie przyjmujemy przy tym

[01:53:51] poziomie P hipotezę alternatywną że

[01:53:55] średnia dla mężczyzn w całości naszej

[01:53:58] populacji na podstawie badania próby

[01:54:00] wyciągniętej na jednym wydziale będzie

[01:54:03] wyższa niż dla średnia dla kobiet

[01:54:06] sytuacja że będzie gdzie odwrotnie jest

[01:54:08] absolutnie nieprawdopodobne, prawda? No

[01:54:10] i to się pokrywa oczywiście z naszymi

[01:54:13] obserwacjami. Myślę, że nikt z państwa

[01:54:15] nie postawiłby,

[01:54:16] gdybyśmy chcieli taki zakład zrobić po

[01:54:18] przeliczeniu wszystkich wzrostu

[01:54:21] wszystkich pań panów, nikt nie

[01:54:23] postawiłby, że ta średnia będzie dla

[01:54:25] kobiet wyższa. Jest to, jest to

[01:54:27] oczywiste. I tu mamy dowód również

[01:54:29] wynikający z naszych obliczeń

[01:54:31] statystycznych. mianowicie wyliczyliśmy

[01:54:34] średnią dla próby, porównaliśmy te

[01:54:36] średnie w próbie i odnieśliśmy to do

[01:54:38] rozszerzyliśmy dla całego rozkładu dla

[01:54:42] dla całej populacji, przyjmując, że ten

[01:54:45] rozkład normalny ma określone

[01:54:47] statystyki, określone wartości,

[01:54:50] określone prawdopodobieństwo z iszczenia

[01:54:52] się określonych zdarzeń i że my mamy do

[01:54:54] czynienia z rozkładem normalnym, co

[01:54:56] próbowaliśmy oczywiście na każdym z tych

[01:54:58] etapów udowodnić. I to jest coś, co nam

[01:55:01] w zupełności wystarczyło, żeby takie

[01:55:03] proste badanie przeprowadzić. My

[01:55:05] będziemy oczywiście na zajęciach te

[01:55:06] badania nieco trudniejsze robić,

[01:55:09] nie bardzo trudniejsze. Natomiast

[01:55:10] państwo już na pewno zauważyli, że

[01:55:13] wyliczenie czy obliczenie, czy

[01:55:15] przeprowadzenie takiej procedury to tak

[01:55:17] naprawdę to jest parę kliknięć i mamy w

[01:55:20] ciągu minuty wynik, który tylko i

[01:55:23] wyłącznie musimy zinterpretować. No ale

[01:55:25] zawsze musimy rozumieć albo powinniśmy

[01:55:28] rozumieć y co robimy i do czego tak

[01:55:31] naprawdę zmierzamy, czyli co jest naszym

[01:55:33] celem, po co to wszystko robimy. Okej,

[01:55:37] to by było jeśli chodzi o to na razie

[01:55:41] tyle.

[01:55:44] No przepraszam. I jeszcze mamy

[01:55:48] oczywiście wrócimy do

[01:55:51] testów już na kolejnym, no nie na tym

[01:55:54] wydziale, nie na tym wykładzie, który

[01:55:56] teraz będzie, tak? Czyli nie

[01:56:00] na wykładzie dotyczącym koracji i

[01:56:03] regresji za chwilę, tylko za

[01:56:06] Myślę, że to będzie ten wykład

[01:56:07] dodatkowy, gdzie będziemy o tych testach

[01:56:10] mówili, to zamknę nasz nasze nasze

[01:56:13] rozważania. yyy część z państwa już yyy

[01:56:16] na ćwiczach to miała i bardzo dobrze, bo

[01:56:18] te rzeczy się wiążą. Natomiast teraz

[01:56:20] przeskoczymy na korelację i regresję, bo

[01:56:23] będzie nam potrzebne rozumienie idei

[01:56:25] współczynnika korelacji liniowej i

[01:56:28] będzie nam potrzebne zrozumienie idei

[01:56:31] prostej regresji po to, żeby można było

[01:56:34] na innych zajęciach

[01:56:37] nieco więcej

[01:56:39] poświęcić czasu na ekonometrię i proste

[01:56:43] modele, które są związane z

[01:56:47] dopracowywaniem

[01:56:49] doszukiwaniem się wzorów na podstawie

[01:56:54] badań empirycznych, czyli rejestrujemy

[01:56:58] fakty, patrzymy co się stało i potem

[01:57:01] szukamy

[01:57:03] wzoru na to, co się w świecie dzieje,

[01:57:05] prawda? Coś ewidentnie

[01:57:08] genialnego z punktu widzenia myślenia.

[01:57:11] odwracamy tak takie standardowe

[01:57:14] myślenie, czyli a w przypadku regresji

[01:57:18] to nie jest tak, że my mamy wzór i potem

[01:57:20] doszukujemy się pewnych obliczeń i

[01:57:23] wniosków, tylko najpierw mamy fakty i na

[01:57:26] podstawie faktów spróbujemy znaleźć wzór

[01:57:28] na dane zjawisko, co jest pasjonujące,

[01:57:30] tak? móc opisać dane zjawisko jakimś

[01:57:34] mniej lub bardziej dokładnym. Raczej

[01:57:36] mniej dokładnym, ale będziemy się

[01:57:38] starali tę dokładność zwiększyć, ale po

[01:57:40] prostu konkretnym wzorem. Zatem

[01:57:44] zaczynamy od rzeczy prostych, od

[01:57:45] korelacji współczynników korelacji i

[01:57:48] potem przechodzimy w drugiej części do

[01:57:52] regresji.

[01:57:54] Jak powiedziałem, część z państwa, duża

[01:57:57] część z państwa z korelacją się spotkała

[01:57:59] i duża część z państwa spotkała się

[01:58:01] również z

[01:58:03] obliczeniami współczynników,

[01:58:06] które z korelacją są związane.

[01:58:08] najczęściej

[01:58:10] praktycznie w zasadzie wyłącznie

[01:58:13] chodzi o współczynnik korelacji liniowej

[01:58:15] Pirsona.

[01:58:17] W dużej mierze są to sprawy państwu

[01:58:20] znane. Dzisiaj tylko odświeżymy i jedną

[01:58:23] rzecz dopowiemy, czyli na co trzeba

[01:58:25] uważać przy szczególnych przypadkach,

[01:58:30] kiedy mamy potrzebę zbadania korelacji,

[01:58:33] a badamy korelacje nie między zmiennymi,

[01:58:36] które mają określone wartości, tylko

[01:58:38] które są uszeregowane względem siebie, a

[01:58:40] te wartości niekoniecznie musimy znać.

[01:58:43] Czyli kiedy mowa będzie o rankingach

[01:58:46] bądź o po prostu dwóch zestawieniach

[01:58:51] rosnących, malejących.

[01:58:53] No dobrze, proszę państwa, ale sama

[01:58:54] korelacja na początku. Pamiętajmy, że

[01:58:58] korelacja

[01:59:00] to jest czy w ogóle badania poświęcone

[01:59:02] korelacji to jest ten moment, kiedy my

[01:59:04] musimy

[01:59:06] zareagować intelektualnie, a nie tylko

[01:59:08] mechanicznie. a mianowicie, żeby

[01:59:11] cokolwiek liczyć, znaczy powiem państwu

[01:59:13] tak, mechanicznie policzyć można

[01:59:15] wszystko. Jakby

[01:59:17] Excel, czy algorytmy, czy

[01:59:21] pakiety statystyczne przeliczą każde

[01:59:23] zestawy danych, no bo po prostu

[01:59:26] przeliczą. Natomiast to my musimy

[01:59:28] zdecydować, czy liczenie jakichś danych,

[01:59:32] obliczanie i próbowanie

[01:59:34] wyciągnięcia wniosku z określonych typów

[01:59:38] rzeczy.

[01:59:39] danych ma sens. Czy to jest w ogóle

[01:59:42] uzasadnione, prawda? Czy czy jest jakiś

[01:59:44] związek logiczny między tym, co chcemy

[01:59:47] zrobić? Bo matematycznie przeliczymy

[01:59:50] wszystko. To jest podstawienie tylko do

[01:59:52] wzoru. Natomiast tutaj chodzi o to,

[01:59:54] żebyśmy zadali sobie pytanie, czy to co

[01:59:56] robimy rzeczywiście są jakieś przesłanki

[01:59:59] i jest jakiś jest jakiś sens. I w

[02:00:02] przypadku korelacji może tak wyjść. Jest

[02:00:04] tyle rzeczy na świecie i jakbyśmy

[02:00:06] szukali różnych dziwnych zjawisk,

[02:00:09] jakichś powiązań między nimi, to

[02:00:10] matematycznie może się zdarzyć, że

[02:00:12] powiążemy zjawiska kompletnie ze sobą w

[02:00:15] sposób logiczny niepowiązany. I ktoś

[02:00:17] powie: "Wow, odkryłem", że na przykład

[02:00:19] im więcej je się daktyli w RPA, tym na

[02:00:24] przykład więcej się topi śniegu w

[02:00:27] akwarium, w laboratorium, wuchach,

[02:00:29] prawda? O takie dane mi matematycznie to

[02:00:33] wyszło. No wiemy, że jest to poza tymi

[02:00:36] oczywiście, którzy wierzą w jakieś

[02:00:38] spiskowe teorie, tak jest to mało

[02:00:41] sensowne. Więc pierwsze co robimy to

[02:00:44] zastanawiamy się, stąc pytanie czy to

[02:00:47] jest rzeczywiście uzasadnione, żebym ja

[02:00:50] takie dwie zmienne zostawiał. No bo

[02:00:53] korelacja musi mieć związek logiczny.

[02:00:56] Może być całkiem przypadkowo i zdarzyć

[02:00:59] się może tak, że dwie zmienne są ze sobą

[02:01:01] matematycznie powiązane, natomiast

[02:01:03] logicznie ich nie ma. Tak mówię, no jak

[02:01:05] ktoś jest zwolennikiem spiskowej teorii

[02:01:07] powi No właśnie jest tak, mimo że nam

[02:01:10] się wydaje, to właśnie tu jest taka

[02:01:12] głębia i odkryłem właśnie. No nie,

[02:01:15] proszę państwa, no nie szalejmy. Tak,

[02:01:17] nie szalejmy. Zatem mówimy o ewentualnie

[02:01:21] o jakimś o jakieś koincydencji, o

[02:01:23] przypadkowym

[02:01:26] wyniku. Natomiast

[02:01:29] korelacja rzeczywiście wymaga tego,

[02:01:32] żebyśmy na chłodno się zastanowili. Tak,

[02:01:34] to to to jest pierwsza sprawa. I druga

[02:01:36] sprawa to jest kwestia kierunku

[02:01:40] i tego, że często w sposób taki

[02:01:46] bezrefleksyjny

[02:01:48] szukamy w korelacjach przyczyn i

[02:01:51] skutków, czyli automatycznie

[02:01:54] przypisujemy czemuś siłę sprawczą, a

[02:01:56] czemuś

[02:01:58] coś dopisujemy jako efekt. I okej,

[02:02:02] korelacja nie wyklucza związku

[02:02:04] przyczynowskutkowego i często będzie

[02:02:07] tak, że rzeczywiście łatwo ten związek

[02:02:09] przyczynowos-skutkowy

[02:02:11] odnaleźć. Natomiast sam fakt korelacji

[02:02:14] nie informuje nas, że taki związek na

[02:02:17] pewno zawsze jest. Czyli mając wynik

[02:02:21] albo informacje na temat korelacji,

[02:02:25] czyli związku między zjawiskami, my nie

[02:02:28] mamy automatycznie informacji, co jest

[02:02:31] przyczyną, co jest skutkiem, albo w

[02:02:32] ogóle czy jest jakaś, czy jest dowód na

[02:02:35] to, że to może być przyczyną, a to może

[02:02:36] być skutkiem. My w sytuacjach takich,

[02:02:39] gdzie mamy na przykład coś przesunięte w

[02:02:40] czasie, to będziemy wiedzieli. Natomiast

[02:02:42] są sytuacje i to całkiem poważne, kiedy

[02:02:45] do końca nie wiadomo. Jednym z,

[02:02:49] myślę, że ciekawszych

[02:02:52] przykładów z makroekonomii jest sytuacja

[02:02:54] skorelowania stopy inflacji z ze stopą

[02:02:58] wzrostu gospodarczego.

[02:03:00] Zauważono, że tam kiedy w gospodarkach

[02:03:04] których występuje

[02:03:06] dodatni czy powiedzmy, że relatywnie

[02:03:09] wysoka w stop wysoka stopa wzrostu

[02:03:12] gospodarczego również występują

[02:03:16] wyższe poziomy inflacji.

[02:03:19] Ktoś powiedział, no związ gospodarczy

[02:03:22] skutkuje inflacją, ale inni ekonomiści

[02:03:25] mówią, a nie, no to może jest tak, że to

[02:03:27] inflacja wpływa na wzrost gospodarczy.

[02:03:31] Jak będziemy mieli wyższą inflację, to

[02:03:33] dzięki temu osiągniemy wzrost

[02:03:34] gospodarczy. Jednej i drugiej stronie

[02:03:37] powiem, że do końca nie wiadomo. Są

[02:03:38] dowody na to, że to inflacja jest

[02:03:40] ciągniona przez wzrost gospodarczy, tak?

[02:03:43] I są dowody na to, że to inflacja

[02:03:45] stymuluje wzrost gospodarczy. Więc jakby

[02:03:48] mamy przykład, kiedy nie do końca

[02:03:50] wiadomo, co jest przyczyną i skutkiem.

[02:03:51] Nawet na tak poważnym poziomie jak

[02:03:53] uzależnienie inflacji wzrostu

[02:03:55] gospodarczego w makroekonomii, co się

[02:03:57] państwo domyślacie jest stosunkowo

[02:03:59] istotne z punktu widzenia w ogóle

[02:04:01] rozumienia gospodarki. Więc

[02:04:06] często przy korelacji możemy powiedzieć,

[02:04:08] co jest przyczyną czy skutkiem, ale sama

[02:04:10] korelacja nie przesądza. Tak, to nie

[02:04:13] jest tak, że zawsze będzie jasno, co z

[02:04:17] czego wynika.

[02:04:19] No i parę rzeczy do uporządkowania nam

[02:04:22] potrzebnych naszych kategorii. Jeżeli

[02:04:26] wzrostowi wartości cechy a będą

[02:04:29] odpowiadać wzrosty

[02:04:32] zaobserwowane w wartościach

[02:04:35] cechy B, tak? No to będziemy mówili o

[02:04:38] korelacji dodatnie i odwrotniej. Jeżeli

[02:04:40] będziemy mieli sytuacje takie, że taką

[02:04:43] taką sytuację, że wzrostowi wartości

[02:04:46] cechy pierwszej będą odpowiadały

[02:04:49] systematyczne takie średnie spadki

[02:04:52] wartości cechy drugiej, no to wtedy mamy

[02:04:54] korelację ujęu. Czy jak

[02:04:57] w tym samym kierunku się będą zmieniały

[02:05:00] wartości, to mówimy o kolacji dodatnej,

[02:05:02] jak w przeciwnym, czyli mówiąc

[02:05:03] kolokwialnie, jedna rośnie, druga spada,

[02:05:06] tak w sposób konsekwentny i taki

[02:05:08] systematyczny, bo to jest ideą

[02:05:10] korelacji, to wtedy mamy korelację

[02:05:12] ujemną. No i proszę państwa, przykład,

[02:05:16] który ma nas troszeczkę rozgrzać. Mamy

[02:05:20] 20

[02:05:22] sklepów, które zestawiliśmy pod względem

[02:05:26] dwóch zmiennych. Pierwsza zmienna to

[02:05:28] jest powierzchnia ekspozycyjna, czyli

[02:05:31] ile mamy metrów kwadratowych w tym

[02:05:34] sklepie przeznaczonych na ekspozycję,

[02:05:38] przepraszam, towaru. I druga zmienna

[02:05:41] jaka jest wartość obrotu

[02:05:44] miesięczna, wartość sprzedaży w tych

[02:05:47] sklepach. No i się zastanawiamy, czy te

[02:05:50] zmienne są ze sobą skorelowane, czyli

[02:05:53] czy jest tak, że kiedy rośnie wartość

[02:05:56] jednej zmiennej, będzie też rosła

[02:05:58] przeciętnie wartość drugiej zmiennej i

[02:06:02] odwrotnie. A może jest tak, czy że jak

[02:06:05] jedna zmienna, wartość zmiennej jednej

[02:06:06] rośnie, to wartość drugiej będzie

[02:06:09] spadać. Zobaczmy, co tu się dzieje.

[02:06:11] Musimy

[02:06:13] wypowiedzieć się na temat rzeczywiście

[02:06:16] korelacji między powierzchnią

[02:06:19] ekspozycyjną a wartością sprzedaży.

[02:06:21] Pierwsze co robimy oczywiście to

[02:06:23] zastanawiamy się czy to ma w ogóle sens

[02:06:25] z punktu widzenia logiki i z punktu

[02:06:27] widzenia osadzenia tego w badaniach

[02:06:28] ekonomicznych. No myślę, że tutaj

[02:06:30] odpowiedź jest bardzo oczywista. Tak,

[02:06:33] warto wiedzieć. Te zmienne mogą być ze

[02:06:34] sobą powiązane. Logicznie są y pewnie

[02:06:38] jakieś związki. Każdy kto pracował w

[02:06:40] sklepie wie, że

[02:06:43] wartość sprzedaży zależy od różnych

[02:06:45] rzeczy. Tak samo powierzchnia

[02:06:47] ekspozycyjna może mieć wpływ na różne

[02:06:48] rzeczy. Więc te dwie kategorie bez

[02:06:51] wątpienia w jakiś sposób się łączą i to

[02:06:52] nam wystarczy jako przesłanka.

[02:06:54] Absolutnie. Dalej. Wykres rozrzutu.

[02:06:58] Mamy

[02:07:00] w zwykłym kartezjańskim układzie

[02:07:03] odniesienia układzie współrzędnych

[02:07:06] narysowane dwie osie. Wykreśliliśmy

[02:07:09] powierzchnię wystawową i wartość

[02:07:11] sprzedaży.

[02:07:12] Możemy oczywiście dowolnie te osie

[02:07:15] oznaczyć. Możemy odwrócić powierzchnię

[02:07:17] wystawową tu wartość sprzedaży tu. Nie

[02:07:19] ma to większego znaczenia. Natomiast

[02:07:21] każdy z tych punktów, który był to jest

[02:07:23] 20 tych kwadracików. 20

[02:07:28] miejsc na naszym wykresie. Każde miejsce

[02:07:31] to określony sklep. No i widzimy na

[02:07:34] pierwszym to okaże rzeczywiście coś na

[02:07:36] rzeczy jest w tym sensie, że im większa

[02:07:41] powierzchnia wystawowa, tym przeciętnie

[02:07:44] też wartości sprzedaży są wyższe,

[02:07:46] prawda? No nie zawsze, bo czasami

[02:07:48] powierzchnia wystawowa

[02:07:51] jest taka sama. Mamy dwa różne. Czasami

[02:07:54] jest tutaj na przykład wyższa

[02:07:57] wartość sprzedaży, a powierzchnia

[02:07:59] wystawowa jest mniejsza. Ten w kwadracik

[02:08:01] w stosunku do tego. Tak, ale generalnie

[02:08:04] jakbyśmy bardzo oddalili od siebie ten

[02:08:06] wykres, to byśmy widzieli, że nam to się

[02:08:07] układa liniowo w taką

[02:08:10] rzeczywiście prostą, rosnącą, skupioną

[02:08:12] wokół jakiejś tam linii tutaj prostej.

[02:08:16] No ale oczywiście

[02:08:20] możemy powiedzieć to na dwa sposoby.

[02:08:23] Tak, że zauważamy, że gdy sklep ma

[02:08:27] wyższą powierzchnię wystawową, no to też

[02:08:30] generuje większą wyższą wartość obrotną.

[02:08:33] No ale z drugiej strony można również

[02:08:35] powiedzieć, że sklep ma, kiedy sklep ma

[02:08:38] wyższe obroty, no to też będzie miał

[02:08:39] większą wystawę. No i teraz pytanie, co

[02:08:42] tutaj jest przyczyną i co jest skutkiem?

[02:08:44] To jest właśnie jeden z tych przypadków,

[02:08:45] gdzie do końca nie wiemy. A pewnie

[02:08:48] intuicyjnie jakbyśmy zrobili głosowanie,

[02:08:50] co na co wpływa byśmy mogli to

[02:08:52] stwierdzić. Pewnie ekonometrycy znają na

[02:08:54] to odpowiedź. My na tym etapie na razie

[02:08:56] na razie nie i nam nie jest to potrzebne

[02:08:59] do obliczania korelacji. Nie jest nam

[02:09:01] potrzebna tutaj zależność

[02:09:03] przyczynowoskutkowa. Jak będziemy

[02:09:05] budowali regresję. Owszem, ale na razie

[02:09:08] na razie na razie nie. No i proszę

[02:09:11] państwa, drugi przykład nieco bardziej

[02:09:13] oderwany od

[02:09:15] yyy tej pierwszej

[02:09:19] korelacji, a mianowicie mamy sytuację,

[02:09:22] kiedy mamy w przedsiębiorstwie

[02:09:27] 30 pracowników i ci pracownicy się

[02:09:30] ubiegają o

[02:09:34] lukratywny wyjazd zagraniczny, tak? I

[02:09:36] rzecz polega na tym, że chcemy ocenić

[02:09:39] kompetencje tych pracowników. No i w

[02:09:41] związku z tym powołujemy

[02:09:43] trzech niezależnych ekspertów, różnych

[02:09:45] ekspertów, którzy mają przyznać

[02:09:48] poszczególne punkty

[02:09:51] każdemu z pracowników,

[02:09:54] które będą korespondowały z ich

[02:09:59] przydatnością do tego wyjazdu. Jak

[02:10:00] będzie jeden, to ta przydatność według

[02:10:02] eksperta jest niska. Jak będzie 10, to

[02:10:04] ona jest bardzo, bardzo wysoka,

[02:10:09] czyli im bliżej dziesiątki, tym ocena

[02:10:12] eksperta

[02:10:14] względem określonego pracownika wskazuje

[02:10:17] na wyższy poziom przydatności. Czyli

[02:10:20] jako pracownik, który chce wyjechać, mi

[02:10:22] zależy na tym, żeby mieć same

[02:10:24] dziesiątki, trzy dziesiątki. No i teraz

[02:10:26] eksperci niezależnie od siebie oceniają,

[02:10:29] a nas interesuje to, czy ci eksperci

[02:10:33] mieli względem siebie zbieżne oceny.

[02:10:36] Tak, to jest jakby coś, co nas

[02:10:37] interesuje.

[02:10:39] Po co? A no po to, żeby w przyszłości

[02:10:41] móc zobaczyć, czy mamy ekspertów, którzy

[02:10:44] tak samo oceniają, a czy być może

[02:10:48] inaczej. Jest to potrzebne w tego typu

[02:10:50] badaniach, żeby jak wyjdą na przykład

[02:10:53] diametralnie różne oceny, zapytać z

[02:10:55] czego to wynika, bo być może są jakieś

[02:10:57] kryteria, które nie są brane pod uwagę.

[02:10:59] Kiedyś taki ogromny projekt badawczy był

[02:11:01] prowadzony, gdzie

[02:11:03] audytowano banki, placówki bankowe i

[02:11:08] eksperci, którzy byli przeszkoleni,

[02:11:09] korzystali z takiego, bym powiedział,

[02:11:11] jednego formularza oceny, mieli bardzo

[02:11:15] zbliżone do siebie rzeczywiście

[02:11:18] kompetencje

[02:11:19] i każdy z tych ekspertów oceniał

[02:11:21] kilkadziesiąt placówek. I tych ekspertów

[02:11:24] oczywiście też było pewnie

[02:11:25] kilkudziesięciu, bo tych placówek w

[02:11:26] Polsce, tych banków było bardzo dużo. No

[02:11:29] i zauważono, że rzeczywiście

[02:11:33] część ekspertów systematycznie zawyżała,

[02:11:36] tak oceny, że

[02:11:39] to gdzie dla przeciętna jakaś tam ocena

[02:11:42] była w granicach powied nie wiem 32, to

[02:11:44] oni systematycznie mieli na poziomie

[02:11:46] 4,5, prawda? Bardzo wyraźnie zawyżajcie

[02:11:48] i byli bardzo liberalni. No i chodziło o

[02:11:50] to, że to tak nie może być. Kiedy mamy

[02:11:53] oceny, gdzie musimy

[02:11:56] mieć w miarę wyrównany poziom, no to

[02:11:59] musimy zidentyfikować tych, którzy nam

[02:12:01] odstają. Podobnie jak były kiedyś

[02:12:03] egzaminy ustne, państwo już pewnie tego

[02:12:05] nie doświadczą na uczelni, gdzie z

[02:12:07] danego przedmiotu egzaminowało trzech

[02:12:09] czy czterech egzaminatorów w tym samym

[02:12:11] czasie było powiedzmy 400 osób na roku i

[02:12:15] cztery osoby egzaminujące. No i pytanie

[02:12:17] do kogo trafisz, tak? Bo jeden

[02:12:18] systematycznie tam był lepszy, tak?

[02:12:21] drugi był wiadomo gorszy. No to tak

[02:12:23] mniej więcej właśnie wygląda. Więc my

[02:12:24] teraz chcemy zobaczyć czy ci eksperci w

[02:12:26] jednym kierunku oceniają.

[02:12:29] Co robimy? No zestawiamy sobie każdego z

[02:12:31] każdym. Pierwszego z drugim, pierwszego

[02:12:33] z trzecim i drugiego z trzecim.

[02:12:37] No i widzimy rzeczywiście, że

[02:12:39] zestawienie eksperta pierwszego z drugim

[02:12:41] nie pokazuje nam jakiś wyraźnych tutaj

[02:12:43] zależności. Natomiast zestawienie ocen

[02:12:46] eksperta pierwszego i trzeciego, czyli

[02:12:47] to co widzicie państwo w środku

[02:12:48] rzeczywiście pokazuje na systematycznie

[02:12:52] jakieś powiązania, czyli jak jeden

[02:12:54] ocenia wysoko, to drugi raczej też

[02:12:56] wysoko. Jak jeden ocenia nisko, to ten

[02:12:58] drugi też ocenia nisko. Czyli widzimy,

[02:13:01] że oceny eksperta numer 1 i eksperta

[02:13:03] numer 3 są ze sobą w jakiś sposób

[02:13:05] skorelowane dodatnio w tym samym

[02:13:07] kierunku, czyli oceniają podobnie. No i

[02:13:11] możemy się domyślać, że oceny eksperta

[02:13:14] numer 2 z ocenami eksperta numer 3 znowu

[02:13:16] nie są w żaden sposób powiązane.

[02:13:20] Tym samym widzimy, że rzeczywiście

[02:13:22] eksperci pierwsi, numer 1, ekspert numer

[02:13:25] 3 bardzo w podobny sposób oceniają, a

[02:13:27] ekspert numer drugi zupełnie do tych

[02:13:30] ocen jego oceny czy jej oceny nie

[02:13:33] pasują. To nie znaczy, że one są złe,

[02:13:35] tylko widzimy, że tak, tak po prostu

[02:13:37] wyszło.

[02:13:39] Nota bene na marginesie, gdybyśmy

[02:13:44] chcieli bardzo mocno statystycznie

[02:13:47] wyznaczać takich odstających ekspertów,

[02:13:49] to byśmy trochę inną metodę zastosowali.

[02:13:51] To co państwu pokazuje, czy taka metoda

[02:13:53] każdy z każdym. Kiedyś dawno temu przed

[02:13:55] rozwojem statystyczki, statystyk i

[02:13:58] pewnych metod

[02:13:59] porównywań wielu naraz grup była

[02:14:03] stosowana, no ale nie jest najlepsza.

[02:14:05] Dzisiaj mamy lepsze metody, które

[02:14:07] pozwalają natychmiast zanalizować i

[02:14:09] wykluczyć tych, którzy nam z tych

[02:14:14] grup odstają. No tu odstaje nam ekspert

[02:14:17] numer 2 w tym sensie, że nie pasuje do

[02:14:20] tego co jest u eksperta 1 i 3 względem

[02:14:24] sieby dość zbieżne. Świadczy o tym ten

[02:14:26] wykres, wykres rozrzutu. No i proszę

[02:14:30] państwa, my mówimy o korelacji, czyli o

[02:14:34] tym, czy kierunek jest ten sam zmian,

[02:14:38] czy inny, ale oprócz tego kierunku

[02:14:44] jeszcze możemy powiedzieć jak korelacja

[02:14:49] jest silna, jak bardzo mocno albo jak

[02:14:53] słabo

[02:14:55] te

[02:14:57] związki, to współwystępowanie tutaj

[02:14:59] Tutaj te zależności, przepraszam,

[02:15:02] występują między

[02:15:04] dwiema zmiennymi i do pomiaru tej siły

[02:15:08] wykorzystujemy już współczynniki

[02:15:11] korelacji.

[02:15:13] Najczęściej będzie to współczynnik

[02:15:14] korelacji liniowej Pirsona. Ten wykres

[02:15:16] rozrzutu, który wcześniej państwu

[02:15:18] pokazywałem, on ma nam pokazać, że ta

[02:15:20] korelacja jest korelacją liniową, czyli

[02:15:23] wzdłuż linii prostej nam się to

[02:15:26] układa i rzeczywiście w tych naszych

[02:15:28] przypadkach tak było.

[02:15:30] Korację liniową Pixona państwo

[02:15:32] wielokrotnie liczyli, najczęściej w

[02:15:34] Excelu. Wiedzą też państwo, że przyjmuje

[02:15:37] wartości od-1 do 1. Przy czym te skrajne

[02:15:41] czy minus1 czy to jest perfekcyjna

[02:15:43] korelacja odpowiednio

[02:15:46] ujemna i dodatnia. Tak. Plus 1.

[02:15:49] Współczynnik korelacji liniowej pis

[02:15:51] oznacza perfekcyjną korelację dodatnią,

[02:15:54] a współczynnik -1

[02:15:57] oznacza idealną korelację ujemną.

[02:16:02] Zatem znak będzie informował jak mocna

[02:16:05] jest ta korelacja. My będziemy się de

[02:16:07] facto posługiwać wartością bezwzględną,

[02:16:11] tak tego, czyli akurat korelacja min6,

[02:16:14] będziemy -06, będziemy mówili o

[02:16:18] korelacji

[02:16:19] 06, 6, o ujemnej korelacji na poziomie

[02:16:22] 0,6. Tak, tak, tak, tak, tak. Będziemy

[02:16:24] najczęściej mówili w taki sposób

[02:16:26] troszeczkę uproszczony.

[02:16:29] On jest symetryczny. Oczywiście

[02:16:32] zależność x względem, czyli pierwszej

[02:16:34] względem drugą jest taka sama jak

[02:16:36] drugiej względem pierwszym. No i proszę

[02:16:37] państwa, my policzyliśmy w naszym

[02:16:42] arkuszu

[02:16:44] akurat w statystyce dla tych 20 sklepów,

[02:16:47] zobaczmy, ten współczynnik korelacji

[02:16:50] wyszedł niemalże jeden, niemalże plus

[02:16:52] je, czyli bardzo silna korelacja,

[02:16:56] korelacja dodatnia.

[02:16:58] W praktyce rzadko będziemy mieli tak

[02:17:00] silną korelację.

[02:17:02] Jak państwo się domyślacie, te zmienne

[02:17:03] były tak dobrane, żeby właśnie tak silna

[02:17:05] korelacja nam tutaj nam tutaj wyszła

[02:17:08] niemalże niemalże perfekcyjna. No i

[02:17:11] teraz żeby sobie oczywiście znowu

[02:17:14] ułatwić życie, ale nie nam takim

[02:17:17] fachowcom i ekspertom, tylko osobom,

[02:17:20] które niekoniecznie rozumieją wartości.

[02:17:23] I jak się komuś powie, że współczynnik

[02:17:25] korelacji wyniósł 0,8, to nikt go nie

[02:17:28] będzie wiedział o co chodzi.

[02:17:32] to my wprowadziliśmy sobie taką skalę,

[02:17:35] która ma w taki sposób trochę bardziej

[02:17:37] opisowy pokazać nam

[02:17:41] tę korelację i siłę korelacji,

[02:17:44] abstrahując od konkretnych wartości

[02:17:48] współczynnika, co mogło być dla kogoś

[02:17:50] zupełnie

[02:17:52] niezrozumiałe.

[02:17:54] Więc powiedzmy idąc od dołu, że

[02:17:59] ta bardzo silna korelacja dodatnia to

[02:18:02] jest między 0,9 a 1. Silna to będzie

[02:18:06] gdzieś 0,6 0,7 do 0,9. Umiarkowana to

[02:18:10] między 0,3 do 0,6, a od zera do 0,3 to

[02:18:14] będzie słaba korelacja. Widzą państwo,

[02:18:15] że ja się dość luźno poruszam w tych

[02:18:18] przedziałach. To nie jest tak, że jak

[02:18:19] jest 0,61

[02:18:21] to będzie już silna korelacja, a 0,58 to

[02:18:25] będzie umiarkowana korelacja, mimo że

[02:18:27] między tym są tam powiedzmy dwa czy trzy

[02:18:28] punkty.

[02:18:31] To ma nam pomagać. To nie jest tak, że

[02:18:33] ktoś na egzaminie napisze silna

[02:18:35] korelacja,

[02:18:37] a kto inny stwierdzi: "No nie, no raczej

[02:18:40] to jest umiarkowana korelacja, bo to

[02:18:41] jest wyszło akurat równo 06". No i teraz

[02:18:43] co my tutaj z tym zrobimy? Prawda? To ma

[02:18:46] nam pomagać, nie przeszkadzać.

[02:18:48] Pamiętajmy, y istotna jest liczba,

[02:18:50] istotna jest wartość, bo my jako

[02:18:52] eksperci widząc wartość wiemy

[02:18:55] wystarczająco dużo, żeby zrobić do tego

[02:18:58] opis. Dlatego jak komuś dajemy opis ten

[02:19:02] opis zawsze jest troszeczkę

[02:19:04] nieprecyzyjny. Tutaj ma pomagać

[02:19:08] rozwiązać pewien problem, żeby mniej

[02:19:11] więcej pokazać w którą stronę to idzie.

[02:19:13] Natomiast żeby być precyzyjnym to

[02:19:15] podajemy oczywiście wartości

[02:19:19] tego współczynnika korelacji liniowej

[02:19:21] Pirsona. Nie przywiązując się do tego,

[02:19:24] co tutaj mamy, to jest taka

[02:19:26] interpretacja najczęściej stosowana

[02:19:28] właśnie w naukach społecznych.

[02:19:33] Nieco inną sytuację mamy w przypadku

[02:19:37] rankingów. To znaczy rankingi yyy to są

[02:19:40] zestawienia, które y pokazują wzajemną

[02:19:45] kolejność. Nie musimy mieć, nie musimy

[02:19:48] znać yyy wartości, tak? Ale wystarczy,

[02:19:54] że znamy miejsce w rankingu i już możemy

[02:19:57] sobie porównywać

[02:19:59] dwa rankingi, prawda? A konkretnie

[02:20:01] miejsca w rankingu A z miejscem w

[02:20:03] rankingu B.

[02:20:06] Kiedy mamy do czynienia z rankingami?

[02:20:08] Mnóstwo przypadków jest związanych z

[02:20:11] rankingami. Na przykład ranking

[02:20:14] pierwszej setki polskich

[02:20:15] przedsiębiorstw. I mamy ułożone polskie

[02:20:17] przedsiębiorstwa według jakichś tam

[02:20:20] kryteriów. My do końca czasami nawet nie

[02:20:22] znamy jakie to są kryteria, ale wiemy,

[02:20:23] że wygrywa. Na pierwszym miejscu jest

[02:20:25] ten, na drugim ten, na drugim ten, na

[02:20:27] trze mamy ranking, jak ktoś się sportem

[02:20:30] interesuje, ATP, tak? Czyli ranking

[02:20:33] tenisistów. Wiemy, że pierwszy jest

[02:20:35] Siner, drugi tam Alkarat, trzeci tam i

[02:20:37] tak dalej i tak dalej. Natomiast ten

[02:20:39] jest ranking zrobiony na podstawie

[02:20:41] punktów. Ale rzadko się tymi punktami

[02:20:44] interesujemy. Nie wiemy świątek jest,

[02:20:46] czwarta czy trzecia czy piąta, to wiemy,

[02:20:48] ale ile ma punktów, ile jaką ma przewagę

[02:20:51] tego nie wiemy. I bardzo często te

[02:20:53] rankingi są publikowane bez jakiś

[02:20:55] konkretnych dodatkowych informacji i my

[02:20:58] tylko znamy miejsce, prawda? I wiemy, że

[02:21:02] to przedsiębiorstwo jest drugie, kolejne

[02:21:05] jest trzecie, ale nie wiemy jaka jest

[02:21:07] różnica między pierwszym a drugim, a

[02:21:10] drugim a trzecim. Czy te pierwsze dwa są

[02:21:12] blisko siebie, potem długo, długo nic,

[02:21:14] dopiero trzecie miejsce, tak? Czy też

[02:21:17] wszystkie idą łeb w łeb? Tego nie widać

[02:21:18] z rankingu. Ranking pokazuje tylko

[02:21:21] miejsce. No ale to jest sytuacja, która

[02:21:24] też się zdarza. Zdarza się również

[02:21:27] sytuacja taka, że ranking ma puste

[02:21:29] miejsca. To znaczy bierzemy

[02:21:31] tylko część yyy yyy po prostu yyy

[02:21:38] krajów, województw, przedsiębiorstw,

[02:21:41] czyli tych rzeczy, które będziemy

[02:21:43] porównywać i część wyrzucamy. Mamy na

[02:21:45] przykład pierwszy, kolejny kraj jest

[02:21:47] siódmy w jakimś tam rankingu, kolejny

[02:21:49] będzie ósmy, kolejny będzie dopiero 16 i

[02:21:51] mamy tak przypisane ranking, taki

[02:21:53] dziurawy. No i wówczas mamy też pewnego

[02:21:56] rodzaju kłopoty w jaki sposób to zrobić.

[02:22:00] Zatem żeby nie było tych wątpliwości,

[02:22:02] wówczas nie stosujemy współczynnika

[02:22:04] korelacji liniowej

[02:22:08] Pisona, tylko współczynnik korelacji

[02:22:11] rang rang, czyli miejsc pozycji

[02:22:13] spirmana. To jest yyy współczynnik,

[02:22:16] który w swojej konstrukcji nieco inaczej

[02:22:19] liczy

[02:22:20] yyy te wzajemne y odniesienia między

[02:22:23] grupą A a grupą B, czyli między

[02:22:26] rankingiem pierwszym a rankingiem

[02:22:27] drugim. W szczególnych przypadkach

[02:22:30] wartości współczynników

[02:22:32] Spirmana i Pirsona będą takie same. Więc

[02:22:36] czasami wyjdzie tak, że policzymy coś,

[02:22:39] co powinniśmy liczyć współczynnikiem

[02:22:41] korelacji rank Spirmana Pirsonem, mówiąc

[02:22:43] kolokwialnie, wyą dokładnie te same

[02:22:45] wyniki, ale to nie oznacza, że

[02:22:46] zrobiliśmy to dobrze. No ale jak nie ma

[02:22:48] luk w rankingu, to tak to po prostu

[02:22:50] najczęściej wygląda. Analogicznie

[02:22:52] współczynnik korelacji rank ma te same

[02:22:55] przyjmuje te same wartości co

[02:22:57] współczynnik Pirsona. No i króciutko,

[02:23:00] kiedy mamy bardzo prosty ranking. Bardzo

[02:23:02] prosty absolutnie mamy

[02:23:05] produkty, produkt A, B, C, D i tak

[02:23:07] dalej. Jak widzicie państwo, jest ich 10

[02:23:10] produktów do analizy i każdy z tych

[02:23:12] produktów został oceniony pod względem

[02:23:15] tego, czy jest ładny, tak? Ile ma yyy

[02:23:19] jakie które ma miejsce w kategorii

[02:23:21] ładności? Bo to jest ranking, więc

[02:23:24] najładniejszy jest produkt F, drugie

[02:23:26] miejsce produkt D i tak dalej. I drugie,

[02:23:29] drugi ranking to jest ranking pod

[02:23:31] względem serwisu, czyli które zajął

[02:23:35] miejsce w naszej grupie dany produkt pod

[02:23:37] względem dostępności serwisu. No i

[02:23:38] zobaczmy, produkt F jest pierwszy, ale

[02:23:42] jest najgorszy pod względem serwisu.

[02:23:44] Tak. Z kolei produkt D jest drugi,

[02:23:48] bardzo wysoko pod względem wyglądu i

[02:23:50] bardzo wysoko pod względem serwisu.

[02:23:54] Produkt B trzeci jest dość wysoko pod

[02:23:58] względem wyglądu, tak? I bardzo wysoko,

[02:24:00] bo jest ma najlepszy serwis, tak? I

[02:24:02] teraz się zastanawiamy, czy miejsce w

[02:24:04] jednym rankingu jest skorelowane z

[02:24:06] miejscem w drugim rankingu. Tak? Czyli

[02:24:09] my mówimy tylko o korelacji miejsc w

[02:24:12] rankingu pierwszym względem wyglądu i

[02:24:14] miejsc w rankingu drugim względem

[02:24:17] jakości serwisu. I widzimy, że ten

[02:24:18] współczynnik wynosi 0,38.

[02:24:21] Interpretacja jest taka sama, czyli

[02:24:23] jakaś umiarkowana korelacja

[02:24:26] dodatnia. y nawet bym powiedział, że

[02:24:28] słaba, bo to jest bliżej trójki pewnie

[02:24:30] niż szóstki, więc jakby ta korelacja nie

[02:24:33] jest jakoś jakaś bardzo bardzo bardzo

[02:24:36] bardzo mocna, ale też no nie jest w

[02:24:39] ogóle nie jest żadna, tak byśmy

[02:24:42] powiedzieli, czy marginalna.

[02:24:45] I kolejny przykład z już przechodzimy do

[02:24:48] przykładów bardziej ekonomicznych,

[02:24:50] bardziej gospodarczych. To co nas

[02:24:51] interesuje, ranking krajów.

[02:24:56] Sprzed wielu lat właśnie specjalnie

[02:24:58] dawno temu taki ranking wzięliśmy, żeby

[02:25:03] pokazać dwie sprawy. Pierwsza to jest

[02:25:07] ranking, który Heritage Foundation robi

[02:25:10] pod względem wolności gospodarczej,

[02:25:12] czyli stosując różnego rodzaju

[02:25:14] parametry, swoje obliczenia.

[02:25:17] My nie wiemy do końca jak ostateczna,

[02:25:19] zaczy wiemy, bo to jest publikowane, ale

[02:25:21] nie chcemy się zagłębiać w te algorytmy.

[02:25:24] A robi

[02:25:26] ta fundacja takie taki ranking pod

[02:25:29] względem wolności gospodarczej

[02:25:31] poszczególnych krajów i my wzięliśmy

[02:25:33] tylko wybraliśmy sobie kraje Unii

[02:25:35] Europejskiej ówczesnej, bo to było dawno

[02:25:37] temu, żeby taki ranking dla tych krajów

[02:25:40] Unii zrobić, czyli zobaczyć, który kraj

[02:25:42] z Unii jest najbardziej, potem i tak

[02:25:43] dalej, i tak dalej, i tak dalej.

[02:25:46] A drugi ranking pod względem poziomu

[02:25:49] wskaźnika HDI. Część z państwa wie, że

[02:25:51] ten HDI human development index, czyli

[02:25:55] taki wskaźnik rozwoju gospodarczego.

[02:25:58] On ma

[02:26:01] odzwierciedlać

[02:26:03] poziom takiego zaawansowania

[02:26:05] społeczno-gospodarczego danego kraju.

[02:26:08] Nie będziemy wnikać w HDI, ale ogólnie

[02:26:12] głównie

[02:26:13] dochód na mieszkańca jest tam liczony,

[02:26:16] poziom edukacji, poziom zdrowia, tego

[02:26:18] typu rzeczy kompleksowo

[02:26:21] są brane pod uwagę i zastanawiamy się,

[02:26:25] czy ranking

[02:26:27] jeden i ranking drugi mają jakieś

[02:26:31] ciekawe względem siebie zależności i

[02:26:35] konkretnie stawiamy sobie za badanie

[02:26:37] jako cel badawczy zbadanie czy ustalenie

[02:26:40] czy pozycja w rankingu, czy miejsce w

[02:26:42] rankingu pod względem wolności

[02:26:45] gospodarczej

[02:26:47] będzie w jakiś sposób powiązane z

[02:26:50] miejscem w rankingu pod względem właśnie

[02:26:54] HDI. Czy kraje, które są wysoko w jednym

[02:26:58] rankingu będą również wysoko w drugim

[02:27:00] rankingu, prawda? czy też odwrotnie

[02:27:03] kraje, które będą wysoko w rankingu

[02:27:07] Hitage Foundation będą z kolei bardzo

[02:27:10] nisko. No celem jest ustalenie, więc

[02:27:12] zobaczymy jak wygląda

[02:27:15] kwestia. Tu mamy wycinek tak tego

[02:27:18] rankingu. Tutaj mamy ranking według

[02:27:23] pozycji według wolności gospodarczej.

[02:27:25] Irlandia pierwsza, Dania druga, Estonia

[02:27:27] trzecia. Tutaj mamy uporządkowane i mamy

[02:27:29] drugi ranking. Pozycja wędł HDI. No i

[02:27:32] widzimy, że Irlandia jest pierwsza w

[02:27:34] jednym i czwarta w drugim. Dania druga i

[02:27:36] trzecia, więc oba wysoko. Ale z kolei

[02:27:39] Estonia jest trzecia w jednym, ale

[02:27:41] dopiero 18:00 w drugim. Tak. UK, a

[02:27:44] jeszcze wtedy UK było przed Brexitem, 4:

[02:27:47] 6:00 Niderlandy 5:00. Tak więc widzimy,

[02:27:51] że część jest wysoko w jednym, w drugim.

[02:27:54] część jak Estonia na przykład

[02:27:58] jest nisko w jednym, czyli tu, a wysoko

[02:28:03] tu, prawda? No zobaczymy jak to wygląda

[02:28:06] na

[02:28:08] rysunku. Tu robimy wykres rozrzutu, żeby

[02:28:10] zobaczyć

[02:28:12] taki pogląd mieć na te dwa rankingi. No

[02:28:16] i widzimy rzeczywiście ta czerwona

[02:28:18] linia, którą generuje program nam pomaga

[02:28:20] i widzimy, że rzeczywiście ten

[02:28:22] współczynnik korelacji rang Spirirmana

[02:28:24] jest na poziomie 0,6, czyli gdzieś

[02:28:27] mówimy o takiej umiarkowanej nawet

[02:28:30] blisko, no wyraźnej wyraźnej korelacji

[02:28:35] dodatniej

[02:28:37] między rankingiem, a konkretnie miejscem

[02:28:40] w rankingu A i miejscem w rankingu B. I

[02:28:44] teraz jak to zinterpretować? Pamiętajmy,

[02:28:46] że mówimy tylko o rankingu, nie mówimy o

[02:28:51] wartościach osiąganych w danych

[02:28:53] zestawieniach, tylko o miejscu. Więc

[02:28:55] możemy się odnosić wyłącznie do miejsca.

[02:28:59] A ponieważ mamy na poziomie 06

[02:29:01] współczynnik korelacji, to możemy

[02:29:03] powiedzieć tak, jak mają państwo tutaj

[02:29:05] zapisane, że jeśli dany kraj jest bardzo

[02:29:09] wysoko w rankingu Heritage Foundation,

[02:29:12] to będzie również dość wysoko. Dlaczego

[02:29:15] dość? No bo to jest jednak 0,6, a nie

[02:29:16] 0,90, tak?

[02:29:19] I dalej, jeśli z kolei będzie bardzo

[02:29:21] nisko w rankingu wolności, to raczej też

[02:29:24] będzie dosyć nisko w rankingu według

[02:29:27] HDI. Nie bardzo nisko w jednym i bardzo

[02:29:31] nisko w drugim, tylko jak jest w jednym

[02:29:33] bardzo nisko, to w drugim raczej nisko,

[02:29:35] dość nisko, bo tak jak mówię, ten

[02:29:36] współczynnik korelacji

[02:29:38] liniowej, korelacji rank spirmana, on

[02:29:41] jest dodatni na poziomie 0,6, więc mamy

[02:29:43] korelację dodatnią. Ale nie jest to

[02:29:46] bardzo silne. Jest silne, ale nie bardzo

[02:29:48] silne. Oczywiście moglibyśmy również

[02:29:51] odzwierciedlić to, o czym mówimy

[02:29:55] graficznie i wówczas gdybyśmy mieli

[02:29:59] linie poziome, które łączą nam

[02:30:02] poszczególne kraje. Tak to znaczy gdyby

[02:30:04] się okazało, że po połączeniu z jednego

[02:30:07] rankingu i z drugiego rankingu, tak? Bo

[02:30:09] to są rankingi. W jednym Irlandia,

[02:30:11] Dania, Estonia, a w drugim Holandia,

[02:30:14] Niemcy, Dania, Irlandia i tak dalej.

[02:30:15] Gdyby te linie były yyy

[02:30:19] równoległe, tak, poziome, no to byśmy

[02:30:22] mieli perfekcyjny ranking i korelację,

[02:30:25] perfekcyjną korelację dodatnią.

[02:30:28] Natomiast gdyby były z kolei takie linie

[02:30:32] bardzo ostre od góry, tak, po

[02:30:34] przekątnej, one by tak nam się układały,

[02:30:39] jak widzą państwo, bardzo mocno z góry

[02:30:42] na dół, no to byśmy mieli perfekcyjną

[02:30:44] korelację ujemną. No mamy tutaj coś

[02:30:45] pomiędzy bliżej. Więcej jest poziomów

[02:30:48] równoległych, byśmy powiedzieli, niż

[02:30:50] takich bardzo gwałtownych różnic.

[02:30:53] Francja jest bardzo nisko według

[02:30:56] rankingu wolności, ale bardzo wysoko

[02:30:58] według HDI. Estonia odwrotnie mówiliśmy,

[02:31:01] Łotwa i tak dalej, i tak dalej. Więc to

[02:31:03] są ciekawe rzeczy, które pokazują nam

[02:31:07] rankingi. Można by było

[02:31:10] wiele takich rankingów gospodarczych

[02:31:13] zrobić, które pokazują miejsce i w

[02:31:17] rankingu. Tylko musimy o tym pamiętać,

[02:31:18] że korelacja rang liczona właśnie

[02:31:21] współczynnikiem korelacji rang Spirmana

[02:31:24] to jest korelacja tylko w miejsc w

[02:31:28] rankingu. pokazuje nam przestrzeni

[02:31:30] między

[02:31:32] między tymi poszczególnymi krajami. Nie

[02:31:35] wiemy czy w przypadku rankingu wolności

[02:31:37] gospodarczej Irlandia jest bardzo blisko

[02:31:39] Danii i blisko Estonii, czy też jest

[02:31:42] Irlandia długo, długo, długo, długo nic

[02:31:45] i potem dopiero Dania, Estonia. Tego nie

[02:31:46] widać z rankę. Widać tylko co jest po

[02:31:50] czym w kolejności. Więc to jest

[02:31:53] ewidentny minus. To też interpretacja

[02:31:54] musi być bardzo ostrożna. I proszę

[02:31:58] państwa w sytuacji kiedy mamy

[02:32:00] rzeczywiście

[02:32:02] korelacje

[02:32:05] wyraźne wtedy kiedy jest coś na rzecz,

[02:32:08] że zmienne są ze sobą rzeczywiście w

[02:32:11] jakiś sposób powiązane i logicznie i też

[02:32:14] matematycznie czyli zmianą w zakresie

[02:32:17] jednej zmiennej odpowiadając odpowiadają

[02:32:19] jakieś konsekwentne systematyczne zmiany

[02:32:21] w zakresie drugim góal nie ma znaczenia

[02:32:24] wtedy

[02:32:26] następnym etapem Może być zastanowienie

[02:32:28] się, czy jesteśmy w stanie, wiedząc, co

[02:32:31] jest przyczyną, a co jest skutkiem,

[02:32:33] znaleźć jakieś

[02:32:36] przybliżenie, jakiś wzór, którym można

[02:32:40] opisać te zmiany, które

[02:32:44] czy te zależności, które obserwujemy. I

[02:32:48] oczywiście odpowiedź brzmi, że zawsze

[02:32:51] można z mniejszą lub większą

[02:32:53] dokładnością. I to co jest istotne to

[02:32:56] znowu odpowiedzenie sobie na pytanie, że

[02:32:59] skoro matematycznie wszystko można, no

[02:33:01] to będziemy to robili. Natomiast dla nas

[02:33:03] pozostaje, dla nas badaczy pozostaje

[02:33:07] przestrzeń na decyzję, czy to co

[02:33:08] zrobiliśmy i dało się zrobić

[02:33:10] matematycznie ma sens. Czy my

[02:33:14] z tych naszych

[02:33:16] obliczeń, z tych naszych zestawień coś

[02:33:19] sensownego możemy wyciągnąć? Czy to

[02:33:22] będzie na tyle dobrze

[02:33:25] zrobione, jeśli chodzi o dopasowanie, że

[02:33:29] będzie to dla nas, uwaga, użyteczne, że

[02:33:31] będzie to dla nas rzetelne, że będzie to

[02:33:33] dla nas trafnie zrobione, rzetelnie i

[02:33:36] przez to będzie to dla nas przydatne, bo

[02:33:38] tak jak mówię, matematycznie policzyć

[02:33:40] można niemalże wszystko. pytanie, czy to

[02:33:43] dla nas będzie przydatne. I my sobie

[02:33:45] powiemy o tym właśnie przy okazji

[02:33:49] badania powiązań między zmiennymi, czyli

[02:33:53] będziemy szukali wzoru na to, żeby

[02:33:57] opisać zbadaną rzeczywistość. Czyli

[02:34:00] zbieramy dane z rynku, zbadamy dane ze

[02:34:02] świata, zestawiamy je w tabelkach i

[02:34:05] patrzymy, czy da się jakiś wzór z tego

[02:34:09] wyszukać, wynaleźć. No frapująca

[02:34:11] dananie. Super odpowiedź brzmi zawsze

[02:34:14] się jakiś wzór da znaleźć. Pytanie czy

[02:34:16] to będzie wzór dla nas w czymkolwiek

[02:34:20] przydatny, bo będzie na tyle dobrze tę

[02:34:23] rzeczywistość opisywał. I tym właśnie

[02:34:25] zajmuje się

[02:34:28] regresji. Najprostsze funkcje, które

[02:34:31] mamy w z punktu widzenia matematyki to

[02:34:34] są funkcje liniowe. To państwo wiedzą.

[02:34:36] Tak, to jest linia prosta. Ona jest w

[02:34:40] analizie bardzo prosta w tym znaczeniu,

[02:34:43] że łatwo mając prostą przewidzieć

[02:34:47] kolejne wartości, bo one się zmieniają w

[02:34:49] sposób proporcjonalny. Wykreślenie

[02:34:52] takiej prostej też nie jest specjalnie

[02:34:54] trudne przy założeniu

[02:34:57] yy, że robimy to w układzie y

[02:35:00] współrzędnych, bo tak naprawdę wystarczy

[02:35:03] nam tylko informacja, jak bardzo ta

[02:35:06] prosta jest nachylona. względem osi

[02:35:09] poziomej, tak? Czy jaki jest kąt tej

[02:35:11] prostej. No i druga informacja, która

[02:35:13] jest nam potrzebna, gdzie ona będzie

[02:35:16] przecinać ta prosta układ współrzędnych,

[02:35:20] czyli jak bardzo będzie przesunięta

[02:35:21] względem początku i w zasadzie to

[02:35:23] wystarczy. Więc te rzeczy są łatwe.

[02:35:28] Analiza takich prostych jest też łatwa.

[02:35:31] Myślę, że to jest poziom podstawówki,

[02:35:34] żeby o analizie prostej takiej

[02:35:37] zależności funkcyjnej

[02:35:39] mówić. I to rzeczywiście się dzieje. My

[02:35:41] taką prostą sobie do naszych obserwacji

[02:35:45] będziemy próbowali tam, gdzie się da

[02:35:48] wykreślić. Więc najpierw musimy

[02:35:50] stwierdzić, czy nasze dane układają się

[02:35:53] jakoś w linię prostą, że wykreślenie

[02:35:55] takiej prostej jest zasadne.

[02:35:58] W naszych przykładach tak będzie.

[02:36:00] Będziemy próbowali taką prostą dopasować

[02:36:03] i nam się to uda. Oczywiście w wielu

[02:36:05] zjawiskach ekonomicznych również taką

[02:36:07] prostą uda nam się dopasować.

[02:36:10] W wielu zjawiskach ekonomicznych, jak

[02:36:12] się państwo domyślają, się prostej

[02:36:13] dopasować tak łatwo nie da. Dlaczego?

[02:36:17] dlatego że ekonomia jest taką ciekawą

[02:36:20] nauką, że zjawiska gospodarcze często

[02:36:23] mają postać jednak

[02:36:25] raczej logarytmicznej

[02:36:27] logarytmiczną raczej postać funkcji

[02:36:29] logarytmicznej raczej funkcji

[02:36:32] wykładniczej niż zmieniają się liniowo.

[02:36:36] Są zjawiska, które zmieniają się liniowo

[02:36:38] w jakimś tam zakresie. Natomiast

[02:36:40] najczęściej jednak te zjawiska

[02:36:42] ekonomiczne zmieniają się

[02:36:43] logarytmicznie. Czyli mówiąc wprost,

[02:36:46] zależność jest taka, że coś się zmienia

[02:36:49] w tym samym kierunku, ale z coraz

[02:36:51] mniejszą dynamiką. Tak. To wynika z

[02:36:54] wielu prawd, na których ekonomia jest

[02:36:56] oparta, między innymi malejących

[02:36:59] użyteczności bądź przychodów z kolejnych

[02:37:04] ponoszonych nakładów czy jednostek

[02:37:07] zwiększania

[02:37:09] nakładów celem osiągnięcia produkcji. To

[02:37:11] są prawa ekonomiczne, które budują nam

[02:37:14] ekonomię w ogóle jako naukę. I mówiąc

[02:37:16] wprost, gdyby ekonomia, gdyby prawa

[02:37:18] ekonomiczne zmieniały się liniowo, czy

[02:37:20] gdyby w ekonomii wszystko zmieniało się

[02:37:22] liniowo, to by jej nie było, bo to

[02:37:24] byłoby bardzo łatwe większości do

[02:37:28] interpretacji byśmy nie byli potrzebni.

[02:37:30] Tak, byłoby bardzo łatwo wyliczyć, że

[02:37:32] jak ktoś ma 10 pracowników, a potem

[02:37:36] zatrudni kolejnych 10, to zarobi dwa

[02:37:38] razy więcej. No wiemy, że tak nie jest,

[02:37:40] że to się nie zmienia proporcjonalnie i

[02:37:43] właśnie dlatego czasami trudno tę

[02:37:44] funkcję regresji liniowo opracować i

[02:37:46] wówczas stosujemy inne przybliżenia.

[02:37:49] Dlaczego my na zajęciach nie będziemy

[02:37:51] tych innych robić? Bo to jest tylko

[02:37:52] kwestia innej funkcji. Zamiast przełożyć

[02:37:54] funkcję liniową, przełożymy funkcję

[02:37:56] logarytmiczną i tyle. A ponieważ analiza

[02:37:58] na funkcji liniowej jest dużo łatwiejsza

[02:38:01] interpretacja niż na funkcji

[02:38:02] logarytmicznej, więc my będziemy robić

[02:38:04] to na przykładzie funkcji liniowej

[02:38:06] mającej postać taką jak państwo tu na

[02:38:08] dole widzą, czyli y = a wyraz wolny bx,

[02:38:13] czyli

[02:38:15] b to będzie ten kąt nachylenia, tak? A

[02:38:17] tak naprawdę tangens kąta nachylenia

[02:38:20] proste i e to będą tutaj specjalnie

[02:38:23] wprowadz taką wersję uproszczoną błędy

[02:38:25] losowe związane z tym, że my

[02:38:29] operujemy na żywym materiale. Zbieramy

[02:38:34] materiał w postaci po prostu danych

[02:38:37] empirycznych, który z różnych przyczyn

[02:38:39] jest obarczony. Nasze badanie, nasze

[02:38:42] podejście obarczone błędami pomiaru,

[02:38:45] błędami losowymi.

[02:38:47] To jest bardzo ważna kategoria. My

[02:38:48] niestety musimy ją stwializować, ominąć

[02:38:51] troszeczkę i o tych błędach losowych nie

[02:38:53] będziemy tutaj mówili. One wrócą w

[02:38:55] przypadku równań regresji i analiz

[02:38:58] ekonometrycznych, ale na razie dla

[02:39:00] potrzeb naszego wywodu dzisiaj o nich

[02:39:02] troszeczkę będzie mniej. To co jest

[02:39:04] ważne, proszę pamiętać, że ta postać

[02:39:07] ogólna y = ax + b, żebyście się państwo

[02:39:11] nie dali zamieszać z tego, co być może

[02:39:13] wam bezrefleksyjnie wtłaczano w szkole

[02:39:16] podstawowej. Prosta ma postać y = ax +

[02:39:20] b. Tak zawsze pamiętaliśmy, że a to było

[02:39:22] to przy xie, nie? Proszę państwa, to

[02:39:25] może tak i było, tylko chodzi o to, że

[02:39:27] to

[02:39:29] będzie dokładnie co innego oznaczać w

[02:39:32] tym w tej postaci liniowej, którą tutaj

[02:39:34] mamy, żebyśmy się nie przywiązywali, że

[02:39:37] a to będzie współczynnik kierunkowy, bo

[02:39:38] nie będzie, bo akurat będzie to wyraz

[02:39:41] wolny. Więc proszę się nie przywiązywać

[02:39:43] do literek, tak? Tylko do tego, co te

[02:39:46] literki tak naprawdę

[02:39:49] oznaczają. No i mamy bardzo prosty

[02:39:51] przykład, bo na przykładzie najłatwiej

[02:39:53] nam będzie przeanalizować to, co się

[02:39:55] tutaj

[02:39:57] dzieje. Mamy dwie

[02:40:01] sprawy do zbadania. Mianowicie

[02:40:06] wydajność godzinową robotników. Mamy 100

[02:40:09] robotników i zbadaliśmy jaka jest ich

[02:40:11] przeciętna wydajność w ciągu godziny,

[02:40:13] czyli ile tam bezbłędnie zrobią do

[02:40:15] elementy w ciągu godziny. No i się

[02:40:17] zastanawiamy, czy może jest jakiś

[02:40:21] związek między tym, jak dużo albo jak

[02:40:24] mało tych elementów są w stanie w ciągu

[02:40:27] godziny zrobić, a tym jak długo pracują,

[02:40:29] czyli ile mają lat doświadczenia

[02:40:32] zawodowego. No i oczywiście są

[02:40:36] teorie zarządzania,

[02:40:38] które mówią tak, no jest pewien taki

[02:40:42] jest pewna zależność, że no im dłużej

[02:40:45] pracujesz, learning by doing, tak?

[02:40:48] Pewnym życiu się uczysz, no jesteś

[02:40:49] bardziej sprawny. Jak jesteś nowym

[02:40:51] pracownikiem, to zanim nabędziesz pewną

[02:40:53] biegłość, no to trochę czasu zabiera.

[02:40:56] Więc tak, rzeczywiście możemy oczekiwać,

[02:40:58] że im dłużej pracujemy, tym rzeczywiście

[02:41:03] jest ta wydajność wyższa. Oczywiście w

[02:41:07] granicach rozsądku tu znowu się pojawia

[02:41:10] światełko, które zawsze nas musi

[02:41:13] niepokoić. Ktoś powie, no dobra, no ale

[02:41:15] z tego by wynikało, że jak ktoś ma 100

[02:41:16] lat doświadczenia, tak,

[02:41:19] no to powinien tych elementów bardzo

[02:41:21] dużo robić, skoro właśnie doświadczenie.

[02:41:23] wiemy, że tak nie jest. No bo to też

[02:41:25] jest do pewnego

[02:41:26] okresu. Potem to się stabilizuje, ale w

[02:41:29] pewnym wycinku, a my tutaj mamy taki

[02:41:31] wycinek dobrany, gdzie to doświadczenie

[02:41:33] jest stosunkowo

[02:41:35] krótkie, maksymalne doświadczenie będzie

[02:41:37] tam w granicach 20 lat, więc no ja mam

[02:41:40] więcej doświadczenia zawodowego, już

[02:41:42] dużo więcej niż 20 lat, więc a nie

[02:41:45] jestem taki stary zupełnie, nie? Więc

[02:41:47] tylko na pewnym obszarze będziemy się

[02:41:50] poruszali i to jest bardzo ważne,

[02:41:53] żebyśmy się żebyśmy sobie zdali sprawę,

[02:41:55] że my się w pewnym obszarze będziemy w

[02:41:58] obszarze, w którym ta regresja będzie

[02:42:00] dokonywana, będziemy poruszać. Ja wrócę

[02:42:03] do tego podsumowując, żeby to było

[02:42:04] jasne. Natomiast tutaj rzeczywiście

[02:42:06] stawiamy sobie taką hipotezę, że tak

[02:42:08] jest, że im dłużej ktoś pracuje, tym ma

[02:42:11] większą wydajność. Jest to logiczne,

[02:42:13] prawda? Jest to logiczne i sprawdzimy,

[02:42:17] czy rzeczywiście coś na rzeczy jest.

[02:42:21] No i mamy wykres, który wykres rozrzutu

[02:42:23] tutaj sobie zrobiliśmy na

[02:42:27] osi poziomej. Mamy staż pracy, bo

[02:42:31] będziemy uzależniać, uwaga, wydajność,

[02:42:33] która jest tu właśnie od tego stażu

[02:42:36] pracy, który jest na osi poziomek.

[02:42:38] Będziemy patrzeć po kolei.

[02:42:41] Określony staż pracy będzie nam się tu

[02:42:43] zwiększał, tak? Od lewej do prawej. 2 4

[02:42:47] 5 6 7 8 i tak dalej. I będziemy patrzyli

[02:42:50] jak poszczególne osoby tak tutaj

[02:42:54] mają jakie mają wyniki w zakresie

[02:42:57] wydajności. Czyli to jest każdy z tych

[02:43:00] 100 pracowników to jest jeden taki

[02:43:02] właśnie punkcik, jedno takie kółeczko.

[02:43:05] To jest jeden pracownik. No i my

[02:43:07] widzimy, że przeciętnie w tej naszej

[02:43:09] badanej

[02:43:11] próbie wyszło tak, że rzeczywiście

[02:43:13] widzimy, że im ktoś ma ten staż pracy

[02:43:16] dłuższy, tym no to jakoś przeciętnie

[02:43:20] rzeczywiście ta wydajność rośnie.

[02:43:22] Widzimy jednocześnie, że

[02:43:25] nie było osób o zerowym stażu pracy, że

[02:43:27] mieliśmy w badaniu cztery osoby, które

[02:43:29] miały staż pracy jeden, a ostatnia

[02:43:32] osoba, tak, którą badaliśmy, jeśli

[02:43:34] chodzi o najdłuższy staż pracy, miała 23

[02:43:36] lata stażu pracy. Czyli w tym przedziale

[02:43:38] się poruszaliśmy. Nie badaliśmy osób,

[02:43:40] które mają 30 lat stażu pracy i też nie

[02:43:42] badaliśmy osób, które są świeżo

[02:43:44] przyjęte. I na podstawie tych danych,

[02:43:47] tych 100 osób między stażem pracy 1 a 23

[02:43:51] zbadaliśmy zjawisko i będziemy próbowali

[02:43:54] dla tych właśnie

[02:43:57] danych z analizując te dane znaleźć

[02:44:02] znaleźć wzór. Co robimy? Liczymy

[02:44:06] korelację.

[02:44:10] Uprzednio ustaliliśmy, że badanie ma

[02:44:12] sens, że rzeczywiście takie

[02:44:15] zmienne mogą być ze sobą powiązane

[02:44:17] logicznie. Badamy korelację. Ta

[02:44:18] korelacja jest rzeczywiście

[02:44:21] silna. 0,8 to jest bardzo przyzwoity

[02:44:24] współczynnik korelacji liniowej pisona.

[02:44:26] Układa nam się liniowo. Też widzimy te

[02:44:28] czerwone linie, które wyznaczona tutaj

[02:44:30] dla pomocy, pomagają nam w percepcji, że

[02:44:32] rzeczywiście zmienia się to liniowo,

[02:44:34] jest to funkcja rosnąca. No i teraz

[02:44:37] musimy troszeczkę się zająć ponazywaniem

[02:44:41] tych

[02:44:42] nowych rzeczy, które nam się w naszych

[02:44:45] równaniach pojawią. Czyli zaczynamy od

[02:44:49] kierunku zależności. Tu jest kierunek

[02:44:52] bardzo prosty. Mianowicie badamy w jaki

[02:44:55] sposób wydajność, godzinowa wydajność

[02:44:59] będzie i czy jest uzależniona od stażu

[02:45:02] pracy. Zakładamy sobie jakąś hipotezę,

[02:45:05] która mówi, że im

[02:45:07] staż pracy będzie większy, tym wydajność

[02:45:11] również będzie rosnąć. To jest naszy

[02:45:14] punkt wyjścia. No i tym samym będziemy

[02:45:16] starali się objaśnić jak ta wydajność

[02:45:21] rośnie bądź maleje, czy jak zmienia się

[02:45:23] wydajność w zależności od różnego

[02:45:26] poziomu stażu pracy. Tak? No bo nie

[02:45:29] będziemy patrzyli jak wydajność wpływa

[02:45:31] na staż pracy, bo staż pracy jest dla

[02:45:33] nas niezależny zupełnie. Tak to my

[02:45:35] będziemy patrzyli jaki ktoś ma staż

[02:45:38] pracy i będziemy starali się znaleźć

[02:45:41] odpowiedź jaką może mieć w związku z tym

[02:45:44] wydajność. Czyli mamy dwie kategorie

[02:45:48] zmiennych. Pierwsza zmienna, którą w

[02:45:51] naszym przypadku jest wydajność, to jest

[02:45:54] zmienna zależna, zmienna objaśniana

[02:45:57] inaczej. Dlaczego? dlatego że my

[02:45:59] zakładamy, że wydajność będzie zależeć

[02:46:03] będzie zależeć od stażu pracy, czyli

[02:46:09] będzie objaśniana przez staż pracy i tym

[02:46:13] samym staż pracy, druga zmienna, która

[02:46:15] nam tutaj jest w naszym równaniu obecną,

[02:46:19] to jest zmienna

[02:46:22] niezależna, zmienna objaśniająca.

[02:46:24] Dlaczego? Bo przy pomocy stażu pracy

[02:46:27] będziemy objaśniać wydajność

[02:46:31] bardziej naukowo. My staż pracy zmienną

[02:46:34] niezależną albo zmienną objaśniającą

[02:46:36] będziemy nazywać predyktorem. Czyli

[02:46:38] powiemy, że predyktorem wydajności

[02:46:41] będzie staż pracy. Czyli staż pracy

[02:46:44] będzie nam

[02:46:47] objaśniać zmiany wydajności. Czyli

[02:46:50] zmiany w stażu pracy będą nam objaśniać

[02:46:53] wydajność. zmiany wydajności albo mówiąc

[02:46:55] już bardzo poprawnie używając strony

[02:46:58] biernej, która w języku polskim jest

[02:46:59] precyzyjna, bo u nas szyk zdania nie

[02:47:02] przesądza o byciu podmiotem bądź nie,

[02:47:06] powinniśmy powiedzieć tak:

[02:47:08] "Zmiany w zakresie wydajności będą

[02:47:12] objaśniane

[02:47:13] zmianami w stażu pracy i tym samym mamy

[02:47:18] zmienne objaśniane wydajność, zmienną

[02:47:21] objaśnianą wydajność i zmienną

[02:47:23] objaśniającą staż pracy. Mam nadzieję,

[02:47:26] że to dla państwa będzie jasne. Tak

[02:47:28] naprawdę

[02:47:30] gdybyśmy mieli użyć formuły

[02:47:34] najczęściej wykorzystanej,

[02:47:35] wykorzystywanej, to byśmy powiedzieli,

[02:47:37] że staż pracy jest predyktorem

[02:47:39] wydajności. Tak. Tak. Najczęściej byśmy

[02:47:41] powiedzieli, że staż pracy to predyktor

[02:47:43] wydajności i wtedy wszystko wiemy. No i

[02:47:46] proszę państwa, korzystamy z pakietu

[02:47:49] statystyka. wchodzimy jak państwo to

[02:47:51] tylko to jest miejsce na ćwiczenia

[02:47:53] oczywiście natomiast tylko pokażę że

[02:47:56] jednej rzeczy państwu powiem wchodzimy w

[02:47:58] modele za statystyka modele zaawansowane

[02:48:00] uwaga, taki upgrade intelektualny

[02:48:04] nie są to żadne modele zaawansowane tak

[02:48:06] no nie szalejmy, ale pakiet statystyka

[02:48:09] tak to nazywa potem mamy ogólne modele

[02:48:12] liniowe. pojaw się regresja prosta i

[02:48:15] wybieramy oczywiście zmienną zależną

[02:48:18] wydajną zmienną niezależną straż pracy

[02:48:20] klikamy na poszczególne

[02:48:22] kafelki dostajemy dostajemy wyniki. I

[02:48:25] teraz pierwszy raport który jest nam

[02:48:27] potrzebny do w ogóle rozpoczęcia pracy

[02:48:31] albo do przejścia do kolejnego etapu to

[02:48:33] jest ta

[02:48:36] statystyczna istotność tych dwóch

[02:48:39] rzeczy, które uzyskaliśmy. uzyskaliśmy

[02:48:41] statystyczną istotność odnoszącą się do

[02:48:43] wyrazu wolnego i statystyczną istotność

[02:48:45] odnoszącą się do stażu pracy. Czyli

[02:48:47] tutaj te P

[02:48:51] niskie niższe niż 005. Pamiętajmy, że

[02:48:54] jest to poziom naszego

[02:48:56] prawdopodobieństwa,

[02:48:59] który sobie założyliśmy naukach

[02:49:01] społecznych badaniach właśnie tego typu.

[02:49:06] Nie będziemy się teraz zastanawiać jak

[02:49:07] wyglądają hipotezy. One nie mają wzego

[02:49:08] znaczenia mechanicznie, bo tak jest po

[02:49:10] prostu najłatwiej. Jeśli tutaj mamy

[02:49:13] poniżej 005, to możemy mówić o

[02:49:17] istotności

[02:49:18] tych dwóch właśnie kwestii, czyli o

[02:49:23] statystycznej istotności wyrazu wolnego

[02:49:25] i istotności

[02:49:27] właśnie tych rzeczy związane ze stażem

[02:49:30] pracy. Co to oznacza? To oznacza, że

[02:49:33] budujemy model i jesteśmy krok dalej, bo

[02:49:36] jeżeli mamy istotność statystyczną

[02:49:38] tutaj, zarówno wyrazu wolnego, jak i

[02:49:39] tego predyktora, to jest to zielone

[02:49:43] światło do tego, żeby budować model, że

[02:49:45] uzyskamy wzór, który będzie coś wart.

[02:49:47] Tak byśmy mogli powiedzieć. Uyskamy,

[02:49:50] jest szansa, że uzyskamy model, który

[02:49:52] czy wzór, który będzie dobrze nam

[02:49:55] opisywał rzeczywistość. Gdyby się

[02:49:57] okazało, że tutaj mamy kłopoty z

[02:49:59] istotnością statystyczną, to byśmy

[02:50:01] pewnie badanie zakończyli, powiedzieli:

[02:50:03] "Ha podstawie tych danych chyba nic

[02:50:04] dobrego nam nie wyjdzie". Matematycznie

[02:50:06] zawsze wyjdzie coś, tylko że to nie

[02:50:08] będzie dla nas użyteczne. Istotność

[02:50:10] statystyczna, czyli tutaj P mniejsze niż

[02:50:12] 005 daje nam zielone światło na tym

[02:50:14] etapie. Super. No i teraz, proszę

[02:50:17] państwa, zbudujemy za chwilę

[02:50:21] wzór. Zbudujemy za chwilę

[02:50:25] wzór, który będzie opisywał nam tę

[02:50:28] prostą, tak? Bo mamy zbudować wzór na

[02:50:31] funkcję liniową. Na razie żadnych

[02:50:34] logarytmicznych, żadnych wykładniczych,

[02:50:35] nie tylko funkcję liniową. yyy i ten

[02:50:38] wzór jesteśmy w stanie zrobić yyy

[02:50:40] zawsze. No i teraz pytanie jest tylko

[02:50:42] takie, czy ten wzór, który zawsze

[02:50:44] jesteśmy w stanie zrobić, nawet

[02:50:46] najlepszy z możliwych, czy on będzie

[02:50:48] wystarczająco dobry do tego, żeby na

[02:50:50] bazie tego wzoru cokolwiek później móc

[02:50:54] przewidywać, móc wnioskować.

[02:50:57] Pierwszą rzecz mamy za sobą, czyli tę

[02:50:59] statystyczną istotność zweryfikowaną

[02:51:01] pozytywnie jest okej, ale druga sprawa,

[02:51:03] czyli tak zwany

[02:51:05] współczynnik determinacji r kwimy

[02:51:10] określić po co? po to, żeby zobaczyć jak

[02:51:12] dobrze ten wzór będzie nam wyjaśniał,

[02:51:16] będzie nam objaśniał zmiany wydajności

[02:51:19] poprzez właśnie zmiany w zakresie stażu

[02:51:22] pracy. Czy będzie duża część tych

[02:51:25] naszych danych

[02:51:28] rzeczywiście według tego wzoru

[02:51:30] objaśniana? Bo nigdy nie będzie tak, że

[02:51:32] wzór będzie idealny. No, no, no trudno.

[02:51:34] Byśmy musieli bardzo karkołomną

[02:51:36] matematycznie zrobić wielomian pewnie

[02:51:38] setnego stopnia. pewnie by komputery

[02:51:39] kwantowe nam wymiękły. No nie jesteśmy w

[02:51:42] stanie chyba matematycznie czegoś

[02:51:43] takiego zrobić, żeby uzyskać perfekcyjny

[02:51:45] wzór dla tych 100 obserwacji,

[02:51:48] ale metodą najmniejszych kwadratów

[02:51:49] jesteśmy w stanie uzyskać bardzo dobre

[02:51:52] przybliżenie. Tylko pytanie, czy ono

[02:51:53] będzie wystarczająco dobre.

[02:51:57] Musimy sobie znowu jakiś punkt

[02:52:00] odniesienia założyć. Ten punkt

[02:52:01] odniesienia to jest współczynnik r kwści

[02:52:07] co najmniej 0,6. Czyli jeżeli uzyskamy

[02:52:09] wartości dla r kwjnie

[02:52:11] 0,6, to my przyjmujemy, że ten wzór jest

[02:52:16] w porządku. My uzyskaliśmy tutaj r kw,

[02:52:19] to jest ten r kwadrat, powiedzmy

[02:52:21] wielokrotny albo skorygowany. Raczej ten

[02:52:23] będziemy brali dla naszych analiz

[02:52:26] na poziomie 0,65. Więc mamy więcej niż

[02:52:31] 0,6 nasze referencyjne jest okej. Czyli

[02:52:34] widzimy, że zmienna objaśniająca, mówiąc

[02:52:37] już tak interpretacyjnie,

[02:52:39] pozwoliła nam wyjaśnić

[02:52:41] ponad 65% zmian w zakresie w zakresie

[02:52:46] wydajności pracy, czyli w zakresie tej

[02:52:48] zmiennej objaśnianej. Bardzo dobrze.

[02:52:53] Czyli jest to na satysfakcjonującym

[02:52:56] poziomie. I druga rzecz, która z tego

[02:52:58] raportu nam płynie, to jest

[02:52:59] współczynnik,

[02:53:01] to jest wartość P dla modelu, który

[02:53:03] tutaj mamy

[02:53:05] na końcu, czyli dostaliśmy model, który

[02:53:08] jest

[02:53:10] w sposób zadowalający skonstruowany, bo

[02:53:14] wyjaśnia co najmniej 0,6 tej zmienności.

[02:53:17] Tu mamy nawet 65%, więc jest to więcej

[02:53:19] niż 0,6. Przyzwoity wynik. i

[02:53:21] jednocześnie pokazał nam program, że ten

[02:53:25] model jest statystycznie istotny. To

[02:53:27] znaczy w dużym skrócie możemy wnioski

[02:53:31] rozciągać na wszystkich pracowników, z

[02:53:34] których ta próba pochodziła, jeżeli

[02:53:36] rzeczywiście byśmy taką sytuację mieli.

[02:53:39] No i proszę państwa, teraz musimy wzór,

[02:53:42] wiemy, że on ten wzór jest dobry,

[02:53:44] przydatny, no to musimy go w końcu

[02:53:46] znaleźć. E, więc kolejny raport, który

[02:53:50] mamy

[02:53:52] w programie pozwala nam na co? Na to,

[02:53:56] żeby wpisać miejsce tych literek w

[02:53:59] naszej postaci ogólnej, tak, naszej

[02:54:02] prostej, wpisać konkretne wartości.

[02:54:05] Czyli zamiast wyraz wolny wpisać 62 57

[02:54:08] czy 58, a zamiast współczynnik

[02:54:10] kierunkowy prosty tutaj wpisać 0,73. I

[02:54:14] tym samym mamy, proszę państwa,

[02:54:17] postać prostej,

[02:54:21] która

[02:54:22] przyjmuje wzór na wydajność. Zobaczmy.

[02:54:25] Wydajność to jest 6258. Dlaczego? Bo

[02:54:29] tyle wynosił wyraz tutaj 6258. Tak. yyy

[02:54:34] dodać 0,73

[02:54:37] x staż pracy dodać błędy. I teraz

[02:54:39] bystrzy obserwatorzy, bystre

[02:54:41] obserwatorki zobaczyli państwo,

[02:54:43] zobaczyliście, że ten wzór był już

[02:54:47] podany przy okazji naszego wykresu

[02:54:50] rozrzutu. Tutaj od razu program nam

[02:54:53] proszę zwrócić uwagę od razu ten

[02:54:56] wzór podał i bardzo dobrze podał nam

[02:55:00] wzór, ale my jeszcze nie wiedzieliśmy,

[02:55:01] czy ten wzór jest dla nas użyteczny, czy

[02:55:04] on jest przydatny. Musieliśmy najpierw

[02:55:06] sprawdzić tutaj, że mamy istotność

[02:55:10] statystyczną dla każdego z parametrów.

[02:55:12] Potem musieliśmy wyliczyć r

[02:55:14] kwspółczynnik

[02:55:17] jeszcze jeszcze p dla całego modelu i

[02:55:20] dopiero wtedy tak ten wzór mogliśmy

[02:55:24] uznać za dobry. No i teraz jak to yyy

[02:55:28] mamy yyy jeśli chodzi o interpretację

[02:55:32] yyy przed sobą mamy znane wartości tych

[02:55:36] współczynników. Mamy wartość

[02:55:38] współczynnika kierunkowego, mamy wartość

[02:55:41] wyrazu wolnego. I teraz jak to

[02:55:43] interpretować? Zaczniemy od tego

[02:55:44] współczynnika nachylenia, tak? czyli tak

[02:55:47] naprawdę tangensu. Widzimy ten 0,73

[02:55:51] oznacza, że jak będzie przyrastać nam o

[02:55:54] jednostkę zmienna niezależna, czyli w

[02:55:57] tym wypadku

[02:55:59] staż pracy, to będzie się zmieniać o

[02:56:03] 0,73

[02:56:05] naszych jednostek, czyli 0,73 elementu

[02:56:09] na godzinę wydajność, czyli byśmy mogli

[02:56:12] powiedzieć, że każde 10 lat przyniesie

[02:56:15] nam wzrost wydajności o 7,3 trzy

[02:56:19] elementy elementy to jest ten yyy yyy

[02:56:23] współczynnik kierunkowy. To jest to

[02:56:26] 0,73, czyli każdy rok to jest o 0,73

[02:56:32] przeciętnie więcej elementów na godzinę.

[02:56:35] A wyraz wolny pokazuje nam pewną bazę,

[02:56:39] od której startujemy. Gdybyśmy

[02:56:41] teoretycznie przyjęli, że w ogóle nie ma

[02:56:43] tak

[02:56:45] nikt z pracowników żadnej a żadnego

[02:56:49] doświadczenia, no to to byłby ten punkt

[02:56:51] przecięcia z osią, tak? To jest ten

[02:56:53] wektor przesunięcia matematyczne.

[02:56:55] Oczywiście my wiemy z matematyki, że

[02:56:57] wyraz wolny to jest ten ta wartość, do

[02:56:59] którą dodajemy do tego ile przynu zawsze

[02:57:01] na każdym poziomie. Czyli nasza

[02:57:04] wydajność to będzie te 0,73

[02:57:07] elementu na godzinę z każdym rokiem,

[02:57:09] tak? I do tego zawsze dodajemy stałą

[02:57:12] wartość 62. Więc jak ktoś ma 10 lat

[02:57:15] stażu pracy, no to ma 10 x 0,73, to jest

[02:57:19] 7,3 i dodać 62, czyli będzie to około 70

[02:57:26] w sumie, prawda? I jakbyśmy spojrzeli

[02:57:29] przeciętnie dla 10 tak, to ta czerwona,

[02:57:32] o to jest ta czerwona linia rzeczywiście

[02:57:34] wychodzi około 70. I dzięki temu, że

[02:57:38] uzyskaliśmy ten wzór, my jesteśmy w

[02:57:40] stanie

[02:57:42] bez badania

[02:57:44] odpowiedzieć,

[02:57:45] oszacować ile pracownik jaką będzie miał

[02:57:49] wydajność w zależności od stażu pracy.

[02:57:51] Ktoś powie, dobra mam tu pana Henia, on

[02:57:53] ma 5 lat lat stażu pracy. Na jaką

[02:57:55] wydajność możemy liczyć z takim

[02:57:57] pracownikiem, który ma 5 lat wydajności?

[02:57:59] No to my wiemy, no 5 x 073 + 62, prawda?

[02:58:02] No i wiemy, że to będzie mniej więcej

[02:58:04] jakieś 66

[02:58:05] elementów. No dobrze, a jaką wydajność

[02:58:07] ma ktoś, kto ma tam 14 lat stażu pracy?

[02:58:10] No to liczymy 14 x 0 73 do 62 i

[02:58:13] uzyskujemy. A ktoś powie, no dobra, a

[02:58:14] jaką wydajność będzie miał ktoś, kto ma

[02:58:17] 30 lat stażu pracy? Jaką, na jaką

[02:58:19] wydajność możemy liczyć? A my wówczas

[02:58:21] mówimy: "Aha, tego ci nie powiem

[02:58:23] dlaczego. Bo nasz model osadzony jest

[02:58:26] między 1 a 23 i my możemy z mniejszym

[02:58:30] lub większym poziomem dokładności,

[02:58:32] mówiąc, mówić o wydajności dla tego

[02:58:36] przedziału regresji. Czyli możemy nasze

[02:58:40] rozważania tylko prowadzić w zakresie

[02:58:44] stażu pracy między 1 a 23, bo to był ten

[02:58:47] punkt, to był ten przedział, to był ten

[02:58:50] punkt wyjścia do analiz. mieliśmy tylko

[02:58:53] dane z pracowników, którzy spełniali

[02:58:56] warunki, mieli nie mniej niż jeden i nie

[02:58:58] więcej niż 23 lat stażu pracy. Jeżeli

[02:59:00] teraz chcemy zapytać ile na jaką

[02:59:03] wydajność możemy liczyć u kogoś kto ma

[02:59:05] 30 lat stażu prasy to nasz wzór może

[02:59:09] przekłamywać bo my nie znamy nie

[02:59:13] liczyliśmy, nie nasza funkcja regresji

[02:59:16] nie określała takich właśnie wartości

[02:59:20] więc trzeba bardzo uważać żeby się z tą

[02:59:23] naszą interpretacją zbyt daleko nie

[02:59:27] posunąć

[02:59:29] proszę Proszę państwa, to jest jeśli

[02:59:32] chodzi o nasze

[02:59:36] rozważania

[02:59:39] już.

[02:59:41] No myślę, że na dzisiaj wystarczy. Jest

[02:59:44] niedziela,

[02:59:45] mają państwo na pewno mnóstwo ciekawych

[02:59:48] rzeczy w planach. Pogoda jak widzę

[02:59:50] przynajmniej na kaszubach dopisuje, więc

[02:59:54] bardzo serdecznie państwu dziękuję i

[02:59:56] pamiętajmy o tym dodatkowym wykładzie,

[02:59:58] który wpisaliśmy

[03:00:00] i wtedy też porozmawiamy jeszcze oprócz

[03:00:04] tego wykładu jeszcze porozmawiamy chwilę

[03:00:05] o egzaminie,

[03:00:07] no a potem będziemy mieli egzamin od

[03:00:09] razu, tak więc jakby czasu będzie

[03:00:12] stosunkowo

[03:00:14] mało, ale też tak jak państwu obiecałem,

[03:00:17] ten egzamin nie będzie będzie szaleńczo

[03:00:19] trudny, myślę.

[03:00:22] No też nie będzie szaleńczo łatwy,

[03:00:23] umówmy się. Wiemy z informacji dzisiaj

[03:00:27] między wierszami przekazane, że zwykle

[03:00:30] państwo, którzy studiujecie ekonomię

[03:00:32] troszeczkę lepiej piszecie od państwa,

[03:00:34] którzy studiują MSG. No ale

[03:00:38] czas to zmienić.

[03:00:40] Nie, nie, że macie gorzej z ekonomi

[03:00:41] napisać, tylko czas na to, żeby MSG

[03:00:44] podciągnęło się trochę, jeśli chodzi o

[03:00:46] państwa wyniki. Jak się komuś nie

[03:00:48] powiedzie, to spoko, no problem. We

[03:00:51] wrześniu się spotkamy, czy spotkacie i

[03:00:56] napiszemy. Będzie dobrze. Czy mają

[03:00:58] państwo jakieś pytania?

[03:01:00] >> Ja mam pytanie odnośnie tego dodatkowego

[03:01:03] wykładu, bo ja osobiście nie widziałam

[03:01:05] nigdzie takiej informacji, bo to miałaby

[03:01:07] być wtedy w piątek, mam rozumieć?

[03:01:10] Właśnie patrzę, kiedy my to mamy

[03:01:12] zapisane.

[03:01:14] Właśnie patrzę, kiedy my to mamy

[03:01:16] zapisane, bo tutaj zmieniliśmy.

[03:01:19] Myślę, że tak. Myślę, że zrobimy. Myślę,

[03:01:21] że zrobimy.

[03:01:23] No mamy czas inaczej egzaminy w sobotę,

[03:01:26] tak? 20, więc na pewno na pewno do tego

[03:01:28] czasu musimy coś zrobić. Ja myślałem o

[03:01:30] piątkowym wieczorze. Być może będzie to,

[03:01:33] być może to będzie 19, być może będzie

[03:01:35] to, być może będzie to 12,

[03:01:38] ale, ale jednak, jednak będzie to

[03:01:41] piątek. Jeszcze

[03:01:44] pracujemy nad tym, żeby zrobić, bo tak

[03:01:47] jak mówię, no niestety są wydarzenia, po

[03:01:50] prostu w weekendy się zaczynają w

[03:01:52] czerwcu na wydziale, seminaria naukowe,

[03:01:55] konferencje i ja muszę na takich być.

[03:01:59] Więc dlatego ten piątek pewnie wieczorem

[03:02:02] jako jako dodatkowy czas, ale tak jak

[03:02:05] mówię, muszę to uzgodnić z planistami.

[03:02:06] Będę to uzgadniał w poniedziałek i

[03:02:09] pewnie państwu taką informację

[03:02:12] w poniedziałek, wtorek, ten

[03:02:13] poniedziałek, ten wtorek wyślę, jakby

[03:02:16] nam się udało dopasować,

[03:02:19] ale robiliśmy już podejście, pani się

[03:02:20] nie, ale gdyby tam czasem są zmiany,

[03:02:22] udało się dopasować w jakąś sobotę,

[03:02:24] niedzielę, kiedy macie państwo zdalne

[03:02:26] jeszcze zajęcia, będzie z tym kłopot,

[03:02:27] ale może to postaram się wtedy wrzucić

[03:02:30] jakąś lukę między państwa zajęciami, ale

[03:02:32] tego obiecać nie mogę, więc raczej

[03:02:34] nastawmy się, że to będzie

[03:02:36] któryś z po prostu jeszcze piątków

[03:02:41] raczej czerwcowych niż niż majowych.

[03:02:44] Dobrze. A egzamin tak jak mówiłem w

[03:02:47] sobotę mamy, więc napiszecie będzie

[03:02:50] będzie dobrze. Coś jeszcze?

[03:02:52] >> Dobrze, dziękuję

[03:02:53] >> bardzo. Proszę. Okej. No dobrze, drodzy

[03:02:57] państwo. Zatem

[03:02:59] zatem miłej niedzieli.

[03:03:02] Do widzenia.

[03:03:05] Do widzenia. Dziękujemy. Do widzenia.
