Statystyka obecna jest w niemalże wszystkich dziedzinach naukowych – od archeologii po muzykę. Najczęściej widzimy ją jednak w postaci słupków poparcia dla polityków. W rozmowie z prof. dr hab. Andrzejem Sokołowskim odpowiemy na pytanie, czy statystykę można wykorzystywać do okłamywania opinii publicznej
MATEUSZ TOMANEK: Co należałoby zmienić w polskim systemie edukacji?
PROF. DR HAB. ANDRZEJ SOKOŁOWSKI*: Myślę, że w szkołach większy nacisk powinien być położony na naukę matematyki. Poza tym na wszystkich kierunkach, na których mam wykłady, pytam studentów, który przedmiot ja uważam za najważniejszy na studiach. Odpowiedź raczej ich zaskakuje: filozofia. Powinniśmy uczyć się o myślicielach, podstawowych kwestiach dotyczących bytu, poznania itd. Potem na każdych studiach jest jakiś przedmiot wiodący – u nas jest to ekonomia, a statystyka jest tutaj przedmiotem zdecydowanie pomocniczym.
Jedynie pomocniczym?
Mamy pomagać ludziom analizować dane i tylko tyle, no, może na matematyce pojawia się jakiś dodatkowy materiał. Bo zdarzają się różne sytuacje, takie jak np. podczas moich gościnnych wykładów na jednej z krakowskich uczelni. Przedstawiałem m.in. temat rozkładów prawostronnie asymetrycznych. Przed dokonaniem analizy statystycznej takiej zmiennej trzeba jej wartości zlogarytmować. Studenci zgłosili jednak, że nie wiedzą, co to jest logarytm, a przecież jest to operacja z gatunku podstawowych.
A matematykę by Pan okroił?
Byłbym za wycofaniem rachunku prawdopodobieństwa ze szkoły, szczególnie w formie, w jakiej nauczają go matematycy, bo to jest tragedia. Oczywiście, że można podać twierdzenie i definicję, ale to trzeba robić też trochę na wyczucie. Andriej Kołmogorow, który zaproponował tzw. aksjomatyczną definicję prawdopodobieństwa, był też praktykiem. Uważam, że przydałoby się więcej matematyki w szkołach, ale jednak bez rachunku prawdopodobieństwa.
A na studiach?
Mniej zarządzania – i mówię to mimo tego, że pracuję na Wydziale Zarządzania.
Co laik rozumie jako statystykę, a czym ona nie jest?
Najlepiej można wytłumaczyć to na przykładzie rozumienia informacji dotyczącej średniej płacy. Jeśli czytamy, że średnia płaca wynosi ponad 5,2 tys. zł, to większość ludzi jest niezadowolonych i mówi: „Przecież ja tyle nie zarabiam”. W ten sposób pojawia się takie podświadome przesłanie, że „GUS kłamie”. Po pierwsze, należy odpowiedzieć na pytanie, czy to jest kwota brutto czy netto. Jeżeli to jest kwota brutto to – jak ostatnio oceniono – 27 proc. z tego jest zabierane przez państwo w formie różnych podatków. Ludzie uważają tymczasem, że 5,2 tys. zł to taka płaca, że połowa ludzi zarabia powyżej tej kwoty, a połowa – poniżej.
Jak to pojąć?
Do podstawowej edukacji powinno należeć wyjaśnianie, że takie rozkłady płac – a tak się to nazywa – są prawostronnie nieasymetryczne. To strasznie brzmi, ale można powiedzieć tak: mało jest ludzi, którzy zarabiają duże pieniądze, natomiast jest wielu ludzi, którzy zarabiają małe pieniądze, a ci zarabiający dużo ciągną średnią w prawo – ku większym wartościom. Natomiast mediana to jest taka wartość, która pokazuje, że połowa zarabia powyżej, a połowa – poniżej średniej.
Rzadko się słyszy termin „mediana”.
Ale może właśnie ten termin powinno się podawać i popularyzować, ponieważ w tym przypadku osoby zarabiające dużo mają mniejszy wpływ na średnią. Przy rozkładach płac mediana jest mniejsza niż średnia arytmetyczna. Ponadto średnia jest charakterystyką nieodporną, co oznacza, że wystarczy zmienić jedną wartość i zmieni się średnia, a przy medianie trzeba by zmienić połowę wartości, żeby ta miara się znacząco zmieniła. W statystyce nazywa się to punktem przełamania.
A przykład pozapłacowy, dotyczący np. wyborów?
W serwisach informacyjnych co chwilę słyszymy wiadomość w stylu, że gdyby wybory zostały przeprowadzone dzisiaj, to jedna partia miałaby „takie” poparcie, a druga „takie”. Tymczasem jeżeli gdzieś pojawia się informacja, że badanie zostało przeprowadzone metodą telefoniczną, to wiemy już, że to nie jest dobre badanie. Jest taki model, który rysuję studentom na tablicy, i zawsze mówię, że w każdym momencie, na każdym wykładzie, mogę powiedzieć, gdzie jestem. Model składa się z dwóch balonów. Duży balon w statystyce nazywany jest zbiorowością generalną, populacją lub – tak jak ja to nazywam – mechanizmem zjawiska.
Ja nigdy nie jestem w stanie do końca zobaczyć tego mechanizmu, bo widzę tylko próbę. Bardzo ważne jest losowanie tej próby i to, jak ta próba jest zdobywana. Do ankiet o wynikach wyborów losuje się ok. 1 tys. osób, a dokładnie powinno być 1067, ponieważ prawdopodobieństwo popełnienia błędu większego niż 3 proc. musi być małe, a powszechnie przyjmuje się, że powinno ono wynosić 0,05.
Zdarzają się bolesne błędy?
W ostatnim czasie w oczy najbardziej rzucają się niewłaściwe prognozy wyborcze dotyczące wyniku wyborów samorządowych w Warszawie. Rafał Trzaskowski wygrał je w pierwszej rundzie – i tutaj nie mam absolutnie żadnego komentarza politycznego – tylko statystyk powinien się nad tym zastanowić.
Wierzyć czy nie wierzyć statystyce?
Pytanie powinno brzmieć: „Na ile mamy wierzyć statystyce?”. Należy rozpatrywać, jak wiele mamy instytucji, które badają nastroje społeczne. Rozpatrujemy ciąg – jeżeli różnice są losowe, to raz jedna wartość powinna być powyżej, a raz poniżej. Jeżeli jakaś pracownia zawsze podaje prognozy wyższe dla „Partii A” i niższe dla „Partii B”, to już powinno się nam zapalić światełko mówiące, że coś jest tam nie w porządku. Była taka książka z 1954 r. „How to lie with statistics”, czyli jak kłamać za pomocą statystyki. Cała rzecz polegała tam nie na kłamstwie, ale raczej na takim prezentowaniu wykresów statystycznych, by uzyskać takie wrażenie u odbiorcy, jakiego byśmy sobie życzyli, nawet jeśli byłoby to nie do końca zgodne z prawdą.
Na jakim poziomie nauczania powinna być wprowadzona nauka statystyki?
Może to, co powiem, będzie niepopularne, ale osobiście uważam, że powinno się to odbywać dopiero na studiach wyższych. W tym schemacie statystyka jest praktycznie wszędzie – mam zajęcia na Uniwersytecie Medycznym w Łodzi, kiedyś miałem zajęcia na AWF-ie w Katowicach, a mój szef, nieżyjący już prof. Zając, prowadził nawet zajęcia na Papieskiej Akademii Teologicznej. Nawet w muzyce pojawia się statystyka. Na europejskich i światowych konferencjach na temat analizy danych, mamy zazwyczaj dwie–trzy sesje poświęcone analizie muzyki. Statystyka jest także ważnym przedmiotem na uczelniach rolniczych i technicznych. Nie ma jej za to na studiach aktorskich, ale to jest zrozumiałe.
Co trzeba zrobić, by poprawnie nauczać statystyki?
Recepty brak. Ja uważam, że nawet u nas statystyka jest źle uczona, co jest efektem tego podziału na studia licencjackie i magisterskie. Gdy byłem studentem, to po prostu mieliśmy wykład ze statystyki i tam było wszystko. A teraz niby ma się uczyć studentów pierwszego stopnia, jak liczyć przykładowo średnią arytmetyczną czy współczynnik korelacji, choć do tego nie potrzeba żadnych studiów, ponieważ łatwo można to zrobić choćby w Excelu.
Kto wykorzystuje niewiedzę społeczeństwa o statystyce?
Korzyści z takiego stanu rzeczy może czerpać każdy. Kiedyś na naszej uczelni usiłowano zorganizować konferencję na temat kłamstw w statystyce, na co podnieśliśmy raban. Moja opinia jest taka, że statystycy nie kłamią. Kłamią politycy.
Politycy kłamią czy może raczej kłamliwie interpretują?
Może „kłamstwo” to rzeczywiście zbyt ostre słowo, ale oni interpretują dane statystyczne po swojemu i można by przywołać wiele takich sytuacji. Weźmy przykład dzików. Jeżeli będę chciał udowodnić, że w Polsce nie chcemy wcale wybić tak dużo dzików, bo tylko 200 tys., a w Niemczech 600 tys., to statystyk może powiedzieć: dobrze, ale zobaczmy, jaki tam jest areał, na którym dziki żyją, a jaki areał jest w Polsce; jaka tam jest populacja tych zwierząt, a jaka jest u nas; jaki procent tej populacji chcemy wybić itd.
To są szczegółowe pytania, a nie tylko rzucanie jednego hasła. Inny, bardzo kontrowersyjny przykład, to pedofilia wśród księży. Spójrzmy, ilu jest tzw. narażonych, i weźmy, jaki procent pedofilów jest np. – ponieważ nie chcę obrażać jakieś grupy zawodowej – wśród dyrygentów chórów dziecięcych, ilu ich jest i ilu zostało skazanych. Ilu nauczycieli wychowania fizycznego, ilu murarzy – podobno dużo, co jest zaskakujące.
A teraz zobaczmy, jaka jest populacja księży, i dopiero wtedy możemy zobaczyć rozsądne porównanie, gdzie ten problem jest większy. Oczywiście, jeśli ktoś tego nie dopowie do końca, może te dane wykorzystać w jedną lub w drugą stronę.
Czyli główny zarzut pod adresem polityków może dotyczyć tego, że nie przedstawiają całego kontekstu?
Tak bym to ujął. Rozumiem polityków, że oni chcą przekonać do swoich racji. Jest takie piękne powiedzenie: „Nikt wam nie da tyle, ile ja wam mogę obiecać”. Mówi się, że w polityce liczy się skuteczność, ale ja uważam, że konieczna jest także uczciwość – i to po każdej stronie. Statystyka dostarcza faktów, natomiast potem jest jeszcze interpretacja.
W jaki jeszcze sposób politycy wykorzystują dane statystyczne?
Dobór celowych danych. O jednych rzeczach się mówi, a o innych już nie. Politycy, a często także dzienniki telewizyjne, przedstawiają tę samą wiadomość czy temat na różne sposoby, wychodząc poza fakty. A statystyka to nauka o faktach.
Robiliśmy kiedyś analizę wyników głosowania w Sejmie. Dokładniej – analizę 8 tys. głosowań w Sejmie VI kadencji. Ilu powinno być posłów, żeby wyniki głosowania były takie same.
Ile Wam wyszło?
Siedmiu – przy założeniu, że każdy z tych siedmiu posłów miałby taki procent głosów, jaki procent poparcia ma jego partia. Wtedy głosowania wyglądałyby mniej więcej tak samo jak przy pełnym składzie izby i dyscyplinie partyjnej. W tym momencie należałoby się zastanowić, czy nie warto by wrócić do demokracji bezpośredniej, a przede wszystkim zlikwidować skandaliczny fragment pkt. 1 art. 1 konstytucji, który głosi, że posłów nie wiążą instrukcje wyborców.
*Prof. dr hab. Andrzej Sokołowski jest wykładowcą i kierownikiem Zakładu Statystyki na Uniwersytecie Ekonomicznym w Krakowie. Zajmuje się statystyką matematyczną oraz analizą danych. W kręgu jego zainteresowań znajdują się m.in. statystyka w medycynie, prognozowanie, analizy regionalne, statystyka wielowymiarowa, ekonometria oraz różne zastosowania metod ilościowych.