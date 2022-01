Uusi Tilastotieteen sanasto -kirja on hieno katsaus suomen kielen ja suomenkielisen tieteen historiaan ja myös mahtavaa kielellistä ilottelua. Aamulehti kokosi visan sanaston herkullisista termeistä.

Tilastotiede on yksi välttämättömistä tieteistä ilmastonmuutoksen pysäyttämisessä. Ilman tilastotiedettä ei pystytä mallintamaan ilmastonmuutosta eikä fokusoimaan tutkimusta olennaisiin asioihin ilmastonmuutoksen hidastamiseksi.

Tilastotieteen menetelmiä on sovellettu Suomessa 1800-luvun alkupuolelta lähtien. Suomenkielisen tilastotieteen pioneeri oli Johan Eklöf. Hän julkaisi vuonna 1850 Jäänlähtö-ajaat Kokemäen virrassa vuosina 1801–1849 todenvaihe-laskulla määrätyt -artikkelin. Se oli ensimmäisiä suomenkielisiä tieteellisiä artikkeleita, tarkasti sanottuna toinen. Santeri Ingmanin artikkeli Ovatko taudit itsenäisiä, eläväisiä olentoja? oli ilmestynyt vain pari viikkoa aiemmin.

Tuohon asti Suomessa oli julkaistu tieteellisiä tekstejä muun muassa ruotsiksi tai latinaksi. Suomea pidettiin mahdottomana ja liian rahvaana kielenä tieteelliseen kirjoittamiseen. Nykyisin suomi on myös tieteen kieli. Uhka kuitenkin on, että suomi rapautuu tieteen kielenä.

Nyt suomea tuetaan tieteen ja erityisesti tilastotieteen kielenä.

Suomen Tilastoseura julkaisi juuri ennen joulua uuden Tilastotieteen sanaston. Siinä englanninkieliset tieteelliset termit on paikoin nerokkaasti suomennettu.

”Otetaan tämmöinen yleinen termi kuin ’survey’ . Se on ollut vaikea kääntää. Esimerkiksi kyselytutkimus on liian rajaava sana. Meidän käännös sille on ’luotaus’. Jos sen kääntää verbiksi, saadaan ’luodata’. Jos tuon verbin jakaa osiin saadaan ’luo data’ ja siitähän surveyssa on kyse”, sanoo Pekka Pere, yksi Tilastotieteen sanaston neljästä kääntäjästä ja Tampereen yliopiston yliopisto-opettaja.

Luotaus on vasta lämmittelyä. Kun Tilastotieteen sanastoa lukee, aukeaa suomen kielen ilottelu. Silmissä vilisee kiehtovia termejä, kuten ”oudokki” ja ”menneistäminen”, tai ”dimensiokirous”.

”Mielestäni ’oudokki’ on aika hyvä termi. Se on ytimekäs, paljon lyhyempi kuin paljon käytetty ’poikkeava havainto’. Se vähän jopa muistuttaa englanninkielistä synonyymiä ’outlier’. Kyse on siis yhdestä havainnosta, joka on täysin erilainen kuin muut havainnot”, Pere kertoo.

”Jopa tässä Eklöfin aineistossa on yksi oudokki. Se on vuosi 1822. Silloin oli mahdottoman lämmin kevät.”

’Menneistäminen’ taas on käännös englanninkieliselle tilastotieteen termille ’backcasting’.

”Menneistäminen, backcasting, on forecastingin, eli ennustamisen peilikuva. Se on menneisyyden mallittamista”, Pere sanoo.

”Oudokki” ja ”menneistäminen”. Pekka Pere on hyvin tyytyväinen muiden muassa näihin tilastotieteen uusiin suomenkielisiin termeihin.

Mikä? Tilastotieteen sanasto Suomen Tilastoseuran joulukuussa 2021 julkaisema suomi-englanti-, ja englanti-suomi-tilastotiedesanakirja. Kirjoittajat Juha Alho, Elja Arjas, Esa Läärä ja Pekka Pere. Pekka Pere on Tampereen yliopiston yliopisto-opettaja tilastotieteessä. Pere on kirjoittanut kirjaan myös Tilastotieteen termien suomentamisen historiasta luvun, joka avaa mainiosti suomalaisen tieteen ja tieteen kielen kehitystä. Tilastotieteen sanastoa voi tilata Tiedekirjakaupasta, osoitteesta tiedekirja.fi.

Kävisikö aineistotiede?

Yhteen vahvaan sanaan Pere ja hänen kääntäjäkollegansa eivät kuitenkaan koskeneet, vaikka tarvetta ehkä olisi.

”Itse termi tilastotiede ei ole minun mielestäni ihan onnistunein. Se antaa kuvan vähän tällaisista kuivista virallisista tilastoista ja niiden käsittelystä, vaikka oikeasti tilastotiede mallintaa ja hahmottaa hyvin jännittäviä empiirisiä ilmiöitä tilastollisin menetelmin”, Pere sanoo.

Mikä sitten voisi olla parempi nimitys tilastotieteelle?

Pere kiemurtelee hetken ja painottaa, että vastauksessa kyse on täysin hänen henkilökohtaisesta mielipiteestään. ”Aineistotiede olisi minusta hyvä nimitys tilastotieteelle. Tilastotiedehän on väline, jolla analysoidaan mitä tahansa dataa. Otetaan esimerkiksi vaikkapa koronapandemia. Sen tutkimisessa sovelletaan epidemiologiassa vimmatusti tilastotiedettä”, Pere sanoo.

Kun allekirjoittanut opiskeli tilastotieteen peruskurssia Tampereen yliopistossa noin vuonna 1990, kaikki alkoi todennäköisyyslaskennasta. Ainoa, mitä kurssista muistan, on professorin heitto, että hän ei lottoa koskaan, se ei kannata.

Eikö tilastotiede ole todennäköisyyslaskentaa, siis matematiikan osa-alue?

”Todennäköisyyslaskenta on matematiikkaa. Siinä vaiheessa kun arvioidaan, mikä on todennäköisyys saada covid-19-infektio maailmalla, niin silloin kyse on tilastotieteestä, koska laskemme todennäköisyyttä infektiolle empiirisestä datasta”, Pere tarkentaa.

”Nykynen Tilasto”

Mistä tuo ”tilasto” sitten tulee tieteen nimeen? Pekka Pere on kirjoittanut Tilastotieteen sanastoon mainion artikkelin tilastotieteen termien suomentamisen historiasta.

Peren mukaan tilasto-sanassa kyse lienee suomenmielisten itsenäistymisinnosta Venäjän tsaarin suuriruhtinaskunnan aikana. Sana ”tilasto” painettiin ensimmäistä kertaa Suomessa vuonna 1848 Paavo Tikkasen kirjassa Suomen Suuriruhtinaanmaan Nykynen Tilasto. ”On esitetty, että Tikkanen pyrki tila-johdoksella välttämään statistik-tyyppisiä sanoja, koska niillä olisi ollut vahvempi kytkös valtioon, joka silloisessa Suomessa viittasi Venäjän keisariin”, Pere kirjoittaa.

”Alunperin ehdotettiin myös ’valdelmaa’. Sekin kytkeytyy valtio-sanaan, koska tutkittavat asiat liittyivät silloin vahvasti valtiota ja yhteiskuntaa kuvaaviin tilastoihin”, Pere sanoo.

Tilastoilla on Peren mukaan luotu kansakuntaa, käsitystä siitä, että on sellainen asia kuin Suomen kansa.

”Tilastotieteellä on ollut merkitys meidän itsenäistymisprosessissamme. Aika harva tiede voi kertoa samaa. Tämä on minusta hieno ansio tilastotieteelle”, Pere sanoo.

Neljän vuoden työ

Tilastotieteen sanastoa lukiessa mieli lähtee sanoista laukalle. ”Asiantuntijaliikavarmuus”, ”hajotelma”, ”harjaregressio”. Sanoille ei kuitenkaan ole sanastossa selitystä, vain käännös suomesta englantiin ja englannista suomeen. Eikö kirjasta kannattaisi julkaista laajennettu versio, Tilastotieteen tietosanakirja?

Pere kauhistuu ehdotusta. Pelkästään tämän sanaston työstämiseen kului työryhmältä neljä vuotta.

”Sanojen määritelmien pitäisi olla tieteellisesti eksakteja. Siinä menee pitkä aika, kun lähtee viilaamaan yhtäkin määritelmää, että sen saa kohdalleen. Se olisi valtava työ. En usko, että Tilastoseura lähtisi tätä tekemään.”

No sitten on kysyttävä tekijältä itseltään. Mitä tarkoittaa esimerkiksi sanastossa esiintyvä ”yleistetty autoregressiivinen heteroskedastisuuden malli”?

”Tuo termi ei ole hienoja hetkiä tässä sanastossa. Se viittaa malliin, joka sopii rahoitusaikasarjojen mallintamiseen. Sanahirviöhän tuo on ja kyllä nämä ovat sanahirviöitä alun perinkin englannin kielessä.”

Aikaistunut 4,3 päivää

Palataan vielä Johan Eklöfiin, suomalaisen tilastotieteen pioneeriin. Pere näyttää koordinaatistosta Eklöfin havainnot Kokemäenjoen jäidenlähdöstä vuosilta 1801–1849.

Miksi Eklöf päätti tarkastella juuri Kokemäenjoen jäidenlähtöä?

Syitä voi 172 vuotta myöhemmin vain arvailla, mutta yksi syy oli ehkä se, että jäidenlähtö oli konkreettinen ilmiö, josta oli tuolloin saatavilla dataa. Jälkikäteen tarkasteltuna toinen syy saattaa olla niin sanottu pieni jääkausi.

Pohjoista pallonpuoliskoa vaivasi keskimääräistä kylmempi kausi noin vuosina 1450–1850. Kautta on myöhemmin nimitetty pieneksi jääkaudeksi, vaikka kausi ei ollut yhtenäinen ja sen kylmimmät vaiheet osuivat eri aikaan eri mantereille.

”Eklöf kuitenkin päätteli mallissaan, että jäidenlähtö Kokemäenjoesta on aikaistunut 4,3 päivää 1800-luvun alkupuolella. On kiinnostavaa, että Eklöf oikeastaan tutki ilmastonmuutosta jo silloin”, Pere sanoo.