Tämä on Johdanto datatieteeseen -opintojakson kevään 2020 toteutuskerran luentopäiväkirja.

Toteutuskerta etenee alla olevan luentorungon mukaisesti, vuoden 2019 luentosarjaa iteratiivisesti kehittäen.

Toteutuskerran käytössä on Slack-kanava.

Arho Suomisen luentallenteet vuodelta 2019 löytyvät poistuvasta Echo360-palvelusta. Vuoden 2020 luentotallenteet julkaistaan Tampereen yliopiston Panoptossa.

Toteutuskerran aikana pyritään myös twiittaamaan aktiivisesti aihetunnisteella #jodatuni.

Luentopäiväkirja

Luentoviikko 7: Kertaus ja yhteenveto

Pääsiäistauon jälkeen tiistaina 21. huhtikuuta on vuorossa JODAn kevään 2020 viimeinen luento. Kerrataan luentojen ja harjoitusten keskeiset osat ja verrataan opittua oppimistavoitteisiin. Esitetään hyviä kysymyksiä ja katsotaan mihin tästä voi jatkaa.

Seitsemännen luennon esitysmateriaali Jupyter-työkirjana.

Luentoviikko 6: Visuaalinen analytiikka

Lue ennen luentoa: Designing and Developing Analytics-Based Data Products
Katso ennen luentoa: Jeffrey Heerin keynote-esitys visuaalisesta analytiikasta.

Viimeisellä varsinaisella luentokerralla käydään läpi visuaalisen analytiikan ja vuorovaikutteisen eksploratiivisen analytiikan hyödyntämistä datatieteessä. Lisäksi hahmotellaan tiekarttaa kohti datatuotteiden kehittämistä.

Kuudennen luennon esitysmateriaali Jupyter-työkirjana.

Koodiklinikalla käydään läpi ostoskorianalyysiä ja visuaalista analytiikkaa.

Luentoviikko 5: Ohjaamaton koneoppiminen

Miten ohjattu ja ohjaamaton oppiminen eroavat toisistaan? Ohjaamaton oppiminen (ks. Unsupervised learning workflow), ostoskorianalyysi, verkostoanalyysi (ks. Marvel social graph), ryvästäminen (ks. k-means-clustering), aihemallinnus eli topic modeling ja sen riskit.

Viidennen luennon esitysmateriaali Jupyter-työkirjana.

Koodiklinikalla tutustutaan pääkomponenttianalyysiin.

Luentoviikko 4: Harjoitustyöhön tutustuminen

Lue ennen luentoa: Predicting Airbnb Listing Prices with Scikit-Learn and Apache Spark

Johdanto datatieteeseen -harjoitustyössä käydään läpi datatiedeprojektin keskeiset vaiheet. Voit valita aiheen ja datalähteen vapaasti. Saat pisteitä julkaisemalla Slackissa kuvauksen harjoitustyön eri vaiheiden toteutuksesta. Eräs vaihtoehto on Airbnb-aineiston analysointi. Voit vaikkapa toteuttaa hintaennustimen esimerkkianalyysiä soveltamalla. Peruslähtökohtana tulee kuitenkin olla ongelman ratkaiseminen, ei datalähtöinen projekti.

Neljännen luennon esitysmateriaali Jupyter-työkirjana.

Koodiklinikalla syvennytään lineaariregressioon ja jatketaan datan jalostamista.

Luentoviikko 3: Koneoppimisen periaatteet

Lue ennen luentoa: Näin laadullinen tieto jalostuu laskennalliseksi: piirteet sosiaalisen median analytiikassa

Koneoppimisen työnkulku (ks. Supervised learning workflow), sovellusesimerkki itsenäisesti katsottavaksi: asiakaspoistuma-analyysi, piirteiden erottaminen (ks. esilukemisto), piirteiden jalostaminen (ks. feature engineering), luokittelu Pythonilla (step-by-step tutorial)

Kolmannen luennon esitysmateriaali Jupyter-muistiona.

Koodiklinikalla käsittelyssä luokitteluun perustuva lainankäsittelijä.

Luentoviikko 2: Datan kerääminen ja jalostaminen

Datatiedeprosessin vaiheet (Data Science Workflow), kerääminen ja jalostaminen datatieteen metrokartassa, ETL vs. DAD,asiat jotka tiedämme/emme tiedä tietävämme, ryömijät ja raapijat (Web crawler, Web scraping, Web Scraping in Python, Scrapy), dataformaatit ja niiden ohjelmallinen käsittely, data wrangling (ks. DataWrangler), datan ensi tarkastelu Pythonilla (ks. Pandas-toimintokooste, vrt. OpenRefine.

Toisen luennon esitysmateriaali Jupyter-muistiona.

Koodiklinikalla käsittelyssä raapijat ja ryömijät.

Luentoviikko 1: Johdanto aihepiiriin ja suorittaminen

Avausluento tiistaina 3. maaliskuuta kello 10-12 SJ204. Suorittamisen käytännöt. Mitä on datatiede (CRISP-DM, modern data scientist, datatieteen metrokartta)? Up and runnign with Python. Datatieteen työvälineet: Pandas, scikit-learn, D3.js, Jupyter. Dataa koneeseen: read_csv() & read_excel().

Ensimmäisen luennon esitysmateriaali Jupyter-muistiona.

Ensimmäisellä Koodiklinikalla käydään läpi pandasin perusteita sekä eri kehitysympäristöjä: Session 1 - Analysing Transaction Data.

Liity myös opintojakson Slack-kanavalle.