Tämä on Johdanto datatieteeseen -opintojakson kevään 2018 toteutuskerran luentopäiväkirja. Toteutuskerta etenee karkean luentosuunnitelman mukaisesti.

Totetutuskerran käytössä on Slack-kanava. Osa luennoista tallennetaan Echo360-järjestelmällä.

Luentopäiväkirja

Kaikkien aikojen ensimmäinen Johdanto datatieteeseen -toteutuskerta on päättynyt. Katsasta seuraavaksi esimerkiksi opintojaksot Data- ja informaatioanalytiikka ja Introduction to Pattern Recognition and Machine Learning.

Luentoviikko 4.6: Datan visualisointi

Viimeisellä varsinaisella luentokerralla käydään läpi datan vuorovaikutteista eksploratiivista analytiikka ja luodaan tiekarttaa kohti datatuotteiden kehittämistä. Lue artikkeli Designing and Developing Analytics-Based Data Products ja katso Jeffrey Heerin keynote-esitys visuaalisesta analytiikasta.

Koodiklinikalla päästään tekemään visualisointeja siihen tarkoitettujen kirjastojen avulla sekä luomaan yksinkertainen web-sovellus datan ympärille.

Luentoviikko 4.5: Ohjaamaton koneoppiminen

Miten ohjattu ja ohjaamaton oppiminen eroavat toisistaan? Ohjaamaton oppiminen (ks. Unsupervised learning workflow), ostoskorianalyysi, verkostoanalyysi (ks. Marvel social graph), ryvästäminen (ks. k-means-clustering), aihemallinnus eli topic modeling ja sen riskit.

Koodiklinikalla tutustutaan ryvästämiseen ostoskorianalyysin kautta.

Luentoviikko 4.4: Harjoitustyöhön tutustuminen

Lue ennen luentoa: Predicting Airbnb Listing Prices with Scikit-Learn and Apache Spark

Johdanto datatieteeseen -harjoitustyössä käydään läpi datatiedeprojektin keskeiset vaiheet. Voit valita aiheen ja datalähteen vapaasti. Saat pisteitä julkaisemalla Slackissa kuvauksen harjoitustyön eri vaiheiden toteutuksesta. Eräs vaihtoehto on Airbnb-aineiston analysointi. Voit vaikkapa toteuttaa hintaennustimen esimerkkianalyysiä soveltamalla.

Koodiklinikalla syvennytään lineaariregressioon.

Luentoviikko 4.3: Koneoppimisen periaatteet

Lue ennen luentoa: Näin laadullinen tieto jalostuu laskennalliseksi: piirteet sosiaalisen median analytiikassa

Koneoppimisen työnkulku (ks. Supervised learning workflow), sovellusesimerkki: asiakaspoistuma-analyysi, piirteiden erottaminen (ks. esilukemisto), piirteiden jalostaminen (ks. feature engineering), luokittelu Pythonilla (step-by-step tutorial), dataesimerkkejä (ks. IBM Watson datasets), dataan tutustuminen käyntiin (ks. explore).

Koodiklinikalla esimerkkejä lineaariregressiosta.

Luentoviikko 4.2: Datan kerääminen ja jalostaminen

Datatiedeprosessin vaiheet (Data Science Workflow), kerääminen ja jalostaminen datatieteen metrokartassa, ETL vs. DAD, ryömijät ja raapijat (Web crawler, Web scraping, Web Scraping in Python, Scrapy), Scraping for journalists) dataformaatit ja niiden ohjelmallinen käsittely, data wrangling (ks. DataWrangler), datan jalostaminen Pythonilla (ks. Pandas-toimintokooste, vrt. OpenRefine.

Koodiklinikalla käsittelyssä raapijat ja ryömijät.

Luentoviikko 4.1: Johdanto aihepiiriin ja suorittaminen

Avausluento maanantaina 5. maaliskuuta kello 14-16 Konetalon salissa K1320. Suorittamisen käytännöt. Mitä on datatiede (CRISP-DM, modern data scientist, datatieteen metrokartta)? Datatieteen työvälineet: Pandas, scikit-learn, D3.js, Jupyter. Dataa koneeseen: read_csv() & read_excel().

Ensimmäisellä Koodiklinikalla käydään läpi pandasin perusteita sekä eri kehitysympäristöjä. Teknologiademoon pääsee tästä. Liittykää myös kurssin Slack-kanavalle.