Unsupervised learning
Mikä on unsupervised learning?
Unsupervised learning eli valvomaton oppiminen on koneoppimisen menetelmä, jossa malli saa raakadataa ilman valmiita vastauksia tai ohjeita. Toisin kuin supervised learningissä, tässä menetelmässä mallille ei kerrota, mitä sen pitäisi löytää tai oppia – sen täytyy itse tunnistaa datan sisäisiä rakenteita, yhteyksiä ja ryhmiä.
Kyseessä on kuin mallin oma tutkimusmatka: se yrittää järjestää dataa loogisesti ilman ihmisen apua.
Miten unsupervised learning toimii?
Mallille syötetään suuri määrä dataa, kuten:
-
tekstejä
-
kuvia
-
käyttäjäkäyttäytymistä
-
numeerisia arvoja
Sen jälkeen malli analysoi datan rakenteita ja etsimällä samankaltaisuuksia yrittää muodostaa esimerkiksi ryhmiä, klustereita tai piirteitä, jotka esiintyvät usein yhdessä. Ihmisen ei tarvitse kertoa mallille, mitä etsiä – se tekee sen itse.
Missä unsupervised learningiä käytetään?
Unsupervised learning sopii erityisesti tilanteisiin, joissa:
-
Ei ole olemassa valmiita oikeita vastauksia
-
Data on liian laaja tai monimutkainen, jotta ihminen voisi helposti jäsentää sen
-
Halutaan löytää piilossa olevia yhteyksiä tai luoda uutta ymmärrystä datasta
Tyypillisiä käyttökohteita ovat:
-
Klusterointi: ryhmittely samankaltaisuuden perusteella (esim. asiakassegmentointi, tekstien tai kuvien lajittelu)
-
Dimensioiden vähentäminen: datan yksinkertaistaminen säilyttämällä vain olennaiset osat (esim. visualisointia tai nopeampaa laskentaa varten)
-
Yhteyksien tunnistaminen: esimerkiksi markkina-analyysissä tai suositusjärjestelmissä, joissa haetaan käyttäytymisen perusteella toisiinsa liittyviä asioita
Esimerkki
Ajatellaan verkkokauppaa, jossa asiakastietoja ei ole valmiiksi luokiteltu. Unsupervised learningin avulla malli voi löytää:
-
Asiakasryhmiä, jotka ostavat samankaltaisia tuotteita
-
Ostoskäyttäytymismalleja, joita ei ollut aiemmin havaittu
-
Piilotettuja trendejä tai yhteyksiä tuotteiden välillä
Näiden pohjalta voidaan kehittää kohdennetumpaa markkinointia tai parempia suosituksia.