Omni/Multimodal

Mitä tarkoittaa multimodaalinen tai "omni"-tekoäly?

Multimodaalinen tai omni-malli viittaa tekoälyyn, joka pystyy käsittelemään ja tuottamaan useita eri sisältömuotoja kuten tekstiä, kuvaa, ääntä ja videota. Tällainen malli ei rajoitu yhteen "aistikanavaan", vaan se osaa toimia eri modaliteettien välillä luonnollisesti ja saumattomasti.

Hyvä esimerkki tästä on ChatGPT-4o, joka ymmärtää sekä puhetta että kirjoitettua tekstiä, tulkitsee kuvia ja voi vastata ääneen tai kirjoittaen. Tämä mahdollistaa aivan uudenlaisia vuorovaikutustapoja tekoälyn kanssa.

Mikä ero on erillisillä malleilla ja multimodaalisella mallilla?

Aiemmin eri sisältömuotoja käsiteltiin erillisillä malleilla: yksi malli ymmärsi tekstiä, toinen analysoi kuvia ja kolmas hoiti puheentunnistuksen. Nämä mallit saattoivat välittää tietoa toisilleen, mutta prosessissa tapahtui usein tiedon kaventumista tai katoamista.

Multimodaalinen malli sen sijaan käsittelee eri aineistotyypit yhtenä kokonaisuutena. Se ymmärtää esimerkiksi puheessa esiintyvän sanoman sekä sanavalintojen että äänenpainojen ja taukojen perusteella – ilman, että ääni täytyy ensin muuntaa pelkäksi tekstiksi.

Miksi tämä on tärkeää?

Monissa tilanteissa pelkkä tekstisisältö ei riitä välittämään koko viestiä. Esimerkiksi:

Puheessa äänenpaino, rytmi ja tauot vaikuttavat merkitykseen. "Ihan kiva" voi olla kehu tai piikki sävystä riippuen.
Kuvassa voi olla yksityiskohtia, joita ei voi helposti pukea sanoiksi, mutta jotka vaikuttavat ymmärrykseen (esimerkiksi tunnetila kasvoilla tai liikenteen vaaratilanne kuvassa).
Videossa yhdistyy kuvan, äänen ja tapahtumien etenemisen aikajänne. Multimodaalinen malli pystyy hahmottamaan kokonaisuuden ilman, että sisältö täytyy pilkkoa useaan erilliseen analyysivaiheeseen.

Multimodaalisuus mahdollistaa tekoälylle rikkaamman ymmärryksen maailmasta ja tuo sen askeleen lähemmäksi ihmisen kaltaista kommunikaatiota.