Transformer

Mikä on Transformer?

Transformer on tekoälyarkkitehtuuri, jonka pohjalle suurin osa nykyisistä suurista kielimalleista (LLM) rakentuu – mukaan lukien GPT, BERT ja Claude. Transformer mullisti luonnollisen kielen käsittelyn, koska se mahdollistaa tehokkaan, rinnakkaisen ja kontekstia huomioivan tekstin tuottamisen.

Transformer-mallit eivät kirjoita valmiita vastauksia yhdellä kertaa, vaan ne generoivat tekstiä yksi sana (tai oikeammin token) kerrallaan. Jokaisella askeleella malli arvioi, mikä sana todennäköisimmin kuuluu seuraavaksi, ottaen huomioon:

Kontekstin: käyttäjän kysymys ja tähän mennessä tuotettu vastaus
Opitut todennäköisyydet: malli on opetettu valtavalla määrällä tekstiä, joiden perusteella se on oppinut, millaiset sanajärjestykset ovat todennäköisiä

Yksi askel kerrallaan – ilman suunnitelmaa

Tärkeä asia transformer-malleissa on se, että ne eivät suunnittele lopputulosta etukäteen. Ne eivät "tiedä", mitä tulevissa lauseissa sanotaan ne vain valitsevat aina seuraavan sanan parhaan arvauksen mukaan. Tämä tapahtuu täysin nykyisen tilanteen perusteella, askel kerrallaan.

Voisi ajatella, että malli kirjoittaa kuin improvisoiva tarinankertoja, joka keksii tarinaa eteenpäin sana kerrallaan katsomatta vielä seuraavaa sivua.

Miten tämä vaikuttaa vastauksiin?

Tämä toimintatapa tekee kielimalleista hyvin joustavia, mutta myös altistaa ne harhareiteille. Jos malli jossain vaiheessa valitsee hieman "väärän" seuraavan sanan, se alkaa jatkaa tätä uutta suuntaa johdonmukaisesti koska jokainen seuraava sana perustuu siihen, mitä aiemmin on sanottu.

Hyvä puoli: tekstit ovat yhtenäisiä ja luonnollisen tuntuisia.
Huono puoli: jos malli poikkeaa oikeasta aiheesta tai logiikasta, se harvoin palaa takaisin ilman erillistä ohjausta.

Tämä ilmiö on yksi syy siihen, miksi LLM-mallit saattavat joskus "sepittää" tietoa tai vastata itsevarmasti väärin. Ne seuraavat omaa todennäköisyyspolkuaan johdonmukaisesti, vaikka se veisi harhaan.