Token

Mikä on token?

Token on tekstin pienin yksikkö, jota kielimallit käyttävät käsitellessään ja tuottaessaan tekstiä. Se ei ole suoraan sama asia kuin sana – token voi olla:

Käytännössä tokeni on tekninen palanen tekstiä, jonka avulla malli jäsentää ja tuottaa kieltä. Tokenit ovat kielimallin "lukuyksiköitä", ja kaikki syötteet ja vastaukset koostuvat niistä.

Miksi tokenit ovat tärkeitä?

Tokenien määrä vaikuttaa suoraan siihen, kuinka paljon tietoa malli pystyy käsittelemään kerrallaan. Mallit eivät muista kaikkea loputtomasti, vaan niillä on käytössään rajoitettu "muisti", eli konteksti-ikkuna, johon mahtuu vain tietty määrä tokeneita.

Tämä rajoitus vaikuttaa esimerkiksi:

Esimerkki konteksti-ikkunasta

Jos mallin konteksti-ikkuna on 4 000 tokenia:

Uusimmat suurmallit voivat käsitellä jopa satojatuhansia tai miljoonia tokeneita, kun taas pienemmät tai paikallisesti ajetut mallit voivat olla rajoittuneet muutamaan tuhanteen tokeniin. Mitä suurempi konteksti-ikkuna, sitä paremmin malli voi säilyttää keskustelun kokonaiskuvan tai hyödyntää laajoja tekstimassoja vastauksessaan.