Token

Mikä on token?

Token on tekstin pienin yksikkö, jota kielimallit käyttävät käsitellessään ja tuottaessaan tekstiä. Se ei ole suoraan sama asia kuin sana – token voi olla:

kokonainen sana ("kissa")
sanan osa ("kissoja" → "kiss", "oja")
välimerkki tai tyhjämerkki ("." tai " ")

Käytännössä tokeni on tekninen palanen tekstiä, jonka avulla malli jäsentää ja tuottaa kieltä. Tokenit ovat kielimallin "lukuyksiköitä", ja kaikki syötteet ja vastaukset koostuvat niistä.

Miksi tokenit ovat tärkeitä?

Tokenien määrä vaikuttaa suoraan siihen, kuinka paljon tietoa malli pystyy käsittelemään kerrallaan. Mallit eivät muista kaikkea loputtomasti, vaan niillä on käytössään rajoitettu "muisti", eli konteksti-ikkuna, johon mahtuu vain tietty määrä tokeneita.

Tämä rajoitus vaikuttaa esimerkiksi:

Kuinka pitkiä keskusteluja malli jaksaa "muistaa"
Kuinka paljon lähdemateriaalia voidaan liittää vastauksen tueksi
Kuinka yksityiskohtaisia vastauksia malli voi antaa kerralla

Esimerkki konteksti-ikkunasta

Jos mallin konteksti-ikkuna on 4 000 tokenia:

Siihen mahtuu noin 2 000–3 000 sanaa riippuen kielestä ja sanarakenteista
Tämä voi vastata muutamaa sivua tekstiä tai muutaman minuutin keskustelua

Uusimmat suurmallit voivat käsitellä jopa satojatuhansia tai miljoonia tokeneita, kun taas pienemmät tai paikallisesti ajetut mallit voivat olla rajoittuneet muutamaan tuhanteen tokeniin. Mitä suurempi konteksti-ikkuna, sitä paremmin malli voi säilyttää keskustelun kokonaiskuvan tai hyödyntää laajoja tekstimassoja vastauksessaan.