Inference

Mikä on inference?

Inference tarkoittaa hetkeä, jolloin kielimallia käytetään tuottamaan vastaus käyttäjän kysymykseen tai muuhun syötteeseen. Toisin sanoen inference on se vaihe, jossa tekoäly ottaa vastaan kysymyksen, prosessoi sen ja palauttaa vastauksen.

Tämä tapahtuu jokaisella käyttökerralla, olipa kyseessä yksinkertainen kysymys, monivaiheinen keskustelu tai sisällön tuottaminen (esimerkiksi koodia, runoja tai raportteja).

Miksi inference on käyttäjälle tärkeä?

Inference liittyy suoraan siihen, kuinka nopeasti ja sujuvasti malli vastaa. Jos taustalla oleva järjestelmä ei skaalaudu hyvin, käyttö voi hidastua tai pätkiä, erityisesti jos:

Käyttäjiä on paljon samanaikaisesti
Malli on suuri ja vaatii paljon muistia
Pyydetty vastaus on pitkä tai monimutkainen

Tämän vuoksi inference-vaiheen laskentakapasiteetti on tärkeä käytännön tekijä, erityisesti silloin kun mallia tarjotaan osana verkkopalvelua, asiakaspalveluchattia tai muuta skaalautuvaa käyttöä.

Esimerkki:

Kun kirjoitat kysymyksen ChatGPT:lle ja painat "lähetä", inference-prosessi käynnistyy:

Kysymys muutetaan koneelle ymmärrettävään muotoon
Malli laskee todennäköisimmän vastauksen askel kerrallaan
Vastaus muodostuu ja palautetaan sinulle näkyvään muotoon

Kaikki tämä tapahtuu inference-vaiheen aikana