Inference
Mikä on inference?
Inference tarkoittaa hetkeä, jolloin kielimallia käytetään tuottamaan vastaus käyttäjän kysymykseen tai muuhun syötteeseen. Toisin sanoen inference on se vaihe, jossa tekoäly ottaa vastaan kysymyksen, prosessoi sen ja palauttaa vastauksen.
Tämä tapahtuu jokaisella käyttökerralla, olipa kyseessä yksinkertainen kysymys, monivaiheinen keskustelu tai sisällön tuottaminen (esimerkiksi koodia, runoja tai raportteja).
Miksi inference on käyttäjälle tärkeä?
Inference liittyy suoraan siihen, kuinka nopeasti ja sujuvasti malli vastaa. Jos taustalla oleva järjestelmä ei skaalaudu hyvin, käyttö voi hidastua tai pätkiä, erityisesti jos:
-
Käyttäjiä on paljon samanaikaisesti
-
Malli on suuri ja vaatii paljon muistia
-
Pyydetty vastaus on pitkä tai monimutkainen
Tämän vuoksi inference-vaiheen laskentakapasiteetti on tärkeä käytännön tekijä, erityisesti silloin kun mallia tarjotaan osana verkkopalvelua, asiakaspalveluchattia tai muuta skaalautuvaa käyttöä.
Esimerkki:
Kun kirjoitat kysymyksen ChatGPT:lle ja painat "lähetä", inference-prosessi käynnistyy:
-
Kysymys muutetaan koneelle ymmärrettävään muotoon
-
Malli laskee todennäköisimmän vastauksen askel kerrallaan
-
Vastaus muodostuu ja palautetaan sinulle näkyvään muotoon
Kaikki tämä tapahtuu inference-vaiheen aikana