Embeddings

Mikä on embeddings?

Embeddings on termi, jota käytetään, kun teksti muutetaan matemaattiseen muotoon eli numeroiksi. Näitä numeroesityksiä hyödynnetään erityisesti RAG-malleissa, kun tekstiä tallennetaan vektorikantaan ja sieltä haetaan samankaltaista tietoa käyttäjän kysymykseen liittyen.

Embeddings ei tallenna sanoja sellaisenaan, vaan se kuvaa sanojen ja lauseiden merkityksiä ja yhteyksiä toisiinsa. Tämä mahdollistaa sen, että malli voi tunnistaa sisällöllisiä yhtäläisyyksiä, vaikka sanoitus olisi eri.

Miten embeddings toimii?

Miksi tämä on hyödyllistä?

Perinteiset hakumenetelmät etsivät usein sanoja sellaisenaan. Esimerkiksi "asiakaspalvelu" ja "tuki" saatettaisiin nähdä eri asioina. Embeddings tunnistaa, että nämä sanat voivat esiintyä samankaltaisissa yhteyksissä ja tarkoittaa samaa asiaa.

Tämän ansiosta embeddingien avulla voidaan:

Käytännön esimerkki

Jos käyttäjä kysyy: "Miten palautan tilauksen?", embedding voi yhdistää kysymyksen dokumenttiin, jossa lukee: "Tilauksen voi peruuttaa tai vaihtaa asiakaspalvelun kautta." – vaikka sana "palautus" ei esiintyisi missään.