Embeddings
Mikä on embeddings?
Embeddings on termi, jota käytetään, kun teksti muutetaan matemaattiseen muotoon eli numeroiksi. Näitä numeroesityksiä hyödynnetään erityisesti RAG-malleissa, kun tekstiä tallennetaan vektorikantaan ja sieltä haetaan samankaltaista tietoa käyttäjän kysymykseen liittyen.
Embeddings ei tallenna sanoja sellaisenaan, vaan se kuvaa sanojen ja lauseiden merkityksiä ja yhteyksiä toisiinsa. Tämä mahdollistaa sen, että malli voi tunnistaa sisällöllisiä yhtäläisyyksiä, vaikka sanoitus olisi eri.
Miten embeddings toimii?
-
Kun teksti käsitellään embedding-muotoon, siitä muodostuu sisältöä kuvaava numeerinen muoto (eli vektori).
-
Samalla tavalla käyttäjän kysymys muutetaan numeromuotoon.
-
Järjestelmä voi nyt vertailla näitä numerosarjoja ja katsoa, mitkä dokumentit ovat "lähellä" kysymystä merkityksensä perusteella.
Miksi tämä on hyödyllistä?
Perinteiset hakumenetelmät etsivät usein sanoja sellaisenaan. Esimerkiksi "asiakaspalvelu" ja "tuki" saatettaisiin nähdä eri asioina. Embeddings tunnistaa, että nämä sanat voivat esiintyä samankaltaisissa yhteyksissä ja tarkoittaa samaa asiaa.
Tämän ansiosta embeddingien avulla voidaan:
-
Löytää relevanttia sisältöä, vaikka käyttäjä ei käyttäisi täsmälleen samoja sanoja kuin dokumentissa
-
Etsiä tietoa merkityksen perusteella, ei pelkän sanavalinnan
-
Tarjota tarkempia ja hyödyllisempiä vastauksia RAG-mallin avulla
Käytännön esimerkki
Jos käyttäjä kysyy: "Miten palautan tilauksen?", embedding voi yhdistää kysymyksen dokumenttiin, jossa lukee: "Tilauksen voi peruuttaa tai vaihtaa asiakaspalvelun kautta." – vaikka sana "palautus" ei esiintyisi missään.