Token

1. Fogalom magyarul: token

2. Fogalom angolul: token

3. Meghatározás:

A token a természetes nyelvi feldolgozás területén a szöveg elemzése során használt alapegység, amely lehet egy szó, kifejezés, szimbólum vagy bármilyen más egyedi elem. Tokenizálásnak pedig a szöveget tokenekre felbontó folyamatot nevezzük. Például a "hello world" szöveg tokenizálása után kettő token lesz: "hello" és "world". A tokenizálás különböző szinteken végezhető el: (i) a szóalapú tokenizálás a szöveget szavakra bontja, (ii) a karakteralapú tokenizálás minden egyes karaktert külön tokenként kezel, (iii) míg az alapszavak vagy morfémák szerinti tokenizálás a szöveg legkisebb jelentéses egységeire bontja a szöveget. A tokenizálás alapvető lépés a természetes nyelvi feldolgozásban, mivel lehetővé teszi a szöveg strukturált formában történő elemzését.

4. Hivatkozások:

  • Chowdhary, K., & Chowdhary, K. R. (2020). Natural language processing. Fundamentals of artificial intelligence, 603-649.

5. Megjegyzések:

6. Kulcsszavak:

mesterséges intelligencia, gépi tanulás

3364 Megtekintés
Átlagos (0 Szavazatok)

Gyakran ismételt kérdések

Hogyan tudok hozzászólást fűzni a szócikkhez?

Regisztráció után (egy név és egy valós e-mail cím kell hozzá) lehet hozzászólni.

Ki felügyeli a fogalmak helyességét?

A Hírközlési és Informatikai Tudományos Egyesület által létrehozott szerkesztőbizottság hagyja jóvá a fogalmakat.

Lehet bővíteni a fogalomtárat?

A szerkesztőség határozza meg definiálandó fogalmakat. Örömmel vesszük javaslatait a „További fogalmak” oldalon található űrlap kitöltésével.