Token

1. Fogalom magyarul: token

2. Fogalom angolul: token

3. Meghatározás:

A token a természetes nyelvi feldolgozás területén a szöveg elemzése során használt alapegység, amely lehet egy szó, kifejezés, szimbólum vagy bármilyen más egyedi elem. Tokenizálásnak pedig a szöveget tokenekre felbontó folyamatot nevezzük. Például a "hello world" szöveg tokenizálása után kettő token lesz: "hello" és "world". A tokenizálás különböző szinteken végezhető el: (i) a szóalapú tokenizálás a szöveget szavakra bontja, (ii) a karakteralapú tokenizálás minden egyes karaktert külön tokenként kezel, (iii) míg az alapszavak vagy morfémák szerinti tokenizálás a szöveg legkisebb jelentéses egységeire bontja a szöveget. A tokenizálás alapvető lépés a természetes nyelvi feldolgozásban, mivel lehetővé teszi a szöveg strukturált formában történő elemzését.

4. Hivatkozások:

  • Chowdhary, K., & Chowdhary, K. R. (2020). Natural language processing. Fundamentals of artificial intelligence, 603-649.

5. Megjegyzések:

6. Kulcsszavak:

mesterséges intelligencia, gépi tanulás

2543 Views
Average (0 Votes)