korpusz

1. Fogalom magyarul: korpusz

2. Fogalom angolul: corpus

3. Meghatározás:

A korpusz jellemzően írott vagy beszélt nyelvi szövegeket tartalmazó nagyméretű és strukturált adatbázis, amelyet nyelvészeti, szövegbányászati vagy gépi tanulási célokra használnak. A modern korpuszok több milliárd szót tartalmazhatnak különféle forrásokból, beleértve a könyveket, webhelyeket, közösségi médiát és tudományos dolgozatokat. Gyakran tartalmaznak metaadatokat a szövegforrásokról, létrehozási dátumokról és szerzőkről, hogy kontextust biztosítsanak és lehetővé tegyék a szűrt elemzést. A korpuszok lehetnek általános célúak, amelyek széleskörű szókincset és nyelvi struktúrákat tartalmaznak, vagy specializáltak, amelyek egy adott területre vagy szakterületre koncentrálnak. A nyelvészeti kutatásokban a korpuszok segítenek megérteni a nyelvi mintázatokat, szintaxist és jelentéstant, míg a természetes nyelvi feldolgozás (NLP) alkalmazásaiban alapvető fontosságúak a modellek tanításához. A gépi tanulásban a korpuszok használata különösen fontos a nagy nyelvi modellek, például a szövegértés, szövegfordítás vagy szentimentelemzés területén. Az ilyen adatbázisok segítségével a modellek képesek megtanulni a nyelvi szabályszerűségeket és a kontextust, amely alapján pontosan tudják értelmezni vagy generálni a szövegeket. Néhány ismert korpusz a British National Corpus (BNC), amely a brit angol nyelv modern használatát dokumentálja, és a Gutenberg Corpus, amely irodalmi műveket tartalmaz. Az ilyen korpuszok létrehozása és karbantartása komplex feladat, mivel a szövegeket gyakran elő kell készíteni, annotálni és strukturálni annak érdekében, hogy a kutatók és a gépi tanulási modellek hatékonyan tudják használni azokat.

4. Hivatkozások:

  • Kennedy, Graeme. "An Introduction to Corpus Linguistics." Routledge, 1998.
  • McEnery, Tony, and Andrew Hardie. "Corpus Linguistics: Method, Theory and Practice." Cambridge University Press, 2011.

5. Megjegyzések:

6. Kulcsszavak:

mesterséges intelligencia, gépi tanulás, nyelvészet

3821 Megtekintés
Átlagos (0 Szavazatok)