korpusz
1. Fogalom magyarul: korpusz
2. Fogalom angolul: corpus
3. Meghatározás:
A korpusz jellemzően írott vagy beszélt nyelvi szövegeket tartalmazó nagyméretű és strukturált adatbázis, amelyet nyelvészeti, szövegbányászati vagy gépi tanulási célokra használnak. A modern korpuszok több milliárd szót tartalmazhatnak különféle forrásokból, beleértve a könyveket, webhelyeket, közösségi médiát és tudományos dolgozatokat. Gyakran tartalmaznak metaadatokat a szövegforrásokról, létrehozási dátumokról és szerzőkről, hogy kontextust biztosítsanak és lehetővé tegyék a szűrt elemzést. A korpuszok lehetnek általános célúak, amelyek széleskörű szókincset és nyelvi struktúrákat tartalmaznak, vagy specializáltak, amelyek egy adott területre vagy szakterületre koncentrálnak. A nyelvészeti kutatásokban a korpuszok segítenek megérteni a nyelvi mintázatokat, szintaxist és jelentéstant, míg a természetes nyelvi feldolgozás (NLP) alkalmazásaiban alapvető fontosságúak a modellek tanításához. A gépi tanulásban a korpuszok használata különösen fontos a nagy nyelvi modellek, például a szövegértés, szövegfordítás vagy szentimentelemzés területén. Az ilyen adatbázisok segítségével a modellek képesek megtanulni a nyelvi szabályszerűségeket és a kontextust, amely alapján pontosan tudják értelmezni vagy generálni a szövegeket. Néhány ismert korpusz a British National Corpus (BNC), amely a brit angol nyelv modern használatát dokumentálja, és a Gutenberg Corpus, amely irodalmi műveket tartalmaz. Az ilyen korpuszok létrehozása és karbantartása komplex feladat, mivel a szövegeket gyakran elő kell készíteni, annotálni és strukturálni annak érdekében, hogy a kutatók és a gépi tanulási modellek hatékonyan tudják használni azokat.
4. Hivatkozások:
- Kennedy, Graeme. "An Introduction to Corpus Linguistics." Routledge, 1998.
- McEnery, Tony, and Andrew Hardie. "Corpus Linguistics: Method, Theory and Practice." Cambridge University Press, 2011.
5. Megjegyzések:
6. Kulcsszavak:
mesterséges intelligencia, gépi tanulás, nyelvészet