korpusz

1. Fogalom magyarul: korpusz

2. Fogalom angolul: corpus

3. Meghatározás:

A korpusz jellemzően írott vagy beszélt nyelvi szövegeket tartalmazó nagyméretű és strukturált adatbázis, amelyet nyelvészeti, szövegbányászati vagy gépi tanulási célokra használnak. A modern korpuszok több milliárd szót tartalmazhatnak különféle forrásokból, beleértve a könyveket, webhelyeket, közösségi médiát és tudományos dolgozatokat. Gyakran tartalmaznak metaadatokat a szövegforrásokról, létrehozási dátumokról és szerzőkről, hogy kontextust biztosítsanak és lehetővé tegyék a szűrt elemzést. A korpuszok lehetnek általános célúak, amelyek széleskörű szókincset és nyelvi struktúrákat tartalmaznak, vagy specializáltak, amelyek egy adott területre vagy szakterületre koncentrálnak. A nyelvészeti kutatásokban a korpuszok segítenek megérteni a nyelvi mintázatokat, szintaxist és jelentéstant, míg a természetes nyelvi feldolgozás (NLP) alkalmazásaiban alapvető fontosságúak a modellek tanításához. A gépi tanulásban a korpuszok használata különösen fontos a nagy nyelvi modellek, például a szövegértés, szövegfordítás vagy szentimentelemzés területén. Az ilyen adatbázisok segítségével a modellek képesek megtanulni a nyelvi szabályszerűségeket és a kontextust, amely alapján pontosan tudják értelmezni vagy generálni a szövegeket. Néhány ismert korpusz a British National Corpus (BNC), amely a brit angol nyelv modern használatát dokumentálja, és a Gutenberg Corpus, amely irodalmi műveket tartalmaz. Az ilyen korpuszok létrehozása és karbantartása komplex feladat, mivel a szövegeket gyakran elő kell készíteni, annotálni és strukturálni annak érdekében, hogy a kutatók és a gépi tanulási modellek hatékonyan tudják használni azokat.

4. Hivatkozások:

  • Kennedy, Graeme. "An Introduction to Corpus Linguistics." Routledge, 1998.
  • McEnery, Tony, and Andrew Hardie. "Corpus Linguistics: Method, Theory and Practice." Cambridge University Press, 2011.

5. Megjegyzések:

6. Kulcsszavak:

mesterséges intelligencia, gépi tanulás, nyelvészet

8198 Views
Average (0 Votes)

Gyakran ismételt kérdések

Hogyan tudok hozzászólást fűzni a szócikkhez?

Regisztráció után (egy név és egy valós e-mail cím kell hozzá) lehet hozzászólni.

Ki felügyeli a fogalmak helyességét?

A Hírközlési és Informatikai Tudományos Egyesület által létrehozott szerkesztőbizottság hagyja jóvá a fogalmakat.

Lehet bővíteni a fogalomtárat?

A szerkesztőség határozza meg definiálandó fogalmakat. Örömmel vesszük javaslatait a „További fogalmak” oldalon található űrlap kitöltésével.