korpusz
1. Fogalom magyarul: korpusz
2. Fogalom angolul: corpus
3. Meghatározás:
A korpusz jellemzően írott vagy beszélt nyelvi szövegeket tartalmazó nagyméretű és strukturált adatbázis, amelyet nyelvészeti, szövegbányászati vagy gépi tanulási célokra használnak. A modern korpuszok több milliárd szót tartalmazhatnak különféle forrásokból, beleértve a könyveket, webhelyeket, közösségi médiát és tudományos dolgozatokat. Gyakran tartalmaznak metaadatokat a szövegforrásokról, létrehozási dátumokról és szerzőkről, hogy kontextust biztosítsanak és lehetővé tegyék a szűrt elemzést. A korpuszok lehetnek általános célúak, amelyek széleskörű szókincset és nyelvi struktúrákat tartalmaznak, vagy specializáltak, amelyek egy adott területre vagy szakterületre koncentrálnak. A nyelvészeti kutatásokban a korpuszok segítenek megérteni a nyelvi mintázatokat, szintaxist és jelentéstant, míg a természetes nyelvi feldolgozás (NLP) alkalmazásaiban alapvető fontosságúak a modellek tanításához. A gépi tanulásban a korpuszok használata különösen fontos a nagy nyelvi modellek, például a szövegértés, szövegfordítás vagy szentimentelemzés területén. Az ilyen adatbázisok segítségével a modellek képesek megtanulni a nyelvi szabályszerűségeket és a kontextust, amely alapján pontosan tudják értelmezni vagy generálni a szövegeket. Néhány ismert korpusz a British National Corpus (BNC), amely a brit angol nyelv modern használatát dokumentálja, és a Gutenberg Corpus, amely irodalmi műveket tartalmaz. Az ilyen korpuszok létrehozása és karbantartása komplex feladat, mivel a szövegeket gyakran elő kell készíteni, annotálni és strukturálni annak érdekében, hogy a kutatók és a gépi tanulási modellek hatékonyan tudják használni azokat.
4. Hivatkozások:
- Kennedy, Graeme. "An Introduction to Corpus Linguistics." Routledge, 1998.
- McEnery, Tony, and Andrew Hardie. "Corpus Linguistics: Method, Theory and Practice." Cambridge University Press, 2011.
5. Megjegyzések:
6. Kulcsszavak:
mesterséges intelligencia, gépi tanulás, nyelvészet
Tartalom
5G témakör
Általános - átfogó fogalmak témakör
Elektronikus hírközlés szabályozás - szabványosítás témakör
Elektronikus hírközlési szolgáltatás témakör
Elektronikus hírközlő hálózat témakör
Elektronikus hírközlő hálózati infrastruktúra témakör
Felhő témakör
Frekvenciagazdálkodás témakör
Infokommunikációs technikák témakör
Internet alkalmazások témakör
Internet szabályozás - szabványosítás témakör
Internet szolgáltatás témakör
Kábeltévé témakör
Következő generációs internet technológiák és szolgáltatások témakör
Média tartalom átvitel témakör
Média tartalom átviteli szolgáltatás témakör
Média-szabályozás, szabványosítás témakör
Médiaszabályozás témakör
Mesterséges intelligencia témakör
Minőségi paraméterek témakör
Műholdas helymeghatározás témakör
Okos város megoldások témakör
Online médiaplatformok témakör
Optikai hálózat témakör
Személyes adatok védelme - információ biztonság témakör
Szervezetek témakör
Vezeték nélküli kommunikáció témakör
Gyakran ismételt kérdések
Hogyan tudok hozzászólást fűzni a szócikkhez?
Regisztráció után (egy név és egy valós e-mail cím kell hozzá) lehet hozzászólni.
Ki felügyeli a fogalmak helyességét?
A Hírközlési és Informatikai Tudományos Egyesület által létrehozott szerkesztőbizottság hagyja jóvá a fogalmakat.
Lehet bővíteni a fogalomtárat?
A szerkesztőség határozza meg definiálandó fogalmakat. Örömmel vesszük javaslatait a „További fogalmak” oldalon található űrlap kitöltésével.
