Портал славістики


[root][corphub]

CorpSlav Collection

Eine Sammlung zur slawistischen Textkorpora.

?
Nr.TitelSpracheUpdtJahr
1

Poliqarp

Jakub.Wilk, Nathell, Poliquarp ist eine Softwaresammlung zum Suchen und Finden von Text in großen Textkorpora.
Pfeil [URL]
Englisch (eng)2023
2

OPUS...The open parallel corpus

OPUS ist eine immer wachsende Sammlung von übersetzten Texten aus dem Web. Open Source von Parallelkorpora.
Pfeil [URL]
Englisch (eng)2023
3

NLP, Corpus Linguistics, Corpus Based Grammar Research

Levická, Jana, Ein Konferenzband mit Materialien der 5. internationalen Konferenz für Korpuslinguistik in Smolenice, Slowakei, 25. - 27. November 2009.
Pfeil [URL]
Englisch (eng)2013
4

Korpus GENIE – GEsprochenes NIEdersorbisch/Wendisch

Wissenschaftliche Online-Datenbank mit knapp 350 kommentierten Audiodateien niedersorbischer Sprachaufnahmen aus verschiedenen Quellen und Epochen. Die Nutzung ist kostenlos, für eine uneingeschränkte Nutzung ist aber eine Registrierung nötig.
Pfeil [URL]
Deutsch (ger)2012
5

Regensburg Russian Diachronic Corpus (RRuDi)

Institut für Slavistik, Universität Regensburg, Die Webseite enthält einen diachronen Korpus des Altrussischen und wird durch Regensburger Sprachwissenschaftler gepflegt.
Pfeil [URL]
Russisch (rus)2020
6

Български национален корпус

Институт за български език, Българска академия на науките, Das bulgarische Nationalkorpus besteht aus einem einsprachigen (bulgarischen) Teil und 47 Parallelkorpora. Der bulgarische Teil enthält ca. 1.2 Milliarden Worteinheiten und besteht aus etwa 240000 Texten. Es handelt sich um Texte aus dem Zeitraum ab 1945 bis in die Gegenwart.
Pfeil [URL]
Bulgarisch (bul)2023
7

Лінгвістичний портал MOVA.info

Київський національний університет імені Тараса Шевченка [Kiew / National Taras Shevchenko University], Das Portal zur ukrainischen Sprache enthält einen Online-Übersetzer Ukrainisch-Russisch, ein elektronisches Lehrbuch sowie ein Korpus der ukrainischen Sprache, Wörterbücher (Häufigkeitswörterbücher, linguistische Wörterbücher, einsprachige Wörterbücher des Ukraninischen etc.), ein Forum zur Sprach- und Literaturwissenschaft, Links und News.
Pfeil [URL]
Englisch (eng), Russisch (rus), Ukrainisch (ukr)2011
8

Corpus Albaruthenicum — Корпус беларускамоўных навуковых тэкстаў

Laboratory of Systems Dynamics and Material Mechanics,Belarusian National Technical University, Der Korpus der weissrussischen Sprache mit 75 Texten und 350000 Lemmata wird von der Weissrussischen Nationalen Technischen Universität aufgebaut.
Pfeil [URL]
Englisch (eng), Belarussisch (bel)2011
9

Корпус текстів української мови

Лабораторія комп'ютерної лінгвістики Інституту філології Київського національного університету імені Тараса Шевченка, Korpus der ukrainischen Gegenwartssprache, das etwa 13 Millionen Wortformen aus schöngeistigen, poetischen, folkloristischen und anderen Texten enthält. Die Suche ist nach Literaturgattungen, einzelnen Lexemen und Wortformen und deren morphologischen Charakteristika möglich. Die Seite enthält außerdem einige Frequenzwörterbücher.
Pfeil [URL]
Ukrainisch (ukr)2013
10

Национальный корпус русского литературного языка

Санкт-Петербургский Государственный Университет, Die Webseite enthält einen Korpus der russischen Literatursprache. Dieses umfasst ca. 1 Million Token, bestehend aus vorwiegend publizistischen und populärwissenschaftlichen Texten. Insgesamt sind derzeit 218 Texte vertreten.
Pfeil [URL]
Russisch (rus)2023
11

Хельсинкский аннотированный корпус русских текстов ХАНКО (HANCO)

Department of Slavonic and Baltic Languages and Literatures at the University of Helsinki, Der Korpus der modernen russischen Sprache, der vom Institut für slawische und baltische Sprachen und Literaturen der Universität Helsinki gepflegt wird.
Pfeil [URL]
Englisch (eng), Russisch (rus)2023
12

Das Gralis-Korpus

Institut für Slawistik, Karl-Franzens-Universität Graz, Die Webseite bietet Zugang zum Gralis-Korpus paralleler Texte slawischer Sprachen, wobei das Korpus für Bosnisch, Kroatisch und Serbisch fertiggestellt ist und ca. 2 Mio. Token umfasst.
Pfeil [URL]
Bosnisch (bos), Kroatisch (hrv), Serbisch (srp)2023
13

Генеральний регіонально анотований корпус української мови (ГРАК)

Шведова, М., Das "General Regionally Annotated Corpus of the Ukrainian Language" (GRAC) ist eine große, repräsentative, strukturierte Sammlung von Texten in ukrainischer Sprache. Es enthält ca, 130.000 Texte von ca. 30.000 Personen und deckt den Zeitraum von 1816 bis 2022 ab.
Pfeil [URL]
Ukrainisch2023
14

Компьютерный корпус текстов русских газет конца ХХ-ого века

Ein Korpus-Fragment der russischen Zeitungen Ende des 20. Jahrhunderts enthält 200.000 Einheiten.
Pfeil [URL]
Russisch (rus)2010
15

Computer Fund of Russian Language - Машинный фонд русского языка

Колодяжная, Л.И., Der Computer-Fonds der russischen Sprache beinhaltet eine Reihe von Ressourcen zur russischen Computerlinguistik.
Pfeil [URL]
Russisch (rus)2011
16

dhr. dr. A.A. Barentsen - Universiteit van Amsterdam

Webseite des Sprachwissenschaftlers Dr. A. A. Barentsen (Universität Amsterdam). Forschungsschwerpunkte: Semantik der Verbkategorien im Slawischen, insbesondere die Kategorie Aspekt im Russischen, sowie der Aufbau des „Amsterdam Slavic Parallel Aligned Corpus (ASPAC)“. Die Seite enthält ausführliche Informationen zum ASPAC, außerdem eine Bibliographie der Veröffentlichungen, teilweise mit Volltexten.
Pfeil [URL]
Englisch (eng)2020
17

Evrokorpus - vzporedni korpusi prevodov

Zeljk, Miran, Ein Parallel-Textkorpus für Slowenisch und andere europäische Sprachen (Englisch, Deutsch, Französisch, Italienisch, Spanisch). Zum Fremdsprachenerwerb und für Übersetzer geeignet.
Pfeil [URL]
Slowenisch (slv)2023
18

Korpus Języka Polskiego Wydawnictwa Naukowego PWN

Wydawnictwo Naukowe PWN, Ein Korpus des Polnischen Wissenschaftsverlags PWN mit Wortbeschreibungen und Textbeispielen enthält ca. 7,5 Mio Wörter.
Pfeil [URL]
Polnisch (pol)2023
19

Korpus savremenog srpskog jezika na Matematičkom fakultetu Univerziteta u Beogradu = Corpus of Contemporary Serbian Language

Matematički fakultet Univerziteta u Beogradu, Korpus der zeitgenössischen serbischen Sprache enthält mehrere thematische Segmente. Zugang auf Anfrage.
Pfeil [URL]
Serbisch (srp)2013
20

Leipzig Corpora Collection - Wortschatz

Abteilung Automatische Sprachverarbeitung • Institut für Informatik • Universität Leipzig, Das Wortschatzportal der Universität Leipzig ermöglicht die Suche in 230 korpusbasierten einsprachigen Wörterbüchern.
Pfeil [URL]
Englisch (eng)2023
21

Nova beseda

Annotiertes Textkorpus zum Slowenischen. Das Korpus enthält laut Angaben des Anbieters 240 Mill. Tokens von gesprochener und geschriebener Sprache und deckt eine große Bandbreite an Textsorten ab: Belletristik, wissenschaftliche Literatur, Fachsprache, Zeitungssprache etc. Das Korpus ist über Suchverfahren frei zugänglich (Stand: Februar 2012).
Pfeil [URL]
Englisch (eng), Slowenisch (slv)2012
22

Corpus of Spoken Rusyn [Korpus der gesprochenen rusinischen Sprache]

Rabus, Achim, Das "Corpus of Spoken Rusyn Language" (Korpus der gesprochenen rusinischen Sprache) ist eine Sammlung der rusinischen Volkssprache aus verschiedenen Regionen der Karpaten. Die Aufnahmen wurden im Jahr 2015 in Polen, der Slowakei, der Ukraine und Ungarn gemacht. Das Korpus ist ein Ergebnis des DFG-geförderten Forschungsprojekts "Rusyn als Minderheitensprache über Staatsgrenzen hinweg: quantitative Perspektiven" an der Universität Freiburg.
Pfeil [URL]
Rusinisch2023
23

Корпуси: Проекти групи lang-uk

Чаплинський, Дмитро, Eine Sammlung ukrainischer Korpora mit dem Schwerpunkt auf Wortverarbeitung und Annotation.
Pfeil [URL]
Ukrainisch2023
24

Wyszukiwarka PELCRA dla Narodowego Korpusu Języka Polskiego

Uniwersytet Łódzki: Łódź, PL, Suchmaschine für das Nationale Korpus der polnischen Sprache, die im Rahmen dieses Projektes entstanden ist und in der vorliegenden Demoversion die Suche nach ca. 900 Mio. Wörtern innerhalb der Testdaten, die aus drei Korpora des modernen Polnisch (IPIPAN, PELCRA, PWN) stammen, ermöglicht.
Pfeil [URL]
Polnisch (pol)2011
25

Referenčni govorni korpus slovenskega jezika GOS

Korpus GOS, Kleines Sprachkorpus der zeitgenössischen gesprochenen slowenischen Sprache ist auf der Grundlage des Materials von 120 Probanten entstanden.
Pfeil [URL]
Slowenisch (slv)2023
26

Natural Language Server

Dept. of Knowledge Technologies Jožef Stefan Institute, Die Webseite enthält Links zu Ressourcen, die nützlich beim Erlernen oder Erforschen der Slowenischen und anderer Sprachen sind. Darunter sind Links, die dem Textkorpus und der Grammatik gewidmet sind, sowie digitale Schulbücher in Slowenisch, digitale Bibliotheken, Lexika und ein Slowenisch-Englischer Parallelkorpus.
Pfeil [URL]
Englisch (eng)2013
27

Образовательный портал Национального корпуса русского языка

Добрушина, Нина Роландовна, Der Nationale Korpus der russischen Sprache ist ein Informationssystem mit Methodiken, Lehrmaterialien und Artikeln über die Linguistik aus dem Zeitraum von der Mitte des 18. Jahrhunderts bis heute.
Pfeil [URL]
Russisch (rus)2018
28

CLIP Computational Linguistics in Poland

Lenart, Michal, Eine thematisch strukturierte Sammlung von Links, die der polnischen und anderssprachigen Korpuslinguistik gewidmet sind.
Pfeil [URL]
Englisch (eng)2013
29

Smyrna — prosty konkordancer OBSŁUGUJĄCY JĘZYK POLSKI

Janus, Daniel, Das Online-Tool Smyrna ermöglicht den Zugang zu polnischen Textkorpora sowie deren Analyse im Internetbrowser.
Pfeil [URL]
Polnisch (pol)2023
30

КОРПУСНАЯ ЛИНГВИСТИКА

Санкт-Петербургский государственный университет, Институт лингвистических исследований РАН, Webseite des Seminars (Projekt) für Korpus- und Computerlinguistik an der Sankt-Petersburger Universität. Informationen über die Korpuslinguistik, ihre Geschichte, Schulen und die Anwendung der neuen Technologien in diesem Forschungsprojekt.
Pfeil [URL]
Russisch (rus)2023
31

The Helsinki Annotated Corpus of Russian Texts HANCO

University of Helsinki, Das HANCO - Projekt des Lehrstuhls für Slawische und Baltische Sprachen an der Universität Helsinki beinhaltet einen Korpus von 100.000 russischen Wörtern. Mit morphologischen, syntaktischen und funktionalen Informationen über jedes Wort.
Pfeil [URL]
Englisch (eng), Russisch (rus)2020
32

Беларускі N-корпус

nicht bekannt, Das erste öffentliche Sprachkorpus des Belarussischen.
Pfeil [URL]
Belarussisch (bel)2023
33

The General Internet-Corpus of Russian (GICR)

Институт лингвистики РГГУ, Das Magakorpus der russischen Sprache wurde auf der Grundlage der Internettexte vom Institut für Computerlinguistik aufgebaut. Das Korpus beinhaltet über 20 Mrd. Wörter.
Pfeil [URL]
Russisch (rus)2017
34

Korpus DIALOG

Ústav pro jazyk český Akademie věd ČR, Die Webseite bietet Zugang zu einem multimedialen Korpus des gesprochenen Tschechischen. Das Korpus enthält Aufnahmen und Transkriptionen von öffentlich geführten Dialogen im tschechischen Fernsehen.
Pfeil [URL]
Tschechisch (cze)2011
35

Czech Academic Corpus

Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, Das "Czech Academic Corpus" ist ein Projekt des Instituts für Formale und Angewandte Linguistik der Prager Karls-Universität und des Instituts für tschechische Sprache der Tschechischen Akademie der Wissenschaften. Es enthält 180 Texte mit jeweils 3000 Wörtern.
Pfeil [URL]
Tschechisch (cze)2023
36

The Prague Dependency Treebank 2.0

Institut of Formal and Applied Linguistics, Charles University in Prague, "The Prague Dependency Treebank 2.0" enthält tschechische korpuslinguistische Texte mit morphologischen, syntaktischen und semantischen Annotationen.
Pfeil [URL]
Englisch (eng)2023
37

INTERCORP projekt paralelních korpusů

Čermák, František, INTERCORP ist ein Projekt für Erschafffung von einem Parallelkorpus aus Texten in Tschechisch und in allen anderen Sprachen, die an der Philosophischen Fakultät der Karls-Univesität in Prag unterrichtet werden.
Pfeil [URL]
Tschechisch (cze)2023
38

Slovenský národný korpus

Die Website mit der Datenbank des slowakischen Textkorpus. Das Korpus besteht aus mehreren Segmenten, das Hauptkorpus umfasst derzeit ca. 1,68 Mio. Token (2023).
Pfeil [URL]
Slowakisch (slo)2023
39

Slovarske in besedilne zbirke - Web corpora, lexicons and tools

Eine Sammlung von Nachschlagewerken, Textkorpora und Werkzeugen zum Slowenischen.
Pfeil [URL]
Englisch (eng), Slowenisch (slv)2012
40

Hrvatski nacionalni korpus (HNK)

Zavod za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu, Die Webseite mit der Datenbank zum nationalen Textkorpus der kroatischen Sprache.
Pfeil [URL]
Kroatisch (hrv)2020
41

Параллельный корпус переводов «Слова о полку Игореве»

Орехов, Борис, Textlorpus des Igorlieds im altrussischen Original sowie Übersetzungen in zahlreiche Sprachen: ins moderne Russische, weitere slawische Sprachen, nichtslawische Sprachen der Sowjetunion, germanische und romanische Sprachen. Das Korpus erlaubt den Vergleich zwischen verschiedenen Übersetzungen.
Pfeil [URL]
Russisch (rus)2012
42

СКАТ - Санкт-Петербургский корпус агиографических текстов

Факультета филологии и искусств Санкт-Петербургского государственного университета, Der elektronische Textkorpus der literarischen Denkmähler der altrussischen hagiographischen Literatur.
Pfeil [URL]
Russisch (rus)2014
43

Narodowy Korpus Języka Polskiego - NKJP

Instytut Podstaw Informatyki PAN, Warszawa, Die Webseite bietet Informationen über den Nationalen Korpus der Polnischen Sprache. Es handelt sich hierbei um das größte, annotierte Korpus des gegenwärtigen Polnischen. Enthalten sind Texte aus den Bereichen der Alltags- und Fachpresse, klassische polnische Literatur, Gesprächsaufnahmen und Internettexte. Diese sind nach verschiedenen Kriterien gewichtet, was neben der Größe des Korpus ebenso wichtig für die Aussagekraft von korpusbasierten Untersuchungen ist.
Pfeil [URL]
Polnisch (pol)2011
44

PolDi – a Polish Diachronic Online Corpus

Institut für Slavistik der Universität Regensburg, Die Webseite bietet einen morphosyntaktisch annotierten Korpus altpolnischer Texte. Derzeit beinhaltet das Korpus sieben Texte, welche auf den Zeitraum zwischen dem 15. und 18. Jahrhundert zurückgehen, wobei der Schwerpunkt auf dem 15. und 16. Jahrhundert liegt. Die zusätzliche syntaktische Annotation bezieht sich auf Nullsubjekte, reflexive Verbformen, Passivkonstruktionen und -no/to Formen. Die Texte sind in Hinblick auf die Schreibung an das gegenwärtige Polnische angepasst.
Pfeil [URL]
Polnisch (pol)2020
45

Браун корпус за български език

Секция по компютърна лингвистика, Българска академия на науките, Die Webseite bietet Zugang zum Brown-Korpus der bulgarischen Sprache. Dieses besteht aus ca. 500 Text-Samples, darunter fiktionale und faktische Prosa. Insgesamt enthält das Korpus ca. eine Million Worteinheiten. Die Texte gehen auf den Zeitraum zwischen 1990 und 2005 zurück.
Pfeil [URL]
Bulgarisch (bul)2011
46

Slovene-English Parallel Corpus - IJS-ELAN corpus

Dept. of Knowledge Technologies, Jožef Stefan Institute, Parallelkorpus mit ca. einer Million Wörtern aus 15 slowenisch-englischen und englisch-slowenischen Texten. Das Korpus ist satzaligniert, tokenisiert, pos-getaggt und lemmatisiert. Es liegt derzeit in Version 3 (2012) vor.
Pfeil [URL]
Englisch (eng), Slowenisch (slv)2013
47

Hrvatska jezična mrežna riznica - Croatian Language Online Repository

Die Webseite mit der Datenbank zum Kroatischen Textkorpus bietet ein komfortables Suchsystem.
Pfeil [URL]
Kroatisch (hrv)2010
48

Dolnoserbski.de

Serbski Institut - Sorbisches Institut Bautzen, Kleines Sprachkorpus der niedersorbischen Sprache und ein niedersorbisch-deutsches Online-Wörterbuch.
Pfeil [URL]
wen2023
49

Polsko-ukraiński korpus równoległy

Kotsyba, Natalia, Die Webseite enthält ein polnisch-ukrainisches Parallelkorpus mit ca. 3 Mio. Worteinheiten.
Pfeil [URL]
Polnisch (pol), Ukrainisch (ukr)2011
50

Руско-български преводачески корпус

Катедра "Русистика" при ВТУ "Св. св. Кирил и Методий", Die Webseite enthält eine Datenbank zum bulgarisch-russischen Parallelkorpus.
Pfeil [URL]
Russisch (rus), Bulgarisch (bul)2011
51

PCEDT 2.0 - Prague Czech-English Dependency Treebank 2.0

Institut of Formal and Applied Linguistics, Charles University in Prague, Ein tschechisch-englischer Parallelkorpus mit 1,2 Mio. Wörtern in fast 50.000 Sätzen. Nachschlagewerk für Übersetzer und zum Fremdsprachenerwerb.
Pfeil [URL]
Englisch (eng)2023
52

Český Národní Korpus - Czech National Corpus

Die Webseite mit der Datenbanken zum Tschechischen Textkorpus.
Pfeil [URL]
Tschechisch (cze)2023
53

The Oslo Corpus of Bosnian Texts / Korpus bosanskih tekstova na Univerzitetu u Oslu

Die Webseite mit der Datenbank zum Bosnischen Textkorpus enthält ca. 1,5 Mio. Einheiten.
Pfeil [URL]
Englisch (eng)2010
54

Large Corpora used in CTS

Die Webseite des Zentrums für Übersetzungsstudien (Universität Leeds) bietet die Möglichkeit der Suche in einer Reihe von slavischen und nicht slavischen Korpora.
Pfeil [URL]
Englisch (eng), Russisch (rus), Polnisch (pol)2023
55

Национальный корпус русского языка (НКРЯ)

Институт русского языка им. В. В. Виноградова РАН, Москва, Die Webseite mit der Datenbank zum Nationalkorpus der russischen Sprache enthält 140 Mio. Einheiten und wird durch Moskauer und St. Petersburger Sprachwissenschaftler gepflegt.
Pfeil [URL]
Russisch (rus)2023
56

Korpus Języka Polskiego IPI PAN

Die Webseite mit der Datenbank zum nationalen Textkorpus der polnischen Sprache enthält 250 Mio. Einheiten.
Pfeil [URL]
Polnisch (pol)2011
57

ParaSol - A Parallel Corpus of Slavic and Other Older Languages

Von Waldenfels, Ruprecht, Die Webseite bietet Zugang zu einem parallelen annotierten Korpus übersetzter und originaler Texte in slawischen und anderen Sprachen.
Pfeil [URL]
Englisch (eng)2017
58

UMC - ÚFAL Multilingual Corpora

Bojar, Ondřej, UMC ist eine Sammlung von mehrsprachigen Korpora mit dem Schwerpunkt Tschechisch-Englisch-Russisch.
Pfeil [URL]
Englisch (eng)2013
59

Corpus Cyrillo-Methodianum Helsingiense: An Electronic Corpus of Old Church Slavonic Texts

Die Webseite bietet eine Sammlung von wichtigsten altkirchenslavischen Texten. Verfügbar sind: Codex Marianus, Codex Suprasliensis, Vita Constantini at Methodii u.a.
Pfeil [URL]
Englisch (eng)2023
60

Slavistische Textkorpora und Textsammlungen im Internet

Linksammlung des Slavistischen Seminars in Tübingen zu slavistischen Textkorpora und Textsammlungen im Internet. Enthält Korpora zu folgenden Sprachen: altkirchenslavisch; westslavische Sprachen: obersorbisch, polnisch, altpolnisch, slovakisch, tschechisch; südslavische Sprachen: bulgarisch, bosnisch, kroatisch, mazedonisch, serbisch, slovenisch; ostslavische Sprachen: russisch, ukrainisch, altweißrussisch. Außerdem: mehrsprachige Korpora, Linksammlungen auch zu über die Slavistik hinausgehenden mehrsprachigen Korpora und zur Korpuslinguistik.
Pfeil [URL]
Deutsch (ger)2020