Портал славістики


[root][corphub]

CorpSlav Collection

A collection of Slavonic text corpora.

?
Nr.TitleLanguage(s)Year
1

Хельсинкский аннотированный корпус русских текстов ХАНКО (HANCO)

Department of Slavonic and Baltic Languages and Literatures at the University of Helsinki, Der Korpus der modernen russischen Sprache, der vom Institut für slawische und baltische Sprachen und Literaturen der Universität Helsinki gepflegt wird.
Pfeil [URL]
Englisch (eng), Russisch (rus)2023
2

Wyszukiwarka PELCRA dla Narodowego Korpusu Języka Polskiego

Uniwersytet Łódzki: Łódź, PL, Suchmaschine für das Nationale Korpus der polnischen Sprache, die im Rahmen dieses Projektes entstanden ist und in der vorliegenden Demoversion die Suche nach ca. 900 Mio. Wörtern innerhalb der Testdaten, die aus drei Korpora des modernen Polnisch (IPIPAN, PELCRA, PWN) stammen, ermöglicht.
Pfeil [URL]
Polnisch (pol)2011
3

Български национален корпус

Институт за български език, Българска академия на науките, Das bulgarische Nationalkorpus besteht aus einem einsprachigen (bulgarischen) Teil und 47 Parallelkorpora. Der bulgarische Teil enthält ca. 1.2 Milliarden Worteinheiten und besteht aus etwa 240000 Texten. Es handelt sich um Texte aus dem Zeitraum ab 1945 bis in die Gegenwart.
Pfeil [URL]
Bulgarisch (bul)2023
4

Браун корпус за български език

Секция по компютърна лингвистика, Българска академия на науките, Die Webseite bietet Zugang zum Brown-Korpus der bulgarischen Sprache. Dieses besteht aus ca. 500 Text-Samples, darunter fiktionale und faktische Prosa. Insgesamt enthält das Korpus ca. eine Million Worteinheiten. Die Texte gehen auf den Zeitraum zwischen 1990 und 2005 zurück.
Pfeil [URL]
Bulgarisch (bul)2011
5

Das Gralis-Korpus

Institut für Slawistik, Karl-Franzens-Universität Graz, Die Webseite bietet Zugang zum Gralis-Korpus paralleler Texte slawischer Sprachen, wobei das Korpus für Bosnisch, Kroatisch und Serbisch fertiggestellt ist und ca. 2 Mio. Token umfasst.
Pfeil [URL]
Bosnisch (bos), Kroatisch (hrv), Serbisch (srp)2023
6

ParaSol - A Parallel Corpus of Slavic and Other Older Languages

Von Waldenfels, Ruprecht, Die Webseite bietet Zugang zu einem parallelen annotierten Korpus übersetzter und originaler Texte in slawischen und anderen Sprachen.
Pfeil [URL]
Englisch (eng)2017
7

Корпус текстів української мови

Лабораторія комп'ютерної лінгвістики Інституту філології Київського національного університету імені Тараса Шевченка, Korpus der ukrainischen Gegenwartssprache, das etwa 13 Millionen Wortformen aus schöngeistigen, poetischen, folkloristischen und anderen Texten enthält. Die Suche ist nach Literaturgattungen, einzelnen Lexemen und Wortformen und deren morphologischen Charakteristika möglich. Die Seite enthält außerdem einige Frequenzwörterbücher.
Pfeil [URL]
Ukrainisch (ukr)2013
8

Корпус русских публицистических текстов второй половины 19 века

Рогов, Александр, Korpus publizistischer Werke mit literaturanalytischem Inhalt aus der zweiten Hälfte des 19. Jahrhunderts mit ca. 70 Texten vor allem von F. Dostoevskij und V. I. Dal'. Suchmöglichkeiten nach syntaktischen und morphologischen Merkmalen.
Pfeil [URL]
Russisch (rus)2021
9

Параллельный корпус переводов «Слова о полку Игореве»

Орехов, Борис, Textlorpus des Igorlieds im altrussischen Original sowie Übersetzungen in zahlreiche Sprachen: ins moderne Russische, weitere slawische Sprachen, nichtslawische Sprachen der Sowjetunion, germanische und romanische Sprachen. Das Korpus erlaubt den Vergleich zwischen verschiedenen Übersetzungen.
Pfeil [URL]
Russisch (rus)2012
10

Regensburg Russian Diachronic Corpus (RRuDi)

Institut für Slavistik, Universität Regensburg, Die Webseite enthält einen diachronen Korpus des Altrussischen und wird durch Regensburger Sprachwissenschaftler gepflegt.
Pfeil [URL]
Russisch (rus)2020
11

Narodowy Korpus Języka Polskiego - NKJP

Instytut Podstaw Informatyki PAN, Warszawa, Die Webseite bietet Informationen über den Nationalen Korpus der Polnischen Sprache. Es handelt sich hierbei um das größte, annotierte Korpus des gegenwärtigen Polnischen. Enthalten sind Texte aus den Bereichen der Alltags- und Fachpresse, klassische polnische Literatur, Gesprächsaufnahmen und Internettexte. Diese sind nach verschiedenen Kriterien gewichtet, was neben der Größe des Korpus ebenso wichtig für die Aussagekraft von korpusbasierten Untersuchungen ist.
Pfeil [URL]
Polnisch (pol)2011
12

Corpus Albaruthenicum — Корпус беларускамоўных навуковых тэкстаў

Laboratory of Systems Dynamics and Material Mechanics,Belarusian National Technical University, Der Korpus der weissrussischen Sprache mit 75 Texten und 350000 Lemmata wird von der Weissrussischen Nationalen Technischen Universität aufgebaut.
Pfeil [URL]
Englisch (eng), Belarussisch (bel)2011
13

PolDi – a Polish Diachronic Online Corpus

Institut für Slavistik der Universität Regensburg, Die Webseite bietet einen morphosyntaktisch annotierten Korpus altpolnischer Texte. Derzeit beinhaltet das Korpus sieben Texte, welche auf den Zeitraum zwischen dem 15. und 18. Jahrhundert zurückgehen, wobei der Schwerpunkt auf dem 15. und 16. Jahrhundert liegt. Die zusätzliche syntaktische Annotation bezieht sich auf Nullsubjekte, reflexive Verbformen, Passivkonstruktionen und -no/to Formen. Die Texte sind in Hinblick auf die Schreibung an das gegenwärtige Polnische angepasst.
Pfeil [URL]
Polnisch (pol)2020
14

Czech Academic Corpus

Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, Das "Czech Academic Corpus" ist ein Projekt des Instituts für Formale und Angewandte Linguistik der Prager Karls-Universität und des Instituts für tschechische Sprache der Tschechischen Akademie der Wissenschaften. Es enthält 180 Texte mit jeweils 3000 Wörtern.
Pfeil [URL]
Tschechisch (cze)2023
15

Referenčni govorni korpus slovenskega jezika GOS

Korpus GOS, Kleines Sprachkorpus der zeitgenössischen gesprochenen slowenischen Sprache ist auf der Grundlage des Materials von 120 Probanten entstanden.
Pfeil [URL]
Slowenisch (slv)2023
16

Национальный корпус русского литературного языка

Санкт-Петербургский Государственный Университет, Die Webseite enthält einen Korpus der russischen Literatursprache. Dieses umfasst ca. 1 Million Token, bestehend aus vorwiegend publizistischen und populärwissenschaftlichen Texten. Insgesamt sind derzeit 218 Texte vertreten.
Pfeil [URL]
Russisch (rus)2023
17

Национальный корпус русского языка (НКРЯ)

Институт русского языка им. В. В. Виноградова РАН, Москва, Die Webseite mit der Datenbank zum Nationalkorpus der russischen Sprache enthält 140 Mio. Einheiten und wird durch Moskauer und St. Petersburger Sprachwissenschaftler gepflegt.
Pfeil [URL]
Russisch (rus)2023
18

Slovarske in besedilne zbirke - Web corpora, lexicons and tools

Eine Sammlung von Nachschlagewerken, Textkorpora und Werkzeugen zum Slowenischen.
Pfeil [URL]
Englisch (eng), Slowenisch (slv)2012
19

Korpus Języka Polskiego IPI PAN

Die Webseite mit der Datenbank zum nationalen Textkorpus der polnischen Sprache enthält 250 Mio. Einheiten.
Pfeil [URL]
Polnisch (pol)2011
20

Hrvatska jezična mrežna riznica - Croatian Language Online Repository

Die Webseite mit der Datenbank zum Kroatischen Textkorpus bietet ein komfortables Suchsystem.
Pfeil [URL]
Kroatisch (hrv)2010
21

Český Národní Korpus - Czech National Corpus

Die Webseite mit der Datenbanken zum Tschechischen Textkorpus.
Pfeil [URL]
Tschechisch (cze)2023
22

The Oslo Corpus of Bosnian Texts / Korpus bosanskih tekstova na Univerzitetu u Oslu

Die Webseite mit der Datenbank zum Bosnischen Textkorpus enthält ca. 1,5 Mio. Einheiten.
Pfeil [URL]
Englisch (eng)2010
23

Nova beseda

Annotiertes Textkorpus zum Slowenischen. Das Korpus enthält laut Angaben des Anbieters 240 Mill. Tokens von gesprochener und geschriebener Sprache und deckt eine große Bandbreite an Textsorten ab: Belletristik, wissenschaftliche Literatur, Fachsprache, Zeitungssprache etc. Das Korpus ist über Suchverfahren frei zugänglich (Stand: Februar 2012).
Pfeil [URL]
Englisch (eng), Slowenisch (slv)2012
24

Korpus DIALOG

Ústav pro jazyk český Akademie věd ČR, Die Webseite bietet Zugang zu einem multimedialen Korpus des gesprochenen Tschechischen. Das Korpus enthält Aufnahmen und Transkriptionen von öffentlich geführten Dialogen im tschechischen Fernsehen.
Pfeil [URL]
Tschechisch (cze)2011
25

Руско-български преводачески корпус

Катедра "Русистика" при ВТУ "Св. св. Кирил и Методий", Die Webseite enthält eine Datenbank zum bulgarisch-russischen Parallelkorpus.
Pfeil [URL]
Russisch (rus), Bulgarisch (bul)2011
26

Leipzig Corpora Collection - Wortschatz

Abteilung Automatische Sprachverarbeitung • Institut für Informatik • Universität Leipzig, Das Wortschatzportal der Universität Leipzig ermöglicht die Suche in 230 korpusbasierten einsprachigen Wörterbüchern.
Pfeil [URL]
Englisch (eng)2023
27

Polsko-ukraiński korpus równoległy

Kotsyba, Natalia, Die Webseite enthält ein polnisch-ukrainisches Parallelkorpus mit ca. 3 Mio. Worteinheiten.
Pfeil [URL]
Polnisch (pol), Ukrainisch (ukr)2011
28

Slovene-English Parallel Corpus - IJS-ELAN corpus

Dept. of Knowledge Technologies, Jožef Stefan Institute, Parallelkorpus mit ca. einer Million Wörtern aus 15 slowenisch-englischen und englisch-slowenischen Texten. Das Korpus ist satzaligniert, tokenisiert, pos-getaggt und lemmatisiert. Es liegt derzeit in Version 3 (2012) vor.
Pfeil [URL]
Englisch (eng), Slowenisch (slv)2013
29

Large Corpora used in CTS

Die Webseite des Zentrums für Übersetzungsstudien (Universität Leeds) bietet die Möglichkeit der Suche in einer Reihe von slavischen und nicht slavischen Korpora.
Pfeil [URL]
Englisch (eng), Russisch (rus), Polnisch (pol)2023