Портал славістики


[root][corphub]

CorpSlav Collection

A collection of Slavonic text corpora.

?
Nr.TitleLanguage(s)Year
1

Wyszukiwarka PELCRA dla Narodowego Korpusu Języka Polskiego

Uniwersytet Łódzki: Łódź, PL, Suchmaschine für das Nationale Korpus der polnischen Sprache, die im Rahmen dieses Projektes entstanden ist und in der vorliegenden Demoversion die Suche nach ca. 900 Mio. Wörtern innerhalb der Testdaten, die aus drei Korpora des modernen Polnisch (IPIPAN, PELCRA, PWN) stammen, ermöglicht.
Pfeil [URL]
Polnisch (pol)2011
2

Regensburg Russian Diachronic Corpus (RRuDi)

Institut für Slavistik, Universität Regensburg, Die Webseite enthält einen diachronen Korpus des Altrussischen und wird durch Regensburger Sprachwissenschaftler gepflegt.
Pfeil [URL]
Russisch (rus)2020
3

Български национален корпус

Институт за български език, Българска академия на науките, Das bulgarische Nationalkorpus besteht aus einem einsprachigen (bulgarischen) Teil und 47 Parallelkorpora. Der bulgarische Teil enthält ca. 1.2 Milliarden Worteinheiten und besteht aus etwa 240000 Texten. Es handelt sich um Texte aus dem Zeitraum ab 1945 bis in die Gegenwart.
Pfeil [URL]
Bulgarisch (bul)2023
4

Narodowy Korpus Języka Polskiego - NKJP

Instytut Podstaw Informatyki PAN, Warszawa, Die Webseite bietet Informationen über den Nationalen Korpus der Polnischen Sprache. Es handelt sich hierbei um das größte, annotierte Korpus des gegenwärtigen Polnischen. Enthalten sind Texte aus den Bereichen der Alltags- und Fachpresse, klassische polnische Literatur, Gesprächsaufnahmen und Internettexte. Diese sind nach verschiedenen Kriterien gewichtet, was neben der Größe des Korpus ebenso wichtig für die Aussagekraft von korpusbasierten Untersuchungen ist.
Pfeil [URL]
Polnisch (pol)2011
5

Corpus Albaruthenicum — Корпус беларускамоўных навуковых тэкстаў

Laboratory of Systems Dynamics and Material Mechanics,Belarusian National Technical University, Der Korpus der weissrussischen Sprache mit 75 Texten und 350000 Lemmata wird von der Weissrussischen Nationalen Technischen Universität aufgebaut.
Pfeil [URL]
Englisch (eng), Belarussisch (bel)2011
6

Национальный корпус русского литературного языка

Санкт-Петербургский Государственный Университет, Die Webseite enthält einen Korpus der russischen Literatursprache. Dieses umfasst ca. 1 Million Token, bestehend aus vorwiegend publizistischen und populärwissenschaftlichen Texten. Insgesamt sind derzeit 218 Texte vertreten.
Pfeil [URL]
Russisch (rus)2023
7

Хельсинкский аннотированный корпус русских текстов ХАНКО (HANCO)

Department of Slavonic and Baltic Languages and Literatures at the University of Helsinki, Der Korpus der modernen russischen Sprache, der vom Institut für slawische und baltische Sprachen und Literaturen der Universität Helsinki gepflegt wird.
Pfeil [URL]
Englisch (eng), Russisch (rus)2023
8

Slovenský národný korpus

Die Website mit der Datenbank des slowakischen Textkorpus. Das Korpus besteht aus mehreren Segmenten, das Hauptkorpus umfasst derzeit ca. 1,68 Mio. Token (2023).
Pfeil [URL]
Slowakisch (slo)2023
9

Браун корпус за български език

Секция по компютърна лингвистика, Българска академия на науките, Die Webseite bietet Zugang zum Brown-Korpus der bulgarischen Sprache. Dieses besteht aus ca. 500 Text-Samples, darunter fiktionale und faktische Prosa. Insgesamt enthält das Korpus ca. eine Million Worteinheiten. Die Texte gehen auf den Zeitraum zwischen 1990 und 2005 zurück.
Pfeil [URL]
Bulgarisch (bul)2011
10

Hrvatska jezična mrežna riznica - Croatian Language Online Repository

Die Webseite mit der Datenbank zum Kroatischen Textkorpus bietet ein komfortables Suchsystem.
Pfeil [URL]
Kroatisch (hrv)2010
11

Český Národní Korpus - Czech National Corpus

Die Webseite mit der Datenbanken zum Tschechischen Textkorpus.
Pfeil [URL]
Tschechisch (cze)2023
12

Беларускі N-корпус

nicht bekannt, Das erste öffentliche Sprachkorpus des Belarussischen.
Pfeil [URL]
Belarussisch (bel)2023
13

Korpus GENIE – GEsprochenes NIEdersorbisch/Wendisch

Wissenschaftliche Online-Datenbank mit knapp 350 kommentierten Audiodateien niedersorbischer Sprachaufnahmen aus verschiedenen Quellen und Epochen. Die Nutzung ist kostenlos, für eine uneingeschränkte Nutzung ist aber eine Registrierung nötig.
Pfeil [URL]
Deutsch (ger)2012
14

Korpus DIALOG

Ústav pro jazyk český Akademie věd ČR, Die Webseite bietet Zugang zu einem multimedialen Korpus des gesprochenen Tschechischen. Das Korpus enthält Aufnahmen und Transkriptionen von öffentlich geführten Dialogen im tschechischen Fernsehen.
Pfeil [URL]
Tschechisch (cze)2011
15

Computer Fund of Russian Language - Машинный фонд русского языка

Колодяжная, Л.И., Der Computer-Fonds der russischen Sprache beinhaltet eine Reihe von Ressourcen zur russischen Computerlinguistik.
Pfeil [URL]
Russisch (rus)2011
16

Hrvatski nacionalni korpus (HNK)

Zavod za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu, Die Webseite mit der Datenbank zum nationalen Textkorpus der kroatischen Sprache.
Pfeil [URL]
Kroatisch (hrv)2020
17

Компьютерный корпус текстов русских газет конца ХХ-ого века

Ein Korpus-Fragment der russischen Zeitungen Ende des 20. Jahrhunderts enthält 200.000 Einheiten.
Pfeil [URL]
Russisch (rus)2010
18

Das Gralis-Korpus

Institut für Slawistik, Karl-Franzens-Universität Graz, Die Webseite bietet Zugang zum Gralis-Korpus paralleler Texte slawischer Sprachen, wobei das Korpus für Bosnisch, Kroatisch und Serbisch fertiggestellt ist und ca. 2 Mio. Token umfasst.
Pfeil [URL]
Bosnisch (bos), Kroatisch (hrv), Serbisch (srp)2023
19

Corpus Cyrillo-Methodianum Helsingiense: An Electronic Corpus of Old Church Slavonic Texts

Die Webseite bietet eine Sammlung von wichtigsten altkirchenslavischen Texten. Verfügbar sind: Codex Marianus, Codex Suprasliensis, Vita Constantini at Methodii u.a.
Pfeil [URL]
Englisch (eng)2023
20

PolDi – a Polish Diachronic Online Corpus

Institut für Slavistik der Universität Regensburg, Die Webseite bietet einen morphosyntaktisch annotierten Korpus altpolnischer Texte. Derzeit beinhaltet das Korpus sieben Texte, welche auf den Zeitraum zwischen dem 15. und 18. Jahrhundert zurückgehen, wobei der Schwerpunkt auf dem 15. und 16. Jahrhundert liegt. Die zusätzliche syntaktische Annotation bezieht sich auf Nullsubjekte, reflexive Verbformen, Passivkonstruktionen und -no/to Formen. Die Texte sind in Hinblick auf die Schreibung an das gegenwärtige Polnische angepasst.
Pfeil [URL]
Polnisch (pol)2020