slavistik-portal
Портал славістики
A collection of Slavonic text corpora.
Nr. | Title | Language(s) | Year |
---|---|---|---|
1 | Wyszukiwarka PELCRA dla Narodowego Korpusu Języka PolskiegoUniwersytet Łódzki: Łódź, PL, Suchmaschine für das Nationale Korpus der polnischen Sprache, die im Rahmen dieses Projektes entstanden ist und in der vorliegenden Demoversion die Suche nach ca. 900 Mio. Wörtern innerhalb der Testdaten, die aus drei Korpora des modernen Polnisch (IPIPAN, PELCRA, PWN) stammen, ermöglicht.[URL] | Polnisch (pol) | 2011 |
2 | Regensburg Russian Diachronic Corpus (RRuDi)Institut für Slavistik, Universität Regensburg, Die Webseite enthält einen diachronen Korpus des Altrussischen und wird durch Regensburger Sprachwissenschaftler gepflegt.[URL] | Russisch (rus) | 2020 |
3 | Български национален корпусИнститут за български език, Българска академия на науките, Das bulgarische Nationalkorpus besteht aus einem einsprachigen (bulgarischen) Teil und 47 Parallelkorpora. Der bulgarische Teil enthält ca. 1.2 Milliarden Worteinheiten und besteht aus etwa 240000 Texten. Es handelt sich um Texte aus dem Zeitraum ab 1945 bis in die Gegenwart.[URL] | Bulgarisch (bul) | 2023 |
4 | Narodowy Korpus Języka Polskiego - NKJPInstytut Podstaw Informatyki PAN, Warszawa, Die Webseite bietet Informationen über den Nationalen Korpus der Polnischen Sprache. Es handelt sich hierbei um das größte, annotierte Korpus des gegenwärtigen Polnischen. Enthalten sind Texte aus den Bereichen der Alltags- und Fachpresse, klassische polnische Literatur, Gesprächsaufnahmen und Internettexte. Diese sind nach verschiedenen Kriterien gewichtet, was neben der Größe des Korpus ebenso wichtig für die Aussagekraft von korpusbasierten Untersuchungen ist.[URL] | Polnisch (pol) | 2011 |
5 | Corpus Albaruthenicum — Корпус беларускамоўных навуковых тэкстаўLaboratory of Systems Dynamics and Material Mechanics,Belarusian National Technical University, Der Korpus der weissrussischen Sprache mit 75 Texten und 350000 Lemmata wird von der Weissrussischen Nationalen Technischen Universität aufgebaut.[URL] | Englisch (eng), Belarussisch (bel) | 2011 |
6 | Национальный корпус русского литературного языкаСанкт-Петербургский Государственный Университет, Die Webseite enthält einen Korpus der russischen Literatursprache. Dieses umfasst ca. 1 Million Token, bestehend aus vorwiegend publizistischen und populärwissenschaftlichen Texten. Insgesamt sind derzeit 218 Texte vertreten.[URL] | Russisch (rus) | 2023 |
7 | Хельсинкский аннотированный корпус русских текстов ХАНКО (HANCO)Department of Slavonic and Baltic Languages and Literatures at the University of Helsinki, Der Korpus der modernen russischen Sprache, der vom Institut für slawische und baltische Sprachen und Literaturen der Universität Helsinki gepflegt wird.[URL] | Englisch (eng), Russisch (rus) | 2023 |
8 | Slovenský národný korpusDie Website mit der Datenbank des slowakischen Textkorpus. Das Korpus besteht aus mehreren Segmenten, das Hauptkorpus umfasst derzeit ca. 1,68 Mio. Token (2023).[URL] | Slowakisch (slo) | 2023 |
9 | Браун корпус за български езикСекция по компютърна лингвистика, Българска академия на науките, Die Webseite bietet Zugang zum Brown-Korpus der bulgarischen Sprache. Dieses besteht aus ca. 500 Text-Samples, darunter fiktionale und faktische Prosa. Insgesamt enthält das Korpus ca. eine Million Worteinheiten. Die Texte gehen auf den Zeitraum zwischen 1990 und 2005 zurück.[URL] | Bulgarisch (bul) | 2011 |
10 | Hrvatska jezična mrežna riznica - Croatian Language Online RepositoryDie Webseite mit der Datenbank zum Kroatischen Textkorpus bietet ein komfortables Suchsystem.[URL] | Kroatisch (hrv) | 2010 |
11 | Český Národní Korpus - Czech National CorpusDie Webseite mit der Datenbanken zum Tschechischen Textkorpus.[URL] | Tschechisch (cze) | 2023 |
12 | Беларускі N-корпусnicht bekannt, Das erste öffentliche Sprachkorpus des Belarussischen.[URL] | Belarussisch (bel) | 2023 |
13 | Korpus GENIE – GEsprochenes NIEdersorbisch/WendischWissenschaftliche Online-Datenbank mit knapp 350 kommentierten Audiodateien niedersorbischer Sprachaufnahmen aus verschiedenen Quellen und Epochen. Die Nutzung ist kostenlos, für eine uneingeschränkte Nutzung ist aber eine Registrierung nötig.[URL] | Deutsch (ger) | 2012 |
14 | Korpus DIALOGÚstav pro jazyk český Akademie věd ČR, Die Webseite bietet Zugang zu einem multimedialen Korpus des gesprochenen Tschechischen. Das Korpus enthält Aufnahmen und Transkriptionen von öffentlich geführten Dialogen im tschechischen Fernsehen.[URL] | Tschechisch (cze) | 2011 |
15 | Computer Fund of Russian Language - Машинный фонд русского языкаКолодяжная, Л.И., Der Computer-Fonds der russischen Sprache beinhaltet eine Reihe von Ressourcen zur russischen Computerlinguistik.[URL] | Russisch (rus) | 2011 |
16 | Hrvatski nacionalni korpus (HNK)Zavod za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu, Die Webseite mit der Datenbank zum nationalen Textkorpus der kroatischen Sprache.[URL] | Kroatisch (hrv) | 2020 |
17 | Компьютерный корпус текстов русских газет конца ХХ-ого векаEin Korpus-Fragment der russischen Zeitungen Ende des 20. Jahrhunderts enthält 200.000 Einheiten.[URL] | Russisch (rus) | 2010 |
18 | Das Gralis-KorpusInstitut für Slawistik, Karl-Franzens-Universität Graz, Die Webseite bietet Zugang zum Gralis-Korpus paralleler Texte slawischer Sprachen, wobei das Korpus für Bosnisch, Kroatisch und Serbisch fertiggestellt ist und ca. 2 Mio. Token umfasst.[URL] | Bosnisch (bos), Kroatisch (hrv), Serbisch (srp) | 2023 |
19 | Corpus Cyrillo-Methodianum Helsingiense: An Electronic Corpus of Old Church Slavonic TextsDie Webseite bietet eine Sammlung von wichtigsten altkirchenslavischen Texten. Verfügbar sind: Codex Marianus, Codex Suprasliensis, Vita Constantini at Methodii u.a.[URL] | Englisch (eng) | 2023 |
20 | PolDi – a Polish Diachronic Online CorpusInstitut für Slavistik der Universität Regensburg, Die Webseite bietet einen morphosyntaktisch annotierten Korpus altpolnischer Texte. Derzeit beinhaltet das Korpus sieben Texte, welche auf den Zeitraum zwischen dem 15. und 18. Jahrhundert zurückgehen, wobei der Schwerpunkt auf dem 15. und 16. Jahrhundert liegt. Die zusätzliche syntaktische Annotation bezieht sich auf Nullsubjekte, reflexive Verbformen, Passivkonstruktionen und -no/to Formen. Die Texte sind in Hinblick auf die Schreibung an das gegenwärtige Polnische angepasst.[URL] | Polnisch (pol) | 2020 |