slavistik-portal
Портал славістики
A collection of Slavonic text corpora.
Nr. | Title | Language(s) | Year |
---|---|---|---|
1 | Хельсинкский аннотированный корпус русских текстов ХАНКО (HANCO)Department of Slavonic and Baltic Languages and Literatures at the University of Helsinki, Der Korpus der modernen russischen Sprache, der vom Institut für slawische und baltische Sprachen und Literaturen der Universität Helsinki gepflegt wird.[URL] | Englisch (eng), Russisch (rus) | 2023 |
2 | Wyszukiwarka PELCRA dla Narodowego Korpusu Języka PolskiegoUniwersytet Łódzki: Łódź, PL, Suchmaschine für das Nationale Korpus der polnischen Sprache, die im Rahmen dieses Projektes entstanden ist und in der vorliegenden Demoversion die Suche nach ca. 900 Mio. Wörtern innerhalb der Testdaten, die aus drei Korpora des modernen Polnisch (IPIPAN, PELCRA, PWN) stammen, ermöglicht.[URL] | Polnisch (pol) | 2011 |
3 | Български национален корпусИнститут за български език, Българска академия на науките, Das bulgarische Nationalkorpus besteht aus einem einsprachigen (bulgarischen) Teil und 47 Parallelkorpora. Der bulgarische Teil enthält ca. 1.2 Milliarden Worteinheiten und besteht aus etwa 240000 Texten. Es handelt sich um Texte aus dem Zeitraum ab 1945 bis in die Gegenwart.[URL] | Bulgarisch (bul) | 2023 |
4 | Браун корпус за български езикСекция по компютърна лингвистика, Българска академия на науките, Die Webseite bietet Zugang zum Brown-Korpus der bulgarischen Sprache. Dieses besteht aus ca. 500 Text-Samples, darunter fiktionale und faktische Prosa. Insgesamt enthält das Korpus ca. eine Million Worteinheiten. Die Texte gehen auf den Zeitraum zwischen 1990 und 2005 zurück.[URL] | Bulgarisch (bul) | 2011 |
5 | Das Gralis-KorpusInstitut für Slawistik, Karl-Franzens-Universität Graz, Die Webseite bietet Zugang zum Gralis-Korpus paralleler Texte slawischer Sprachen, wobei das Korpus für Bosnisch, Kroatisch und Serbisch fertiggestellt ist und ca. 2 Mio. Token umfasst.[URL] | Bosnisch (bos), Kroatisch (hrv), Serbisch (srp) | 2023 |
6 | ParaSol - A Parallel Corpus of Slavic and Other Older LanguagesVon Waldenfels, Ruprecht, Die Webseite bietet Zugang zu einem parallelen annotierten Korpus übersetzter und originaler Texte in slawischen und anderen Sprachen.[URL] | Englisch (eng) | 2017 |
7 | Корпус текстів української мовиЛабораторія комп'ютерної лінгвістики Інституту філології Київського національного університету імені Тараса Шевченка, Korpus der ukrainischen Gegenwartssprache, das etwa 13 Millionen Wortformen aus schöngeistigen, poetischen, folkloristischen und anderen Texten enthält. Die Suche ist nach Literaturgattungen, einzelnen Lexemen und Wortformen und deren morphologischen Charakteristika möglich. Die Seite enthält außerdem einige Frequenzwörterbücher.[URL] | Ukrainisch (ukr) | 2013 |
8 | Корпус русских публицистических текстов второй половины 19 векаРогов, Александр, Korpus publizistischer Werke mit literaturanalytischem Inhalt aus der zweiten Hälfte des 19. Jahrhunderts mit ca. 70 Texten vor allem von F. Dostoevskij und V. I. Dal'. Suchmöglichkeiten nach syntaktischen und morphologischen Merkmalen.[URL] | Russisch (rus) | 2021 |
9 | Параллельный корпус переводов «Слова о полку Игореве»Орехов, Борис, Textlorpus des Igorlieds im altrussischen Original sowie Übersetzungen in zahlreiche Sprachen: ins moderne Russische, weitere slawische Sprachen, nichtslawische Sprachen der Sowjetunion, germanische und romanische Sprachen. Das Korpus erlaubt den Vergleich zwischen verschiedenen Übersetzungen.[URL] | Russisch (rus) | 2012 |
10 | Regensburg Russian Diachronic Corpus (RRuDi)Institut für Slavistik, Universität Regensburg, Die Webseite enthält einen diachronen Korpus des Altrussischen und wird durch Regensburger Sprachwissenschaftler gepflegt.[URL] | Russisch (rus) | 2020 |
11 | Narodowy Korpus Języka Polskiego - NKJPInstytut Podstaw Informatyki PAN, Warszawa, Die Webseite bietet Informationen über den Nationalen Korpus der Polnischen Sprache. Es handelt sich hierbei um das größte, annotierte Korpus des gegenwärtigen Polnischen. Enthalten sind Texte aus den Bereichen der Alltags- und Fachpresse, klassische polnische Literatur, Gesprächsaufnahmen und Internettexte. Diese sind nach verschiedenen Kriterien gewichtet, was neben der Größe des Korpus ebenso wichtig für die Aussagekraft von korpusbasierten Untersuchungen ist.[URL] | Polnisch (pol) | 2011 |
12 | Corpus Albaruthenicum — Корпус беларускамоўных навуковых тэкстаўLaboratory of Systems Dynamics and Material Mechanics,Belarusian National Technical University, Der Korpus der weissrussischen Sprache mit 75 Texten und 350000 Lemmata wird von der Weissrussischen Nationalen Technischen Universität aufgebaut.[URL] | Englisch (eng), Belarussisch (bel) | 2011 |
13 | PolDi – a Polish Diachronic Online CorpusInstitut für Slavistik der Universität Regensburg, Die Webseite bietet einen morphosyntaktisch annotierten Korpus altpolnischer Texte. Derzeit beinhaltet das Korpus sieben Texte, welche auf den Zeitraum zwischen dem 15. und 18. Jahrhundert zurückgehen, wobei der Schwerpunkt auf dem 15. und 16. Jahrhundert liegt. Die zusätzliche syntaktische Annotation bezieht sich auf Nullsubjekte, reflexive Verbformen, Passivkonstruktionen und -no/to Formen. Die Texte sind in Hinblick auf die Schreibung an das gegenwärtige Polnische angepasst.[URL] | Polnisch (pol) | 2020 |
14 | Czech Academic CorpusInstitute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, Das "Czech Academic Corpus" ist ein Projekt des Instituts für Formale und Angewandte Linguistik der Prager Karls-Universität und des Instituts für tschechische Sprache der Tschechischen Akademie der Wissenschaften. Es enthält 180 Texte mit jeweils 3000 Wörtern.[URL] | Tschechisch (cze) | 2023 |
15 | Referenčni govorni korpus slovenskega jezika GOSKorpus GOS, Kleines Sprachkorpus der zeitgenössischen gesprochenen slowenischen Sprache ist auf der Grundlage des Materials von 120 Probanten entstanden.[URL] | Slowenisch (slv) | 2023 |
16 | Национальный корпус русского литературного языкаСанкт-Петербургский Государственный Университет, Die Webseite enthält einen Korpus der russischen Literatursprache. Dieses umfasst ca. 1 Million Token, bestehend aus vorwiegend publizistischen und populärwissenschaftlichen Texten. Insgesamt sind derzeit 218 Texte vertreten.[URL] | Russisch (rus) | 2023 |
17 | Национальный корпус русского языка (НКРЯ)Институт русского языка им. В. В. Виноградова РАН, Москва, Die Webseite mit der Datenbank zum Nationalkorpus der russischen Sprache enthält 140 Mio. Einheiten und wird durch Moskauer und St. Petersburger Sprachwissenschaftler gepflegt.[URL] | Russisch (rus) | 2023 |
18 | Slovarske in besedilne zbirke - Web corpora, lexicons and toolsEine Sammlung von Nachschlagewerken, Textkorpora und Werkzeugen zum Slowenischen.[URL] | Englisch (eng), Slowenisch (slv) | 2012 |
19 | Korpus Języka Polskiego IPI PANDie Webseite mit der Datenbank zum nationalen Textkorpus der polnischen Sprache enthält 250 Mio. Einheiten.[URL] | Polnisch (pol) | 2011 |
20 | Hrvatska jezična mrežna riznica - Croatian Language Online RepositoryDie Webseite mit der Datenbank zum Kroatischen Textkorpus bietet ein komfortables Suchsystem.[URL] | Kroatisch (hrv) | 2010 |
21 | Český Národní Korpus - Czech National CorpusDie Webseite mit der Datenbanken zum Tschechischen Textkorpus.[URL] | Tschechisch (cze) | 2023 |
22 | The Oslo Corpus of Bosnian Texts / Korpus bosanskih tekstova na Univerzitetu u OsluDie Webseite mit der Datenbank zum Bosnischen Textkorpus enthält ca. 1,5 Mio. Einheiten.[URL] | Englisch (eng) | 2010 |
23 | Nova besedaAnnotiertes Textkorpus zum Slowenischen. Das Korpus enthält laut Angaben des Anbieters 240 Mill. Tokens von gesprochener und geschriebener Sprache und deckt eine große Bandbreite an Textsorten ab: Belletristik, wissenschaftliche Literatur, Fachsprache, Zeitungssprache etc. Das Korpus ist über Suchverfahren frei zugänglich (Stand: Februar 2012).[URL] | Englisch (eng), Slowenisch (slv) | 2012 |
24 | Korpus DIALOGÚstav pro jazyk český Akademie věd ČR, Die Webseite bietet Zugang zu einem multimedialen Korpus des gesprochenen Tschechischen. Das Korpus enthält Aufnahmen und Transkriptionen von öffentlich geführten Dialogen im tschechischen Fernsehen.[URL] | Tschechisch (cze) | 2011 |
25 | Руско-български преводачески корпусКатедра "Русистика" при ВТУ "Св. св. Кирил и Методий", Die Webseite enthält eine Datenbank zum bulgarisch-russischen Parallelkorpus.[URL] | Russisch (rus), Bulgarisch (bul) | 2011 |
26 | Leipzig Corpora Collection - WortschatzAbteilung Automatische Sprachverarbeitung • Institut für Informatik • Universität Leipzig, Das Wortschatzportal der Universität Leipzig ermöglicht die Suche in 230 korpusbasierten einsprachigen Wörterbüchern.[URL] | Englisch (eng) | 2023 |
27 | Polsko-ukraiński korpus równoległyKotsyba, Natalia, Die Webseite enthält ein polnisch-ukrainisches Parallelkorpus mit ca. 3 Mio. Worteinheiten.[URL] | Polnisch (pol), Ukrainisch (ukr) | 2011 |
28 | Slovene-English Parallel Corpus - IJS-ELAN corpusDept. of Knowledge Technologies, Jožef Stefan Institute, Parallelkorpus mit ca. einer Million Wörtern aus 15 slowenisch-englischen und englisch-slowenischen Texten. Das Korpus ist satzaligniert, tokenisiert, pos-getaggt und lemmatisiert. Es liegt derzeit in Version 3 (2012) vor.[URL] | Englisch (eng), Slowenisch (slv) | 2013 |
29 | Large Corpora used in CTSDie Webseite des Zentrums für Übersetzungsstudien (Universität Leeds) bietet die Möglichkeit der Suche in einer Reihe von slavischen und nicht slavischen Korpora.[URL] | Englisch (eng), Russisch (rus), Polnisch (pol) | 2023 |