Портал славістики


[root][corphub]

CorpSlav Collection

A collection of Slavonic text corpora.

?
Nr.TitleLanguage(s)Year
1

CHILDES - Child Language Data Exchange System

MacWhinney, Brian, Die CHILDES Datenbank bietet Zugriff auf im CHAT-Format transkribierte Korpora zum monolingualen und bilingualen Erstspracherwerb, u.a. auch auf slawischsprachige (z.B. kroatische, polnische, russische) Daten. Neben vielen weiteren Tools bietet die Website Zugriff auf das Analyseprogramm CLAN und eine Bibliographie zum Erstspracherwerb.
Pfeil [URL]
Englisch (eng)2019
2

ParaSol - A Parallel Corpus of Slavic and Other Older Languages

Von Waldenfels, Ruprecht, Die Webseite bietet Zugang zu einem parallelen annotierten Korpus übersetzter und originaler Texte in slawischen und anderen Sprachen.
Pfeil [URL]
Englisch (eng)2017
3

Corpus Cyrillo-Methodianum Helsingiense: An Electronic Corpus of Old Church Slavonic Texts

Die Webseite bietet eine Sammlung von wichtigsten altkirchenslavischen Texten. Verfügbar sind: Codex Marianus, Codex Suprasliensis, Vita Constantini at Methodii u.a.
Pfeil [URL]
Englisch (eng)2023
4

The Oslo Corpus of Bosnian Texts / Korpus bosanskih tekstova na Univerzitetu u Oslu

Die Webseite mit der Datenbank zum Bosnischen Textkorpus enthält ca. 1,5 Mio. Einheiten.
Pfeil [URL]
Englisch (eng)2010
5

dhr. dr. A.A. Barentsen - Universiteit van Amsterdam

Webseite des Sprachwissenschaftlers Dr. A. A. Barentsen (Universität Amsterdam). Forschungsschwerpunkte: Semantik der Verbkategorien im Slawischen, insbesondere die Kategorie Aspekt im Russischen, sowie der Aufbau des „Amsterdam Slavic Parallel Aligned Corpus (ASPAC)“. Die Seite enthält ausführliche Informationen zum ASPAC, außerdem eine Bibliographie der Veröffentlichungen, teilweise mit Volltexten.
Pfeil [URL]
Englisch (eng)2020
6

The Prague Dependency Treebank 2.0

Institut of Formal and Applied Linguistics, Charles University in Prague, "The Prague Dependency Treebank 2.0" enthält tschechische korpuslinguistische Texte mit morphologischen, syntaktischen und semantischen Annotationen.
Pfeil [URL]
Englisch (eng)2023
7

PCEDT 2.0 - Prague Czech-English Dependency Treebank 2.0

Institut of Formal and Applied Linguistics, Charles University in Prague, Ein tschechisch-englischer Parallelkorpus mit 1,2 Mio. Wörtern in fast 50.000 Sätzen. Nachschlagewerk für Übersetzer und zum Fremdsprachenerwerb.
Pfeil [URL]
Englisch (eng)2023
8

Leipzig Corpora Collection - Wortschatz

Abteilung Automatische Sprachverarbeitung • Institut für Informatik • Universität Leipzig, Das Wortschatzportal der Universität Leipzig ermöglicht die Suche in 230 korpusbasierten einsprachigen Wörterbüchern.
Pfeil [URL]
Englisch (eng)2023
9

Natural Language Server

Dept. of Knowledge Technologies Jožef Stefan Institute, Die Webseite enthält Links zu Ressourcen, die nützlich beim Erlernen oder Erforschen der Slowenischen und anderer Sprachen sind. Darunter sind Links, die dem Textkorpus und der Grammatik gewidmet sind, sowie digitale Schulbücher in Slowenisch, digitale Bibliotheken, Lexika und ein Slowenisch-Englischer Parallelkorpus.
Pfeil [URL]
Englisch (eng)2013
10

CLIP Computational Linguistics in Poland

Lenart, Michal, Eine thematisch strukturierte Sammlung von Links, die der polnischen und anderssprachigen Korpuslinguistik gewidmet sind.
Pfeil [URL]
Englisch (eng)2013
11

Poliqarp

Jakub.Wilk, Nathell, Poliquarp ist eine Softwaresammlung zum Suchen und Finden von Text in großen Textkorpora.
Pfeil [URL]
Englisch (eng)2023
12

OPUS...The open parallel corpus

OPUS ist eine immer wachsende Sammlung von übersetzten Texten aus dem Web. Open Source von Parallelkorpora.
Pfeil [URL]
Englisch (eng)2023
13

NLP, Corpus Linguistics, Corpus Based Grammar Research

Levická, Jana, Ein Konferenzband mit Materialien der 5. internationalen Konferenz für Korpuslinguistik in Smolenice, Slowakei, 25. - 27. November 2009.
Pfeil [URL]
Englisch (eng)2013
14

UMC - ÚFAL Multilingual Corpora

Bojar, Ondřej, UMC ist eine Sammlung von mehrsprachigen Korpora mit dem Schwerpunkt Tschechisch-Englisch-Russisch.
Pfeil [URL]
Englisch (eng)2013
15

Corpus Albaruthenicum — Корпус беларускамоўных навуковых тэкстаў

Laboratory of Systems Dynamics and Material Mechanics,Belarusian National Technical University, Der Korpus der weissrussischen Sprache mit 75 Texten und 350000 Lemmata wird von der Weissrussischen Nationalen Technischen Universität aufgebaut.
Pfeil [URL]
Englisch (eng), Belarussisch (bel)2011
16

Хельсинкский аннотированный корпус русских текстов ХАНКО (HANCO)

Department of Slavonic and Baltic Languages and Literatures at the University of Helsinki, Der Korpus der modernen russischen Sprache, der vom Institut für slawische und baltische Sprachen und Literaturen der Universität Helsinki gepflegt wird.
Pfeil [URL]
Englisch (eng), Russisch (rus)2023
17

Slovarske in besedilne zbirke - Web corpora, lexicons and tools

Eine Sammlung von Nachschlagewerken, Textkorpora und Werkzeugen zum Slowenischen.
Pfeil [URL]
Englisch (eng), Slowenisch (slv)2012
18

Slovene-English Parallel Corpus - IJS-ELAN corpus

Dept. of Knowledge Technologies, Jožef Stefan Institute, Parallelkorpus mit ca. einer Million Wörtern aus 15 slowenisch-englischen und englisch-slowenischen Texten. Das Korpus ist satzaligniert, tokenisiert, pos-getaggt und lemmatisiert. Es liegt derzeit in Version 3 (2012) vor.
Pfeil [URL]
Englisch (eng), Slowenisch (slv)2013
19

Nova beseda

Annotiertes Textkorpus zum Slowenischen. Das Korpus enthält laut Angaben des Anbieters 240 Mill. Tokens von gesprochener und geschriebener Sprache und deckt eine große Bandbreite an Textsorten ab: Belletristik, wissenschaftliche Literatur, Fachsprache, Zeitungssprache etc. Das Korpus ist über Suchverfahren frei zugänglich (Stand: Februar 2012).
Pfeil [URL]
Englisch (eng), Slowenisch (slv)2012
20

The Helsinki Annotated Corpus of Russian Texts HANCO

University of Helsinki, Das HANCO - Projekt des Lehrstuhls für Slawische und Baltische Sprachen an der Universität Helsinki beinhaltet einen Korpus von 100.000 russischen Wörtern. Mit morphologischen, syntaktischen und funktionalen Informationen über jedes Wort.
Pfeil [URL]
Englisch (eng), Russisch (rus)2020
21

Лінгвістичний портал MOVA.info

Київський національний університет імені Тараса Шевченка [Kiew / National Taras Shevchenko University], Das Portal zur ukrainischen Sprache enthält einen Online-Übersetzer Ukrainisch-Russisch, ein elektronisches Lehrbuch sowie ein Korpus der ukrainischen Sprache, Wörterbücher (Häufigkeitswörterbücher, linguistische Wörterbücher, einsprachige Wörterbücher des Ukraninischen etc.), ein Forum zur Sprach- und Literaturwissenschaft, Links und News.
Pfeil [URL]
Englisch (eng), Russisch (rus), Ukrainisch (ukr)2011
22

Large Corpora used in CTS

Die Webseite des Zentrums für Übersetzungsstudien (Universität Leeds) bietet die Möglichkeit der Suche in einer Reihe von slavischen und nicht slavischen Korpora.
Pfeil [URL]
Englisch (eng), Russisch (rus), Polnisch (pol)2023
23

JRC-ACQUIS Multilingual Parallel Corpus

Joint Research Centre - Institute for the Protection and Security of the Citizen (IPSC), Die Webseite der JRC-Acquis enthält ein Parallelkorpus aller Gesetzestexte in 22 Sprachen für alle 27 Mitgliedstaaten der EU.
Pfeil [URL]
Englisch (eng), Spanisch (spa), Französisch (fre), por, Italienisch (ita), rum2017