Kirchenslawische Texte, NLTK (Natural Language Toolkit) und ChatGPT – ein spannendes Trio (SBB, 17. Januar 2024, von Vladimir Neumann)
1. Methodisches +/-
- "Digital Humanities" in Slawistik - neue Möglichkeiten?
- Arbeiten mit Kirchenslawischen Texten
- Vorgehensweise: synchrone UND diachrone Sprachwiss. kombinieren
- Schwerpunkt soll auf die Grundfunktionen in Python/NLTK gelegt werden. Warum? "Ohne das Alphabet zu kennen, kann man kein Buch lesen."
2. Kirchenslawische Texte +/-
3. NLTK (Natural Language Toolkit) +/-
- Das Natural Language Toolkit (NLTK) ist eine umfassende Bibliothek in Python, die für die Verarbeitung und Analyse menschlicher Sprache entwickelt wurde. Es bietet Funktionen für Aufgaben wie Tokenisierung, Part-of-Speech-Tagging, Named Entity Recognition und Sentimentanalyse. NLTK ist sowohl für Bildungs- als auch für Forschungszwecke beliebt, da es den Zugang zu über 50 Sprachkorpora und lexikalischen Ressourcen ermöglicht. Es wird häufig in der Computerlinguistik und im maschinellen Lernen eingesetzt, um Textdaten zu analysieren und zu verstehen. NLTK ist ein wichtiges Werkzeug für Linguisten, Ingenieure, Studenten und Forscher, die im Bereich der natürlichen Sprachverarbeitung arbeiten.
- Basisfunktionen (Iteration durch Textdateien, Einlesen von Daten in Listen/Arrays, Tokenisierung, Lemmatisierung/Stemming, Erstellung von Kollokationen, Textvergleich und Statistik) [Beispiele]
- Skripte-Schreiben mit KI-Unterstützung
- Arbeiten mit NLTK mit Unterstützung von ChatGPT [URL (NLTK: Textanalyse und Anwendungen), URL (Erstellen eines eigenen NLTK-Corpus)]
4. ChatGPT +/-
- KI für "Coder" als "Abfallprodukt"
- Versionen 3.5 und 4 [Versionsunterschiede]
- Ab Version 4 wird eine Analyse-Möglichkeit von Daten/Skripten zur Verfügung gestellt
5. Diverse nützliche Tools +/-
- Transliteration:
- Church Slavonic Fonts in Unicode: (Alt)kirchenslawische Schriften
- UniView - Tool zur Zeichenanalyse
- Quick-Text-Paste: Tastenkombination individuell belegen
- SlavLab (Nützliche Tools)
- UDPipe: Texte automatisch annotieren
6. Volltextarchive +/-
- Digitalen Sammlungen der Bayerischen Staatsbibliothek
- Textsuche bei Archive.org
- Google Booksearch
7. Durchsuchbare slawistische Wörterbücher +/-
8. Ausblick +/-
- "Digital Humanities" in Slawistik ist noch ein völlig unbeackertes Gebiet
- Spannend sind auch die Bereiche: Visualisierung, Arbeiten mit SQL-Datenbanken, Indizierungstechniken mit SOLR, Arbeiten mit parallelen Texten (Alignierung), Arbeiten mit XML-Schnittstellen und APIs