import nltk
from nltk.corpus import PlaintextCorpusReader
from nltk.probability import FreqDist

# Pfad zum Verzeichnis mit den Dateien
corpus_root = 'F:\\Varlaam_Iasaf\\Ruthenisch-Text-Proccess\\txt_norm'
corpus_root = 'F:\\Schulung_Python\\examples\\txt-supr-zusm'

# Erstellen des Corpus Readers für alle Dateien im Verzeichnis
wordlists = PlaintextCorpusReader(corpus_root, '.*')

# Zugriff auf die Wörter im Corpus und Umwandlung in Kleinbuchstaben
words_in_lowercase = [word.lower() for word in wordlists.words()]

# Liste der Dateinamen im Verzeichnis
file_names = wordlists.fileids()

# Durchgehen jeder Datei und Sammeln der Wörter
unique_words_per_file = {}
for file in file_names:
    #words_in_file = set(wordlists.words(file))
    words_in_file = set(word.lower() for word in wordlists.words(file))  # Umwandlung in Kleinbuchstaben
    unique_words_per_file[file] = words_in_file

# Ausgabe der einzigartigen Wörter für jede Datei
for file, unique_words in unique_words_per_file.items():
    print(f"Einzigartige Wörter in {file}: {unique_words}\n")
