quadriga-dk · DanilSko · Jun 29, 2026 · Jun 29, 2026
diff --git a/corpus_analysis/corpus-analysis_analysis.md b/corpus_analysis/corpus-analysis_analysis.md
@@ -113,7 +113,7 @@ Hinweis: Da für die Texte nur das Publikationsjahr vorliegt, für die Visualisi
 `````
 
 ### Visuelle Darstellung als Streudiagramm 
-Als Resultat erhalten wir pro Korpus 400 Datenpunkte, für jeden Text einen, die gleichmäßig über die Zeit verteilt sind. Diese Datenpunkte lassen sich auf unterschiedliche Art und Weise darstellen. Wir sind zum einem daran interessiert, ob sich eine Entwicklung abzeichnet, dafür müssen die Datenpunkte über Zeit angeordnet werden. Zum anderen wollen wir ablesen können, in welchen Texten Luft besonders häufig thematisiert wird, da diese möglicherweise wegweisend gewesen sein könnten. Die Datenpunkte sollen also nicht pro Jahr oder Dekade aggregiert werden, sondern jeder Text soll einzeln erkennbar sein. Dies lässt sich besonders gut durch ein **Streudiagramm** darstellen. Bei einem Streudigramm wird ein Text in Abhängigkeit seines X- und Y-Wertes als ein Punkt im Koordiantenkreuz dargestellt. Der X-Wert ist in unserem Fall das Jahr der Veröffentlichung, der Y-Wert ist die relative Häufigkeit.
+Als Resultat erhalten wir pro Korpus 450 Datenpunkte, für jeden Text einen, die gleichmäßig über die Zeit verteilt sind. Diese Datenpunkte lassen sich auf unterschiedliche Art und Weise darstellen. Wir sind zum einem daran interessiert, ob sich eine Entwicklung abzeichnet, dafür müssen die Datenpunkte über Zeit angeordnet werden. Zum anderen wollen wir ablesen können, in welchen Texten Luft besonders häufig thematisiert wird, da diese möglicherweise wegweisend gewesen sein könnten. Die Datenpunkte sollen also nicht pro Jahr oder Dekade aggregiert werden, sondern jeder Text soll einzeln erkennbar sein. Dies lässt sich besonders gut durch ein **Streudiagramm** darstellen. Bei einem Streudigramm wird ein Text in Abhängigkeit seines X- und Y-Wertes als ein Punkt im Koordiantenkreuz dargestellt. Der X-Wert ist in unserem Fall das Jahr der Veröffentlichung, der Y-Wert ist die relative Häufigkeit.
 
 Auf einem Streudiagramm lassen sich allerdings nicht sofort Entwicklungen ablesen. Um diesen Nachteil beizukommen, lässt sich mittels linearer Regression eine **Regressionsgerade** oder sogenannte Trend-Linie berechnen. Die Trend-Linie soll die Datenpunkte möglichst gut beschreiben, das heißt, sie soll möglichst nah an allen Punkten vorbeilaufen. Je nachdem, ob die Gerade steigt oder fällt, ist eine Zu- oder Abnahme des semantischen Felds Luft zu erkennen.
 

diff --git a/corpus_processing/corpus-processing_nlp-annotation.ipynb b/corpus_processing/corpus-processing_nlp-annotation.ipynb
@@ -1267,7 +1267,7 @@
     "\n",
     "```{admonition} Dauer der Annotation für das gesamte Korpus\n",
     ":class: zeitinfo\n",
-    "Die Korpora enthalten jeweils 400 Texte. Mit einer Länge von über etwa 47.000 Wörtern ist *Feldblumen* ein verhältnismäßig kurzer Text, weswegen wir durchschnittlich die dreifache Annotationsdauer pro Text annehmen (wir wollen lieber zu viel als zu wenig Zeit für die Annotation ansetzen). Die Annotation eines einzelnen Texts sollte somit im Schnitt etwa 15 Sekunden dauern. Die Annotation von 800 Texten dauert dementsprechend 12.000 Sekunden, also 200 Minuten ~ 3 Stunden. \n",
+    "Die beiden Korpora enthalten jeweils 450 Texte; da sie sich teilweise überschneiden, sind insgesamt 724 verschiedene Texte zu annotieren (siehe [Vergleich der Überlappung zwischen den Stichproben](corpus-collection_filtering-overlap)). Mit einer Länge von über etwa 47.000 Wörtern ist *Feldblumen* ein verhältnismäßig kurzer Text, weswegen wir durchschnittlich die dreifache Annotationsdauer pro Text annehmen (wir wollen lieber zu viel als zu wenig Zeit für die Annotation ansetzen). Die Annotation eines einzelnen Texts sollte somit im Schnitt etwa 15 Sekunden dauern. Die Annotation von 724 Texten dauert dementsprechend etwa 10.860 Sekunden, also rund 181 Minuten ~ 3 Stunden. \n",
     "```\n",
     "\n",
     "Da dies eher lang erscheint, sollte versucht werden, die Performanz zu optimieren. spaCy stellt dafür z.B. einen Methode bereit, die automatisch eine Liste von Dokumenten verarbeitet (`.pipe()`).\n",