Benutzer:Sylvia/Lemma: Unterschied zwischen den Versionen
Sylvia (Diskussion | Beiträge) (→Begriff: Links) |
Sylvia (Diskussion | Beiträge) (→Lemmatisierung: Links) |
||
Zeile 22: | Zeile 22: | ||
== Lemmatisierung == | == Lemmatisierung == | ||
− | Die Festlegung der Grundform eines Lexems und die Anordnung der Lemmata wird auch ''Lemmatisierung'' genannt. Eine Teilmenge unmittelbar aufeinander folgender Lemmata bildet eine | + | Die Festlegung der Grundform eines Lexems und die Anordnung der Lemmata wird auch ''Lemmatisierung'' genannt. Eine Teilmenge unmittelbar aufeinander folgender Lemmata bildet eine Lemmastrecke. |
− | Unter Lemmatisierung wird außerdem die Zuordnung (oder auch Rückführung) einer '' | + | Unter Lemmatisierung wird außerdem die Zuordnung (oder auch Rückführung) einer ''Vollform'' zum entsprechenden Lemma verstanden. Dieser Vorgang ist je nach Anwendung in der Sprachtechnologie von Bedeutung. Beim Einsatz von statistischen Modellen etwa eignet sich die Lemmatisierung eines sehr kleinen Textkorpus manchmal dazu, um die Frequenz einzelner Lexeme zu erhöhen und dadurch das statistische Rauschen zu verringern. Die Vollformen des Korpus werden dabei durch ihr Lemma ersetzt, bevor die statistische Auswertung gemacht wird. Gab es vorher beispielsweise die Wortformen „traf“, „treffe“, „trifft“ und „treffen“ jeweils ein Mal im Korpus, so gibt es nach der Lemmatisierung nur noch das Lemma „treffen“ – allerdings mit einer Frequenz von vier. Das Lexem „treffen“ hat damit ein potentiell viel höheres Gewicht im Korpus als es die einzelnen Vollformen vor der Lemmatisierung hatten. |
== Lemmaselektion == | == Lemmaselektion == |
Version vom 23. Februar 2008, 16:34 Uhr
Das Lemma (neutrum, von griechisch λῆμμα lēmma, „Aufgenommenes“, „Aufgegriffenes“; Pl. „Lemmata“) ist in der Lexikografie und Linguistik die Grundform eines Wortes, also die Wortform, unter der man in einem Nachschlagewerk nachschlägt (Zitierform, Grundform).
Der Vorgang zur Bestimmung der genaueren Lemmata wird als Lemmaselektion oder auch Lemmatisierung bezeichnet.
Inhaltsverzeichnis
Begriff
Das Lemma ist der Eintrag oder das Stichwort in einem Wörterbuch (Lexikon, Enzyklopädie)[1]. Man bezeichnet es sowohl als Grundform eines Wortes [2] als auch als Zitier- oder Grundform eines Lexems [3].
Ein Lexem könnte im Prinzip auf beliebige Weise benannt werden, da es als sprachliche Einheit über verschiedene Formen abstrahiert, aber selbst keine Form besitzt, das es gegenüber diesen anderen Formen auszeichnet.
Üblicherweise werden Lexeme nach einer konventionell bestimmten Form benannt, die dann Zitierform (auch: Grundform, Stichwort) dieses Lexems heißt:
- Im Deutschen ist die Zitierform für Nomen normalerweise der Nominativ Singular (z. B. Traum), für Verben der Infinitiv Präsens Indikativ (z. B. träumen).
- Im Lateinischen ist die Zitierform für Verben das Paradigma (etwa „Beispiel“), das eine Reihenfolge bestimmter Modi (Indikativ, Infinitiv, …) und Tempora (Präsens, Perfekt, …) angibt, die vor allem bei unregelmäßigen Verben sehr hilfreich ist; diese Reihenfolge ist in den meisten Wörterbüchern: 1. (und manchmal auch die 2.) Person singular vom Präsens des aktiven Indikativs, 1. Person singular vom Perfekt des aktiven Indikativs, aktives Supinum I und aktiver Infinitiv Präsens (z. B. für „bringen“ lautet das Paradigma: fero, (fers,) tuli, latum, ferre).
Wird diese Wortform in Großbuchstaben angegeben, so bezeichnet sie das Lexem mit allen seinen Formen.
Dass die Wahl der Zitierform vom lexikologischen Typ des Nachschlagewerks abhängig ist, zeigt folgendes Beispiel:
- Das Wort „Mäuse“ wird unter dem Lemma Maus eingeordnet.
- Diese Vorgehensweise wählt ein Wörterbuch, da „Maus“ lexikalische Zitierform des Plural „Mäuse“ ist
- Das Wort „Maus“ wird unter dem Lemma Mäuse eingeordnet.
- Das Lemma kann einen Überbegriff für verwandte Themen darstellen: Hier ist die zoologische Familie der Mäuse Überbegriff des umgangssprachlichen „Maus“, die taxonomische Zitierform wird höher bewertet als die der Umgangssprache („Alles was in etwa wie eine Maus aussieht, ist eine Maus“). Diese Vorgehensweise entspricht Fachwörterbüchern und Enzyklopädien, die mehr an begrifflicher Lemmaselektierung interessiert ist. Hier wird meist vom Lemma als einem Deskriptor gesprochen.
Lemmatisierung
Die Festlegung der Grundform eines Lexems und die Anordnung der Lemmata wird auch Lemmatisierung genannt. Eine Teilmenge unmittelbar aufeinander folgender Lemmata bildet eine Lemmastrecke.
Unter Lemmatisierung wird außerdem die Zuordnung (oder auch Rückführung) einer Vollform zum entsprechenden Lemma verstanden. Dieser Vorgang ist je nach Anwendung in der Sprachtechnologie von Bedeutung. Beim Einsatz von statistischen Modellen etwa eignet sich die Lemmatisierung eines sehr kleinen Textkorpus manchmal dazu, um die Frequenz einzelner Lexeme zu erhöhen und dadurch das statistische Rauschen zu verringern. Die Vollformen des Korpus werden dabei durch ihr Lemma ersetzt, bevor die statistische Auswertung gemacht wird. Gab es vorher beispielsweise die Wortformen „traf“, „treffe“, „trifft“ und „treffen“ jeweils ein Mal im Korpus, so gibt es nach der Lemmatisierung nur noch das Lemma „treffen“ – allerdings mit einer Frequenz von vier. Das Lexem „treffen“ hat damit ein potentiell viel höheres Gewicht im Korpus als es die einzelnen Vollformen vor der Lemmatisierung hatten.
Lemmaselektion
Vor der Lemmatisierung wird eine Lemmaselektion durchgeführt, bei der entschieden wird, welche Arten von Lemmata in das Lexikon aufgenommen werden. Die Lemmaselektion ist notwendig, da eine vollständige Lemmatisierung aller Wörter, Wortteile und Wortgruppen einer Sprache nicht möglich ist. Ein Kriterium für die Aufnahme eines Lemma in ein Lexikon ist die Zeitspanne, in der der Begriff in der jeweiligen Sprache existiert.
Literatur
- Brandt, Dietrich, Schön: Sprachwissenschaft. 2. Aufl. 2006, S. 151
- Ulrich: Linguistische Grundbegriffe, 5. Aufl. 2002
Weblinks
- Wie kommt ein Wort in den Duden?, ein Bericht aus der Arbeit der Dudenredaktion
- Die Auswahl der Stichwörter, Erläuterungen zum elexiko-Projekt des IDS
Quellen
Der Text auf dieser Seite basiert, soweit nicht anders angegeben, auf dem Artikel Lemma_(Lexikografie) aus der freien Enzyklopädie Wikipedia. Die Inhalte stehen unter der GNU-Lizenz für freie Dokumentation. Eine Liste der Autoren ist dort abrufbar.
|