Korpuslinguistik


aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Die Korpuslinguistik ist ein Bereich der Sprachwissenschaft. Darin werden neue Erkenntnisse über Sprache generell oder über bestimmte einzelne Sprachen erlangt oder bestehende Hypothesen überprüft, wobei als Grundlage quantitative oder qualitative Daten dienen, die aus der Analyse von speziellen Textkorpora oder (seltener) Korpora gesprochener Sprache gewonnen werden. Große Verbreitung fand die Korpuslinguistik im deutschsprachigen Raum ab der zweiten Hälfte der 1990er Jahre. Sie steht, wissenschaftstheoretisch betrachtet, dem augenblicklich herrschenden Paradigma des Generativismus entgegen. Es ist nach wie vor umstritten, ob es sich bei der Korpuslinguistik um eine Methode oder um einen eigenen neuen Zweig der Sprachwissenschaft handelt.

Datenmaterial und Forschungsgegenstand

Gegenstand der Korpuslinguistik ist die Sprache in ihren verschiedenen Erscheinungsformen. Die Korpuslinguistik ist dabei durch das Verwenden von authentischen Sprachdaten charakterisiert, die in großen Korpora dokumentiert sind. Bei solchen Textkorpora handelt es sich um Sammlungen von sprachlichen Äußerungen, die nach bestimmten Kriterien und mit einem bestimmten Forschungsziel zusammengestellt werden. Die Erkenntnisse der Korpuslinguistik basieren somit auf natürlichen Äußerungen einer Sprache, also auf Sprache, wie sie tatsächlich verwendet wird. Diese Äußerungen können entweder schriftlich entstanden sein oder es kann sich um spontane oder elizitierte gesprochene Sprache handeln. Die meisten Korpora liegen heute in digitaler Form vor und sind mittels bestimmter Software für die linguistische Recherche nutzbar.

Ziel der Korpuslinguistik ist es, anhand dieser Daten entweder bestehende linguistische Hypothesen zu überprüfen (bestätigen oder widerlegen) oder durch explorative Datenanalyse neue Hypothesen und Theorien über den Gegenstand zu gewinnen. Man spricht im ersten Fall von „korpusgestützter“ linguistischer Analyse und im zweiten Fall von „korpusbasierter“ linguistischer Analyse.

Korpuslinguistische Fragestellungen betreffen sowohl das sprachliche System selbst („Langue“ nach Ferdinand de Saussure bzw. „Kompetenz“ nach Noam Chomsky) als auch den Gebrauch von Sprache („Parole“ nach de Saussure bzw. „Performanz“ nach Chomsky). Die Korpuslinguistik ist also dahingehend im Begriff, die in der Linguistik dominierende dichotome Sprachbetrachtung aufzuheben.

Eine typische Fragestellung das Sprachsystem betreffend ist beispielsweise:

  • Kann das Vorfeld eines deutschen Satzes mehrfach besetzt sein? Wenn ja, mit welchen Satzgliedern? Gibt es Regeln, die die Möglichkeiten der mehrfachen Vorfeldbesetzung beschreiben können?

Typische Fragestellungen den Sprachgebrauch betreffend sind etwa:

  • Kommt es in Texten von E-Mails öfter zu Schreibfehlern als in traditionellen Briefen? Welche Typen von Fehlern sind charakteristisch für E-Mails?
  • Welche Fehler machen Lerner des Deutschen (verschiedener Ausgangssprache) auf einem bestimmten Niveau besonders häufig, werden bestimmte Wörter oder grammatische Konstruktionen von diesen Lernern vermieden?

Bei zahlreichen Forschungsfragen, die die Korpuslinguistik versucht zu beantworten, ist jedoch nicht eindeutig zu entscheiden, welchem der beiden Domänen Langue und Parole ein Phänomen zuzuordnen ist, wie beispielsweise bei den Fragen:

  • Mit welchen Adjektiven tritt das Nomen „Haar“ typischerweise gemeinsam auf?
  • Werden Modalpartikel in der gesprochenen Sprache häufiger, weniger häufig oder anders verwendet als in geschriebener Sprache?

Denn einerseits kann die Verteilung der Adjektive mit „Haar“ und der Modalpartikeln als Phänomen einer bestimmten Sprache oder – nach Vergleich mit anderen Sprachen – als Merkmal von Sprache generell gelten, aber andererseits auch als Ergebnis eines spezifischen Sprachgebrauchs angesehen werden.

(Einen Einblick in die Facetten korpuslinguistischer Forschung bieten z. B. die Arbeiten von Lemnitzer/Zinsmeister (2010) für das Deutsche und McEnery/Xiao/Tono (2006) für das Englische.)

Methodische Probleme

Ein bedeutendes methodisches Problem der Korpuslinguistik ist das Verhältnis der Datenbasis, also des Korpus, zum untersuchten Gegenstand. Die Datenbasis könnte theoretisch den Gegenstand komplett abdecken, wenn es sich um eine heute noch verwendete Sprache handelt. Doch man kann ein Korpus nicht als eine im Sinne der schließenden Statistik valide Stichprobe betrachten, da der Gegenstand, auf den sich die Stichprobe bezieht, in der Praxis als Ganzes – also eine bestimmte Sprache oder ein bestimmter Sprachgebrauch – nicht erfassbar ist.<ref>Burghard Rieger: Repräsentativität: von der Unangemessenheit eines Begriffs zur Kennzeichnung eines Problems linguistischer Korpusbildung in: Bergenholtz, H./ Schaeder, B. (Hrsg.): Empirische Textwissenschaft. Aufbau und Auswertung von Text-Corpora CroCo - korpusbasierte Untersuchung zu Eigenschaften von Übersetzungen

  • [2] GECo - korpusbasierte Untersuchung zu Textkohäsion
  • Einzelnachweise

    <references />