Limas: Hauptseite · Inhalt · Suchen · Feedback · Korpora.org · LINSE

Quelle Nummer 279

Rubrik 10 : SPRACHE Unterrubrik 10.02 : SPRACHWISSENSCHAFT

SPRACHWISS. WOERTERBUCH
JOHANN KNOBLOCH (HRSG.)
SPRACHWISSENSCHAFTLICHES WOERTERBUCH
LIEFERUNG 6
CARL WINTER UNIVERSITAETSVERLAG HEIDELBERG 1971
S. 438-

001  Clumptheorie. Linguistische Klassifizierungsmethode auf
002  numerischer Grundlage, die im Gegensatz zur üblichen
003  Klassifizierung nicht Objekte in vorgegebene Klassen einordnet,
004  sondern die Klasseneinteilung aus den Objekten selbst finden will.
005  Gegeben sind eine Anzahl von Objekten (Dinge, Begriffe,
006  Wörter, Sätze) und Informationen über sie (ihre
007  Eigenschaften). Nachdem den Objekten alle ihre Eigenschaften
008  (" properties ") zugeordnet sind, wird mit Hilfe eines
009  Computerprogramms zwischen jeweils 2 Objekten der Grad der
010  Ähnlichkeit ihrer Eigenschaften maschinell bestimmt und durch
011  einen Ähnlichkeitskoeffizienten (gemeinsame Eigenschaften
012  dividiert durch Gesamtzahl der Eigenschaften) ausgedrückt. Alle
013  Objekte mit ihren Koeffizienten werden in einer
014  Ähnlichkeitsmatrix (" resemblance or similarity matrix ")
015  dargestellt. Durch maschinellen Vergleich aller Koeffizienten
016  miteinander lassen sich Mengen von Objekten einteilen,
017  " clumps " (z. T. auch " clusters " EH genannt),
018  die durch maximale Übereinstimmung ihrer Eigenschaften bestimmt
019  sind und sich charakteristisch von anderen " clumps "
020  derselben Matrix unterscheiden: Das Aufstellen von " clumps "
021  wird Clumping genannt. Die numerischen Verfahren
022  dieser Methode gehen auf die mathematische Klassifikationstheorie
023  von Tanimoto zurück. Angewandt wird die Clumptheorie u.a.
024  in der Biologie, der Anthropologie und der Soziologie. In
025  der Linguistik wurde sie etwa ab 1960 beim " Cambridge Language
026  Research Unit " praktiziert. Dabei wurde sie zur semantischen
027  Klassifizierung von Wörtern für die maschinelle Übersetzung
028  angewandt und zusammen mit der " co-occurence "-
029  Methode Methode und Quasi-Synonymen-Listen für die automatische
030  Dokumentation. Zum Zweck der Auffindung von Schlüsselwörtern
031  in automatisch zu klassifizierenden Dokumenten und für das
032  " Information Retrieval " wurde die Clumping-Methode im
033  " Linguistics Research Center " in Austin (Texas)
034  weiterentwickelt und auch auf die syntaktische Klassifizierung von
035  Wortgruppen (" strings of text ") angewandt.
036  cluster (engl. " Büschel "). (Phonologie):
037  consonant cluster = Konsonanz; nach H. Spang-Hanssen,
038  Probability 142 auch der konsonantische Einlautbuchstabe. Nach
039  der Stellung werden initial und final clusters
040  (oder prevocalic bzw. prejunctural consonant clusters
041  unterschieden. Ein component cluster ist eine
042  koextensive Folge von Komponenten, die in bezug auf ihre
043  Sequenzrelation zu anderen Komponenten untersucht wird. Als
044  cluster gilt auch eine Lautgruppe aus Vokal und Resonant,
045  ey, aw. Ggs. single phoneme. (Semantik):
046  Nach U. Weinreich, in: Current trends 3 418: " an
047  unordered set of features ". Hierfür gilt: (a, b) (math.Op.) (b,
048  a); es sind also Wortbestände, denen das Band eines sinnvollen
049  Zusammenhanges fehlt. Ggs.: configuration, die nach
050  der Formel (Formel) eine nichtumkehrbare Beziehung voraussetzt und eine
051  gestalthafte Sinneinheit schafft. (Sprachpsychologie):
052  cluster ist ein Assoziationsnetz, in dem sprachliches Material
053  geordnet gespeichert ist. Bei einem Gedächtnisversuch werden die
054  Wörter nicht in der zufälligen Reihenfolge, wie sie erlernt
055  wurden, sondern nach Kategorien geordnet dargeboten. Für das
056  Clustering werden zwei Faktoren verantwortlich gemacht. Beim
057  Lernen der Sprache werden auch die Übergangswahrscheinlichkeiten
058  gelernt, nach denen einem Element A ein Element X folgt
059  (Strukturiertheit der Sprache). Dazu kommt der
060  Verbundenheitszuwachs: wird ein bestimmtes Wort reproduziert, so
061  werden dadurch auch alle jene Wörter mobilisiert, zu denen
062  assoziative Beziehungen bestehen. Diese Wörter können nun
063  leichter über die Schwelle des Bewußtseins gehoben werden.
064  Clustering, semantic. Ein Verfahren, mit dem ähnlich wie
065  nach der Clumptheorie Wörter oder Wortgruppen nach
066  Bedeutungsähnlichkeit maschinell in Untermengen eingeteilt werden,
067  ohne daß ein Klassifikationssystem vorgegeben wäre. Im
068  Gegensatz zum Clumping-Verfahren, bei dem
069  Ähnlichkeitsrelationen meistens aufgrund der Austauschbarkeit von
070  Quasi-Synonymen in einem Kontext oder aufgrund der Frequenz
071  des gemeinsamen Auftretens sprachlicher Einheiten im Text
072  statistisch aufgestellt werden, wird semantic clustering
073  auch für sprachliche Einheiten durchgeführt, die nicht in
074  Kontextbeziehung stehen, z. B. für die Einträge in einer
075  strukturierten Begriffsliste bzw. einem Thesaurus. Ziel des
076  Verfahrens ist es, zwischen Wörtern, Wortgruppen oder Phrasen
077  mit Hilfe eines Computer-Programmes die semantische Beziehung
078  aufzustellen, deren Grad sich durch einen Koeffizienten numerisch
079  ausdrücken läßt. Eine als " cluster " bezeichnete
080  Untermenge ist dadurch bestimmt, daß die Koeffizienten für die
081  semantische Beziehung der Elemente untereinander jeweils größer
082  sind als die Koeffizienten für die semantische Beziehung zwischen
083  Elementen des clusters und in ihm nicht enthaltenen
084  Elementen. Angewendet wird das Verfahren vor allem bei der
085  Aufstellung von Indexierungssystemen für das Information
086  Retrieval und bei der maschinellen Erstellung von Synonymen
087  listen bzw. Antonymenlisten. clutterung s.
088  Poltern. Coa f. = chilenisches Rotwelsch (eigentl.
089  der auf den Antillen und in Mexiko von der einheimischen
090  Bevölkerung verwendete Hackstock). coagulazione Sieg
091  einer formalen oder lexikologischen Variante über die anderen
092  coalescence (math.Op.) Univerbierung; coalescents: die
093  Halbvokale w, y. coalescense (frz.) Bei der
094  Neutralisierung einer phonologischen Opposition (z. B.
095  /s/und/z/im Rumän.), kann in
096  gleicher Weise/s/oder/z/auftreten:
097  beide Glieder sind gegeneinander austauschbar. Andererseits
098  erscheint im Russischen anstelle des unbetonten/o/
099  oder/a/keiner der beiden Vokale, sondern/
100  (Zeichen)/. In beiden Fällen spricht T. Pavel von c.
101  Ggs. implication. COBOL (= Common
102  Business Oriented Language), eine 1959 festgelegte
103  Programmiersprache für kommerzielle Probleme. Sie wurde als
104  COBOL-60 veröffentlicht und ist inzwischen in mehreren
105  Phasen (COBOL-61 extended; COBOL,
106  edition 1965) von der Conference on Data Systems Languages zu
107  COBOL standard X 3.23 weiterentwickelt worden.
108  Demnächst soll sie von Bauart und Modell des Computers
109  unabhängig gemacht werden. Die Anpassung an größer
110  dimensionierte Rechner soll unter geringstem Aufwand erfolgen. Es
111  besteht aus sieben Modules auf je zwei Ebenen.
112  Cockney. Engl.: " Hahnenei; verhätscheltes Kind;
113  Stadtbewohner ". Der Dialekt von London, genauer der
114  Londoner City, frei von sprachlichem Schulzwang, mit näselnder
115  Tonart gesprochen, zeigt Lautersatz bei den interdentalen
116  Spiranten, Monophthongierung von[ ]zu[ a: ],
117  während[ ei, i ]zu[ ai ]wird. Im Wortschatz ist
118  diese Stadtmundart neuerungssüchtig durch den Bedarf an
119  Kraftausdrücken, ein Stilgefühl ist nicht entwickelt. Das C.
120  ist reich an stehenden Redensarten, die bis zum Überdruß
121  angewandt werden: was your father a glazier? sagt man zu
122  jemand, der einem die Sicht verstellt. Cockneyism ist ein
123  " Fehler der Umgangssprache der niederen Volksklassen " (Th.
124  Aufrecht KZ 8, 1859, 213). cocoliche m. (span.)
125  Spanisch-italienische Mischsprache, die von unteren
126  Volksschichten an der La-Plata-Mündung verwendet wird.
127  Code. (engl., frz.), span. c¢digo.
128  Signalsystem. Ggs. message. Zuerst von de Saussure,
129  Cours (1960, S. 31: " les combinaisons par lesquelles le
130  sujet parlant utilise le code de la langue en vue d'exprimer sa pense
131  1e personelle ") auf die Sprache angewendet, hat sich der
132  Terminus nur langsam in der modernen Linguistik durchgesetzt.
133  Buyssens, Communication 52, setzt im Sinne von de Saussure
134  systŠme ou code gleich. Die heutige Beliebtheit, die
135  die Gefahr der mangelnden Einsicht in das Wesen des Sprachlichen
136  in sich birgt, ist der Informationstheorie und der maschinellen
137  Übersetzung zu danken. Ein C. ist nach K. Bühler ein
138  Einklassensystem globaler Symbole. Sein Aufbau erfordert zwei
139  Vorbedingungen: (1.Form): die Struktur der Signale muß
140  festgelegt sein; (2.Funktion): für jedes Signal ist eine
141  typische Verwendungssituation und in ihr der Kommunikationszweck,
142  den es zu erfüllen hat, zu beschreiben. Schrift als Code.
143  Die Schrift hält Lautfolgen in Symbolen aus einem Code
144  -Inventar, dem Alphabet, nach der Rechtschreibkonvention fest.
145  Das Buchstabenalphabet ist ein natürlicher C.[
146  Bünting, Morphol. Strukturen 11 ]. Die Blindenschrift
147  oder das Morsealphabet sind ihrerseits Codierungen der Schrift,
148  keine eigenständigen Transkriptionen, wie es phonetische
149  Alphabete oder Kurzschriftsysteme sein können. Die Signale des
150  Alphabets sind die Grapheme. Ein für die Datenverarbeitung
151  verwertbarer C. muß neben den Graphemfolgen des Alphabets auch
152  festgelegte Symbole für die Kennzeichnung der grammatischen und
153  semantischen Eigenschaften der Morpheme und Wörter enthalten.
154  Das Inventar solcher Markierungen stellt einen künstlichen C.
155  dar. Sprache als Code. Wenn man unter C.
156  alle denkbaren Zeichensysteme versteht, muß sich die Linguistik
157  einer allgemeinen Zeichenlehre (s‚miologie: de
158  Sausure) unterordnen. Das Erfordernis von " typischen Aufgaben
159  in einer artlebensmäßig festgelegten und umweltentsprechenden
160  Verständigung " ist bei der Bienen " sprache " erfüllt, die
161  ein starres Code-System darstellt. Kainz, Spr.d.
162  Tiere 19. Nach Prieto ist ein C. im wesentlichen ein
163  " System von Semen ", d. h. ein System von
164  Wechselbeziehungen der Klassen, die der Gesamtheit einer Rede
165  (discours), und von Klassen, die einer anderen Gesamtheit
166  angehören. Wenn aber die Sprache des Menschen als C.
167  aufgefaßt werden soll, dann muß man zunächst von ihrer
168  Historizität absehen (Coseriu, Forma y sustancia 56.59;
169  E. Albrecht, in: Dt. Zs. f. Philos. 9, 1961,
170  363), es sei denn, man definiere den Sprachwandel als Code
171  -Wechsel (code-shift: Malmberg, Structural
172  linguistics 178). So sieht B. Sigurd z. B. im
173  altnord. Sprachwandel einen change in the linguistic code,
174  und zwar sei ein C. mit mehr Signalen und kürzeren
175  Zeichengruppen entstanden, ein high-number code. Der
176  Wandel sei wegen der unnötig großen Redundanz des alten C.
177  möglich gewesen. Coseriu läßt tote und künstliche Sprachen
178  als Codes gelten im Gegensatz zu den sich wandelnden lebenden
179  Sprachen. Einem Vergleich von Sprache und C. stehen auch bei
180  synchroner Betrachtung Erfahrungstatsachen über das jeweilige
181  Volumen entgegen. Zunächst ist ein C., der eine
182  unbeschränkte Anzahl von Symbolen enthielte, durch seine
183  Vorbedingung der " Antizipation " ausgeschlossen. Die alleinige
184  ziffernmäßige Unendlichkeit eines C., die durch Kombination
185  von Symbolen zustande kommt, reicht für die Identifikation von C.
186  und Sprache nicht aus. Wie R. V. Pazuchin, VJa
187  1969, 5, S. 61 betont, sind solche Codes lediglich eine
188  besondere Abart begrenzter Codes: " Die Universalität der
189  Sprache zeigt sich vielmehr darin, daß sie von sich aus, d.h.
190  ohne Zuhilfenahme anderer Ausdrucksmittel imstande ist,
191  Ereignisse aller Art sowohl hinsichtlich ihrer Qualität wie auch
192  ihrer Quantität zu beschreiben. " Gerade die semantische, nicht
193  jedoch die formale Unbegrenztheit der Sprache ist also das
194  Entscheidende. Nur ein C., der seine semantische Zone
195  unbegrenzt erweitern kann oder der den Codebenützern die
196  Möglichkeit bietet, über die Grenzen dieser Zone unbeschränkt
197  hinauszuschreiten, kann als universal gelten. Als universaler
198  C. ist die Sprache durch ihre innere Struktur darauf
199  angelegt, eine begrenzte Auswahl von Zeichen in eine
200  unbeschränkte Anzahl von Äußerungen umzuwandeln. Hierbei
201  spielt schon die materielle Natur und die Form der Zeichen
202  (anders als beim Code schlechthin) eine Rolle. Hinzu kommt der
203  hierarchische Charakter der Relationen, der wieder beim C.
204  fehlt. (B. V. Gornung, in Tezisy S. 4). B.
205  Malmberg (Struct. ling. 27) sieht in der Anordnung
206  sprachlicher Einheiten des Inhalts und Ausdrucks, die im Gehirn
207  von Sprecher und Hörer gespeichert sind, einen Code. Er
208  definiert Sprache als eine Klasse von Codes, die auf
209  verschiedenen Ebenen menschlicher Kommunikation im Verkehr
210  angewendet werden. Hierbei kann man mit Saussure (Grundfragen
211  (Formel)) den (1) psycho-physischen Mechanismus unterscheiden,
212  der es dem Sprecher gestattet, den Code der Sprache beim
213  Sprechen anzuwenden, und die (2) Kombinationen des Wort
214  schatzes und Begriffsschatzes, die den Code einer
215  Sprachgemeinschaft ausmachen. Saussures Gegenüberstellung von
216  langue und parole entspricht dann der von Code und
217  Mitteilung (message); " Der Code ist die Einrichtung,
218  welche die Abfassung der Nachricht ermöglicht, mit ihm
219  vergleicht man jeden Bestandteil einer Nachricht, um ihre
220  Bedeutung zu ermitteln " (Martinet, Grundzüge 33). Die
221  Möglichkeit einer Übersetzung von Sprache scheint für die
222  Auffassung als Code zu sprechen: die Fremdsprache kann als Code
223  der eigenen Sprache, aus der übersetzt wird, angesehen werden,
224  W. Weaver, in: Machine transl. 18. Für E. Nida
225  ist die Sprache ein primärer Code, zu dem sekundäre
226  Codes (dependent codes) in einem
227  Abhängigkeitsverhältnis stehen, z. B. Flaggensignale.
228  Hierbei sind Codes, die von der geschriebenen Sprache abhängen
229  (Morsealphabet, Kurzschrift) selbst tertiäre Codes, da
230  die Schrift schon ein sekundärer Code im Verhältnis zur Sprache
231  ist. In Wirklichkeit ist jedoch die Transponierbarkeit
232  sprachlicher Sinngestalten durch die Übersetzung ein qualitativ
233  anderer Vorgang als die Codierung, bei der lediglich eine
234  Umformung vorgenommen wird. A. Reichling, Beitr. z.
235  Sprachk. und Inform. 1 (1963) 30 kommt zum Ergebnis,
236  " daß die natürliche Sprache kein geschlossenes System bildet und
237  am allerwenigsten einen " Code " darstellt (...) " P. Guiraud
238  (tudes de linguistique appliqu‚e 2, 1963, 37 f.)
239  erkennt den grundlegenden Unterschied zwischen Sprache und Code:
240  " les conventions d'un code sont explicites, pr‚‚
241  tablies et imp‚ratives; celles de la langue sont implicites,
242  elles s'instituent spontan‚ment au cours mˆme de la
243  communications. " Der Mensch schaffe den Code für die
244  Mitteilung, aber die Sprache werde in der Mitteilung geschaffen.
245  Der Code ist abgeschlossen und fixiert, die Sprache dagegen offen.
246  Vgl. G. Mounin, in: Linguistique contemporaine 145 f.,
247  der darauf hinweist, daß die Sprache in synchroner Sicht
248  doch ein geschlossenes System von endlichen Einheiten sei, die
249  nach einer endlichen Anzahl von Regeln verbunden werden. 3.
250  Technische Codes. Ein technischer Code besteht aus einer
251  Anzahl einfacher Elemente (Symbole) gleicher Rangstufe. Die
252  höheren Gebilde (Codewörter, code characters,
253  vereinigt im Code-Inventar, Code
254  " Alphabet ") sind Verbindungen dieser Elemente nach
255  konventionellen widerspruchsfreien Regeln. Zum Code gehört auch
256  die Sammlung von Regeln als Schlüssel für die Transformation
257  eines Objektbereichs. Ein code ist nach DIN 44300 eine
258  Vorschrift für die eindeutige Zuordnung der Zeichen eines
259  Zeichenvorrats zu denjenigen eines anderen Zeichenvorrats.
260  Ein Dechiffrierschutz ist es, wenn Geheimcodes über die
261  eindeutige Zuordnung hinausgehen. Alle Codewörter zusammen
262  ergeben den Signalvorrat. Wenn die Anzahl der Elemente in den
263  Codewörtern gleich der Anzahl der Elemente der zu
264  signalisierenden Informationen ist, spricht man von einem
265  redundanzfreien Code. Bei einem Redundanten Code ist
266  der Signalvorrat umfassender als der Informationsvorrat. Codes
267  geringster Redundanz (minimum redundancy codes) sind nach
268  dem Gesichtspunkt der geringsten Fehlerwahrscheinlichkeit bei
269  optimaler Ausnützung der Länge der Codewörter konstruiert
270  (Meyer-Eppler, Informationstheorie 156). Bei
271  systematischen Codes haben alle Code-Wörter die gleiche
272  Länge. Codewörter, die nicht Träger von Informationen sind
273  (Pseudocodewörter), dienen der Fehlererkennung bei der
274  Codeüberprüfung (code check). Fehlerprüfende Codes
275  (error-detecting codes, ED-Codes) können Einfach
276  -ED-Codes (single-error-detecting codes)
277  oder (Formel) ED-Codes (double-error-detecting codes)
278  sein. Diese können bis zu zwei Fehler innerhalb eines
279  Codewortes erkennen, aber nicht lokalisieren. Hierbei enthält
280  das Codewort Informationsstellen und Prüfstellen (z. B.
281  die letzte Ziffer der Quersumme aus den Ziffern der
282  Informationsstellen bei einem Ziffern-Codewort).
283  Entsprechendes gilt für (Formel) ED-Codes (multiple-
284  error-detecting codes). Fehlerkorrigierende Codes
285  (error-correcting codes, EC-Codes): die
286  Codewörter haben in ihrer Zusammensetzung aus Elementen eine
287  solche Distanz zueinander, daß fehlerhaft übertragene Symbole
288  nicht nur entdeckt, sondern auch ohne Rückfrage beim Sender
289  korrigiert werden können. Selbstkorrigierende Codes (self
290  -correcting-codes) gestatten es, durch die Prüfstellen
291  im Codewort den Ort des Fehlers zu ermitteln. Solche sind z.B.
292  Binärcodes: wenn 1 falsch ist, kann nur 0 richtig
293  sein.

Zum Anfang dieser Seite

Korpora.org