Quelle Nummer 279
Rubrik 10 : SPRACHE Unterrubrik 10.02 : SPRACHWISSENSCHAFT
SPRACHWISS. WOERTERBUCH
JOHANN KNOBLOCH (HRSG.)
SPRACHWISSENSCHAFTLICHES WOERTERBUCH
LIEFERUNG 6
CARL WINTER UNIVERSITAETSVERLAG HEIDELBERG 1971
S. 438-
001 Clumptheorie. Linguistische Klassifizierungsmethode auf
002 numerischer Grundlage, die im Gegensatz zur üblichen
003 Klassifizierung nicht Objekte in vorgegebene Klassen einordnet,
004 sondern die Klasseneinteilung aus den Objekten selbst finden will.
005 Gegeben sind eine Anzahl von Objekten (Dinge, Begriffe,
006 Wörter, Sätze) und Informationen über sie (ihre
007 Eigenschaften). Nachdem den Objekten alle ihre Eigenschaften
008 (" properties ") zugeordnet sind, wird mit Hilfe eines
009 Computerprogramms zwischen jeweils 2 Objekten der Grad der
010 Ähnlichkeit ihrer Eigenschaften maschinell bestimmt und durch
011 einen Ähnlichkeitskoeffizienten (gemeinsame Eigenschaften
012 dividiert durch Gesamtzahl der Eigenschaften) ausgedrückt. Alle
013 Objekte mit ihren Koeffizienten werden in einer
014 Ähnlichkeitsmatrix (" resemblance or similarity matrix ")
015 dargestellt. Durch maschinellen Vergleich aller Koeffizienten
016 miteinander lassen sich Mengen von Objekten einteilen,
017 " clumps " (z. T. auch " clusters " EH genannt),
018 die durch maximale Übereinstimmung ihrer Eigenschaften bestimmt
019 sind und sich charakteristisch von anderen " clumps "
020 derselben Matrix unterscheiden: Das Aufstellen von " clumps "
021 wird Clumping genannt. Die numerischen Verfahren
022 dieser Methode gehen auf die mathematische Klassifikationstheorie
023 von Tanimoto zurück. Angewandt wird die Clumptheorie u.a.
024 in der Biologie, der Anthropologie und der Soziologie. In
025 der Linguistik wurde sie etwa ab 1960 beim " Cambridge Language
026 Research Unit " praktiziert. Dabei wurde sie zur semantischen
027 Klassifizierung von Wörtern für die maschinelle Übersetzung
028 angewandt und zusammen mit der " co-occurence "-
029 Methode Methode und Quasi-Synonymen-Listen für die automatische
030 Dokumentation. Zum Zweck der Auffindung von Schlüsselwörtern
031 in automatisch zu klassifizierenden Dokumenten und für das
032 " Information Retrieval " wurde die Clumping-Methode im
033 " Linguistics Research Center " in Austin (Texas)
034 weiterentwickelt und auch auf die syntaktische Klassifizierung von
035 Wortgruppen (" strings of text ") angewandt.
036 cluster (engl. " Büschel "). (Phonologie):
037 consonant cluster = Konsonanz; nach H. Spang-Hanssen,
038 Probability 142 auch der konsonantische Einlautbuchstabe. Nach
039 der Stellung werden initial und final clusters
040 (oder prevocalic bzw. prejunctural consonant clusters
041 unterschieden. Ein component cluster ist eine
042 koextensive Folge von Komponenten, die in bezug auf ihre
043 Sequenzrelation zu anderen Komponenten untersucht wird. Als
044 cluster gilt auch eine Lautgruppe aus Vokal und Resonant,
045 ey, aw. Ggs. single phoneme. (Semantik):
046 Nach U. Weinreich, in: Current trends 3 418: " an
047 unordered set of features ". Hierfür gilt: (a, b) (math.Op.) (b,
048 a); es sind also Wortbestände, denen das Band eines sinnvollen
049 Zusammenhanges fehlt. Ggs.: configuration, die nach
050 der Formel (Formel) eine nichtumkehrbare Beziehung voraussetzt und eine
051 gestalthafte Sinneinheit schafft. (Sprachpsychologie):
052 cluster ist ein Assoziationsnetz, in dem sprachliches Material
053 geordnet gespeichert ist. Bei einem Gedächtnisversuch werden die
054 Wörter nicht in der zufälligen Reihenfolge, wie sie erlernt
055 wurden, sondern nach Kategorien geordnet dargeboten. Für das
056 Clustering werden zwei Faktoren verantwortlich gemacht. Beim
057 Lernen der Sprache werden auch die Übergangswahrscheinlichkeiten
058 gelernt, nach denen einem Element A ein Element X folgt
059 (Strukturiertheit der Sprache). Dazu kommt der
060 Verbundenheitszuwachs: wird ein bestimmtes Wort reproduziert, so
061 werden dadurch auch alle jene Wörter mobilisiert, zu denen
062 assoziative Beziehungen bestehen. Diese Wörter können nun
063 leichter über die Schwelle des Bewußtseins gehoben werden.
064 Clustering, semantic. Ein Verfahren, mit dem ähnlich wie
065 nach der Clumptheorie Wörter oder Wortgruppen nach
066 Bedeutungsähnlichkeit maschinell in Untermengen eingeteilt werden,
067 ohne daß ein Klassifikationssystem vorgegeben wäre. Im
068 Gegensatz zum Clumping-Verfahren, bei dem
069 Ähnlichkeitsrelationen meistens aufgrund der Austauschbarkeit von
070 Quasi-Synonymen in einem Kontext oder aufgrund der Frequenz
071 des gemeinsamen Auftretens sprachlicher Einheiten im Text
072 statistisch aufgestellt werden, wird semantic clustering
073 auch für sprachliche Einheiten durchgeführt, die nicht in
074 Kontextbeziehung stehen, z. B. für die Einträge in einer
075 strukturierten Begriffsliste bzw. einem Thesaurus. Ziel des
076 Verfahrens ist es, zwischen Wörtern, Wortgruppen oder Phrasen
077 mit Hilfe eines Computer-Programmes die semantische Beziehung
078 aufzustellen, deren Grad sich durch einen Koeffizienten numerisch
079 ausdrücken läßt. Eine als " cluster " bezeichnete
080 Untermenge ist dadurch bestimmt, daß die Koeffizienten für die
081 semantische Beziehung der Elemente untereinander jeweils größer
082 sind als die Koeffizienten für die semantische Beziehung zwischen
083 Elementen des clusters und in ihm nicht enthaltenen
084 Elementen. Angewendet wird das Verfahren vor allem bei der
085 Aufstellung von Indexierungssystemen für das Information
086 Retrieval und bei der maschinellen Erstellung von Synonymen
087 listen bzw. Antonymenlisten. clutterung s.
088 Poltern. Coa f. = chilenisches Rotwelsch (eigentl.
089 der auf den Antillen und in Mexiko von der einheimischen
090 Bevölkerung verwendete Hackstock). coagulazione Sieg
091 einer formalen oder lexikologischen Variante über die anderen
092 coalescence (math.Op.) Univerbierung; coalescents: die
093 Halbvokale w, y. coalescense (frz.) Bei der
094 Neutralisierung einer phonologischen Opposition (z. B.
095 /s/und/z/im Rumän.), kann in
096 gleicher Weise/s/oder/z/auftreten:
097 beide Glieder sind gegeneinander austauschbar. Andererseits
098 erscheint im Russischen anstelle des unbetonten/o/
099 oder/a/keiner der beiden Vokale, sondern/
100 (Zeichen)/. In beiden Fällen spricht T. Pavel von c.
101 Ggs. implication. COBOL (= Common
102 Business Oriented Language), eine 1959 festgelegte
103 Programmiersprache für kommerzielle Probleme. Sie wurde als
104 COBOL-60 veröffentlicht und ist inzwischen in mehreren
105 Phasen (COBOL-61 extended; COBOL,
106 edition 1965) von der Conference on Data Systems Languages zu
107 COBOL standard X 3.23 weiterentwickelt worden.
108 Demnächst soll sie von Bauart und Modell des Computers
109 unabhängig gemacht werden. Die Anpassung an größer
110 dimensionierte Rechner soll unter geringstem Aufwand erfolgen. Es
111 besteht aus sieben Modules auf je zwei Ebenen.
112 Cockney. Engl.: " Hahnenei; verhätscheltes Kind;
113 Stadtbewohner ". Der Dialekt von London, genauer der
114 Londoner City, frei von sprachlichem Schulzwang, mit näselnder
115 Tonart gesprochen, zeigt Lautersatz bei den interdentalen
116 Spiranten, Monophthongierung von[ ]zu[ a: ],
117 während[ ei, i ]zu[ ai ]wird. Im Wortschatz ist
118 diese Stadtmundart neuerungssüchtig durch den Bedarf an
119 Kraftausdrücken, ein Stilgefühl ist nicht entwickelt. Das C.
120 ist reich an stehenden Redensarten, die bis zum Überdruß
121 angewandt werden: was your father a glazier? sagt man zu
122 jemand, der einem die Sicht verstellt. Cockneyism ist ein
123 " Fehler der Umgangssprache der niederen Volksklassen " (Th.
124 Aufrecht KZ 8, 1859, 213). cocoliche m. (span.)
125 Spanisch-italienische Mischsprache, die von unteren
126 Volksschichten an der La-Plata-Mündung verwendet wird.
127 Code. (engl., frz.), span. c¢digo.
128 Signalsystem. Ggs. message. Zuerst von de Saussure,
129 Cours (1960, S. 31: " les combinaisons par lesquelles le
130 sujet parlant utilise le code de la langue en vue d'exprimer sa pense
131 1e personelle ") auf die Sprache angewendet, hat sich der
132 Terminus nur langsam in der modernen Linguistik durchgesetzt.
133 Buyssens, Communication 52, setzt im Sinne von de Saussure
134 systŠme ou code gleich. Die heutige Beliebtheit, die
135 die Gefahr der mangelnden Einsicht in das Wesen des Sprachlichen
136 in sich birgt, ist der Informationstheorie und der maschinellen
137 Übersetzung zu danken. Ein C. ist nach K. Bühler ein
138 Einklassensystem globaler Symbole. Sein Aufbau erfordert zwei
139 Vorbedingungen: (1.Form): die Struktur der Signale muß
140 festgelegt sein; (2.Funktion): für jedes Signal ist eine
141 typische Verwendungssituation und in ihr der Kommunikationszweck,
142 den es zu erfüllen hat, zu beschreiben. Schrift als Code.
143 Die Schrift hält Lautfolgen in Symbolen aus einem Code
144 -Inventar, dem Alphabet, nach der Rechtschreibkonvention fest.
145 Das Buchstabenalphabet ist ein natürlicher C.[
146 Bünting, Morphol. Strukturen 11 ]. Die Blindenschrift
147 oder das Morsealphabet sind ihrerseits Codierungen der Schrift,
148 keine eigenständigen Transkriptionen, wie es phonetische
149 Alphabete oder Kurzschriftsysteme sein können. Die Signale des
150 Alphabets sind die Grapheme. Ein für die Datenverarbeitung
151 verwertbarer C. muß neben den Graphemfolgen des Alphabets auch
152 festgelegte Symbole für die Kennzeichnung der grammatischen und
153 semantischen Eigenschaften der Morpheme und Wörter enthalten.
154 Das Inventar solcher Markierungen stellt einen künstlichen C.
155 dar. Sprache als Code. Wenn man unter C.
156 alle denkbaren Zeichensysteme versteht, muß sich die Linguistik
157 einer allgemeinen Zeichenlehre (s‚miologie: de
158 Sausure) unterordnen. Das Erfordernis von " typischen Aufgaben
159 in einer artlebensmäßig festgelegten und umweltentsprechenden
160 Verständigung " ist bei der Bienen " sprache " erfüllt, die
161 ein starres Code-System darstellt. Kainz, Spr.d.
162 Tiere 19. Nach Prieto ist ein C. im wesentlichen ein
163 " System von Semen ", d. h. ein System von
164 Wechselbeziehungen der Klassen, die der Gesamtheit einer Rede
165 (discours), und von Klassen, die einer anderen Gesamtheit
166 angehören. Wenn aber die Sprache des Menschen als C.
167 aufgefaßt werden soll, dann muß man zunächst von ihrer
168 Historizität absehen (Coseriu, Forma y sustancia 56.59;
169 E. Albrecht, in: Dt. Zs. f. Philos. 9, 1961,
170 363), es sei denn, man definiere den Sprachwandel als Code
171 -Wechsel (code-shift: Malmberg, Structural
172 linguistics 178). So sieht B. Sigurd z. B. im
173 altnord. Sprachwandel einen change in the linguistic code,
174 und zwar sei ein C. mit mehr Signalen und kürzeren
175 Zeichengruppen entstanden, ein high-number code. Der
176 Wandel sei wegen der unnötig großen Redundanz des alten C.
177 möglich gewesen. Coseriu läßt tote und künstliche Sprachen
178 als Codes gelten im Gegensatz zu den sich wandelnden lebenden
179 Sprachen. Einem Vergleich von Sprache und C. stehen auch bei
180 synchroner Betrachtung Erfahrungstatsachen über das jeweilige
181 Volumen entgegen. Zunächst ist ein C., der eine
182 unbeschränkte Anzahl von Symbolen enthielte, durch seine
183 Vorbedingung der " Antizipation " ausgeschlossen. Die alleinige
184 ziffernmäßige Unendlichkeit eines C., die durch Kombination
185 von Symbolen zustande kommt, reicht für die Identifikation von C.
186 und Sprache nicht aus. Wie R. V. Pazuchin, VJa
187 1969, 5, S. 61 betont, sind solche Codes lediglich eine
188 besondere Abart begrenzter Codes: " Die Universalität der
189 Sprache zeigt sich vielmehr darin, daß sie von sich aus, d.h.
190 ohne Zuhilfenahme anderer Ausdrucksmittel imstande ist,
191 Ereignisse aller Art sowohl hinsichtlich ihrer Qualität wie auch
192 ihrer Quantität zu beschreiben. " Gerade die semantische, nicht
193 jedoch die formale Unbegrenztheit der Sprache ist also das
194 Entscheidende. Nur ein C., der seine semantische Zone
195 unbegrenzt erweitern kann oder der den Codebenützern die
196 Möglichkeit bietet, über die Grenzen dieser Zone unbeschränkt
197 hinauszuschreiten, kann als universal gelten. Als universaler
198 C. ist die Sprache durch ihre innere Struktur darauf
199 angelegt, eine begrenzte Auswahl von Zeichen in eine
200 unbeschränkte Anzahl von Äußerungen umzuwandeln. Hierbei
201 spielt schon die materielle Natur und die Form der Zeichen
202 (anders als beim Code schlechthin) eine Rolle. Hinzu kommt der
203 hierarchische Charakter der Relationen, der wieder beim C.
204 fehlt. (B. V. Gornung, in Tezisy S. 4). B.
205 Malmberg (Struct. ling. 27) sieht in der Anordnung
206 sprachlicher Einheiten des Inhalts und Ausdrucks, die im Gehirn
207 von Sprecher und Hörer gespeichert sind, einen Code. Er
208 definiert Sprache als eine Klasse von Codes, die auf
209 verschiedenen Ebenen menschlicher Kommunikation im Verkehr
210 angewendet werden. Hierbei kann man mit Saussure (Grundfragen
211 (Formel)) den (1) psycho-physischen Mechanismus unterscheiden,
212 der es dem Sprecher gestattet, den Code der Sprache beim
213 Sprechen anzuwenden, und die (2) Kombinationen des Wort
214 schatzes und Begriffsschatzes, die den Code einer
215 Sprachgemeinschaft ausmachen. Saussures Gegenüberstellung von
216 langue und parole entspricht dann der von Code und
217 Mitteilung (message); " Der Code ist die Einrichtung,
218 welche die Abfassung der Nachricht ermöglicht, mit ihm
219 vergleicht man jeden Bestandteil einer Nachricht, um ihre
220 Bedeutung zu ermitteln " (Martinet, Grundzüge 33). Die
221 Möglichkeit einer Übersetzung von Sprache scheint für die
222 Auffassung als Code zu sprechen: die Fremdsprache kann als Code
223 der eigenen Sprache, aus der übersetzt wird, angesehen werden,
224 W. Weaver, in: Machine transl. 18. Für E. Nida
225 ist die Sprache ein primärer Code, zu dem sekundäre
226 Codes (dependent codes) in einem
227 Abhängigkeitsverhältnis stehen, z. B. Flaggensignale.
228 Hierbei sind Codes, die von der geschriebenen Sprache abhängen
229 (Morsealphabet, Kurzschrift) selbst tertiäre Codes, da
230 die Schrift schon ein sekundärer Code im Verhältnis zur Sprache
231 ist. In Wirklichkeit ist jedoch die Transponierbarkeit
232 sprachlicher Sinngestalten durch die Übersetzung ein qualitativ
233 anderer Vorgang als die Codierung, bei der lediglich eine
234 Umformung vorgenommen wird. A. Reichling, Beitr. z.
235 Sprachk. und Inform. 1 (1963) 30 kommt zum Ergebnis,
236 " daß die natürliche Sprache kein geschlossenes System bildet und
237 am allerwenigsten einen " Code " darstellt (...) " P. Guiraud
238 (tudes de linguistique appliqu‚e 2, 1963, 37 f.)
239 erkennt den grundlegenden Unterschied zwischen Sprache und Code:
240 " les conventions d'un code sont explicites, pr‚‚
241 tablies et imp‚ratives; celles de la langue sont implicites,
242 elles s'instituent spontan‚ment au cours mˆme de la
243 communications. " Der Mensch schaffe den Code für die
244 Mitteilung, aber die Sprache werde in der Mitteilung geschaffen.
245 Der Code ist abgeschlossen und fixiert, die Sprache dagegen offen.
246 Vgl. G. Mounin, in: Linguistique contemporaine 145 f.,
247 der darauf hinweist, daß die Sprache in synchroner Sicht
248 doch ein geschlossenes System von endlichen Einheiten sei, die
249 nach einer endlichen Anzahl von Regeln verbunden werden. 3.
250 Technische Codes. Ein technischer Code besteht aus einer
251 Anzahl einfacher Elemente (Symbole) gleicher Rangstufe. Die
252 höheren Gebilde (Codewörter, code characters,
253 vereinigt im Code-Inventar, Code
254 " Alphabet ") sind Verbindungen dieser Elemente nach
255 konventionellen widerspruchsfreien Regeln. Zum Code gehört auch
256 die Sammlung von Regeln als Schlüssel für die Transformation
257 eines Objektbereichs. Ein code ist nach DIN 44300 eine
258 Vorschrift für die eindeutige Zuordnung der Zeichen eines
259 Zeichenvorrats zu denjenigen eines anderen Zeichenvorrats.
260 Ein Dechiffrierschutz ist es, wenn Geheimcodes über die
261 eindeutige Zuordnung hinausgehen. Alle Codewörter zusammen
262 ergeben den Signalvorrat. Wenn die Anzahl der Elemente in den
263 Codewörtern gleich der Anzahl der Elemente der zu
264 signalisierenden Informationen ist, spricht man von einem
265 redundanzfreien Code. Bei einem Redundanten Code ist
266 der Signalvorrat umfassender als der Informationsvorrat. Codes
267 geringster Redundanz (minimum redundancy codes) sind nach
268 dem Gesichtspunkt der geringsten Fehlerwahrscheinlichkeit bei
269 optimaler Ausnützung der Länge der Codewörter konstruiert
270 (Meyer-Eppler, Informationstheorie 156). Bei
271 systematischen Codes haben alle Code-Wörter die gleiche
272 Länge. Codewörter, die nicht Träger von Informationen sind
273 (Pseudocodewörter), dienen der Fehlererkennung bei der
274 Codeüberprüfung (code check). Fehlerprüfende Codes
275 (error-detecting codes, ED-Codes) können Einfach
276 -ED-Codes (single-error-detecting codes)
277 oder (Formel) ED-Codes (double-error-detecting codes)
278 sein. Diese können bis zu zwei Fehler innerhalb eines
279 Codewortes erkennen, aber nicht lokalisieren. Hierbei enthält
280 das Codewort Informationsstellen und Prüfstellen (z. B.
281 die letzte Ziffer der Quersumme aus den Ziffern der
282 Informationsstellen bei einem Ziffern-Codewort).
283 Entsprechendes gilt für (Formel) ED-Codes (multiple-
284 error-detecting codes). Fehlerkorrigierende Codes
285 (error-correcting codes, EC-Codes): die
286 Codewörter haben in ihrer Zusammensetzung aus Elementen eine
287 solche Distanz zueinander, daß fehlerhaft übertragene Symbole
288 nicht nur entdeckt, sondern auch ohne Rückfrage beim Sender
289 korrigiert werden können. Selbstkorrigierende Codes (self
290 -correcting-codes) gestatten es, durch die Prüfstellen
291 im Codewort den Ort des Fehlers zu ermitteln. Solche sind z.B.
292 Binärcodes: wenn 1 falsch ist, kann nur 0 richtig
293 sein.
Zum Anfang dieser Seite