„So what?“
Was man mit so einer Masse an Informationen anstellen kann, haben die jüngsten Ergebnisse aus dem Bereich des maschinellen Lernens gezeigt. Large Language Models (LLM) sind beeindruckende Hinweise darauf, wie viel Wert und Nutzen wir aus den sich jährlich verzehnfachenden Daten ziehen können, wenn wir sie nur richtig einzusetzen wissen. Es bleibt spannend zu sehen, was uns diese Entwicklung in naher Zukunft noch an disruptiven Veränderungen bringen wird. Ganz nebenbei spiegeln diese schon menschlich anmutenden Systeme die Konflikte und Makel in unserer Gesellschaft wider. Allen voran jegliche Form von Diskriminierung. Wir sind alle nur Menschen. Und gelernt haben diese sprechenden Datenbündel von – eben uns.
Interessant ist übrigens, dass der Singular von „Daten“ nur etymologisch existiert (Datum), praktisch aber nicht, da er so gut wie nie Verwendung findet.
Input vs. Instinkt – was tun mit den Daten?
Worin besteht also die Herausforderung? Solch eine Informationsflut gilt es, erst einmal zu ordnen und zu strukturieren und im Idealfall sogar noch zu kennzeichnen. Ähnlich, wie dass das Kinderzimmer aufgeräumt werden muss, damit wir schnell finden, wonach wir suchen.
A propos Kinder: Auch in der Linguistik herrscht Uneinigkeit darüber, ob der sprachliche Input (Daten) oder die sogenannte Universalgrammatik (Lernalgorithmen), die eine instinktive sprachliche Veranlagung des Menschen beschreibt, für das Wunder des schnellen Spracherwerbs im Kleinkindalter verantwortlich ist.
Wir als Gesamtgesellschaft machen im Moment Ähnliches durch. Die unfassbar große Menge an Informationen gilt es, zu verstehen und sinnvoll zu verwerten, denn jedes Unternehmen – bewusst oder unbewusst – sammelt Unmengen an Daten an. Sie waren schon immer da, nur das Bewusstsein dafür ist heute stärker. Neben dem Schutz von Daten Dritter, seien es Kundinnen oder Kunden oder Dienstleistungsunternehmen, sollten wir uns auch Gedanken darüber machen, wie wir diese Informationen zum Vorteil aller Beteiligten aus- und verwerten.
Ein schönes Beispiel sind unsere geliebten Translation Memories und Terminologiedatenbanken – Schätze an Wissen und Information sowie Speicher für die Kunstwerke der Übersetzer und Lektoren. Diese gekonnt einzusetzen und mit Hilfe von Metadaten noch weiter zu spezifizieren, ist eine spannende und respekteinflößende Aufgabe zugleich, die wir Tag für Tag mit einem analytischen Händchen und einer Prise Pragmatismus angehen.
Besonders deutlich wurde die Wichtigkeit der Qualität der Daten beim maschinellen Lernen. Ein Sprachmodell ist nur so gut wie sein Input. Dazu gehört auch das geschickte Annotieren der Daten – die Kirsche obendrauf.
Packen wir’s an! Ist ja offenbar kinderleicht.