Förderung für Forschungsprojekt zur automatisierten Arbeit mit Texten

28.07.2020
Campus-News
lki

Dr. Sophie Burkhardts Nachwuchsgruppe in der Informatik wird vom Bund mit zwei Millionen Euro gefördert. In ihrem Forschungsprojekt werden Thema und Stil bei der Texterzeugung mit Künstlicher Intelligenz unabhängig voneinander kontrolliert. ©: Privat

Wie sich Texte mit vorgegebenem Stil und Thema erstellen lassen, erforscht an der JGU künftig die Nachwuchsgruppe der Informatikerin Dr. Sophie Burkhardt. Sie wird mit zwei Millionen Euro gefördert.

Die Gedanken in eigene Worte zu fassen, fällt manchen leichter als anderen. Eine Nachwuchsgruppe um Dr. Sophie Burkhardt, Postdoktorandin am Institut für Informatik der JGU Mainz, soll ab September erforschen, wie Texte verarbeitet werden und wie sich mithilfe von Künstlicher Intelligenz (KI) Texte mit vorgegebenem Thema und Stil generieren lassen. Für ihr Forschungsprojekt "Semantic Disentanglement: Unterscheidung von Stil und Thema in Textdaten" wurde ihr bereits vom Bundesministerium für Bildung und Forschung (BMBF) eine Fördersumme in Höhe von zwei Millionen Euro für vier Jahre bewilligt. Ziel dieser Förderung des BMBF ist es, die Forschung zur KI in Deutschland voranzutreiben und "die verantwortungsvolle Beteiligung von herausragend qualifizierten Frauen im Wissenschaftssystem weiter zu erhöhen", heißt es in der Ausschreibung des BMBF für seine Fördersumme. Aufgrund der Corona-Pandemie hat sich der Projektbeginn, der eigentlich für den 1. Mai 2020 angesetzt war, für Dr. Burkhardt, Leiterin der Nachwuchsgruppe, auf Mitte Juli 2020 verschoben, ihre Mitarbeiterinnen werden ab September 2020 eingestellt.

Dissertation gab Startschuss für das Forschungsprojekt

Bereits in ihrer Doktorarbeit hat sich Dr. Burkhardt mit Topic Models, sogenannten Themenmodellen, beschäftigt. Hierbei handelt es sich um ein statistisches Modell, um abstrakte Themen aus Korpora, einer Sammlung von Dokumenten und Texten, zu analysieren. Anhand von Word Clouds, zu Deutsch Schlagwortwolken, lassen sich Wahrscheinlichkeitsverteilungen von Wörtern visualisieren, um einen Überblick darüber zu gewinnen, wie wahrscheinlich oder unwahrscheinlich bestimme Schlagwörter in einem bestimmten Thema sind.

Als nach ihrer Promotion die Überlegung anstand, in welche Richtung sie weiterforschen möchte, sei das Thema ihrer Doktorarbeit sehr naheliegend gewesen, so Dr. Burkhardt. Denn darin hat sie sich primär auf Themen fokussiert, aber "nicht so sehr die Reihenfolge und die Grammatik der Wörter und den Text" berücksichtigt, also den Textstil. In den letzten Jahren sei ein Hype um Deep-Learning-Modelle entstanden, eine Methode des maschinellen Lernens bzw. der Informationsverarbeitung, die "extrem gut" darin seien, auch Texte zu generieren, die "wirklich täuschend echt" und nicht von menschengeschriebenen Texten zu unterscheiden sind. Jedoch sei es bislang ein "ungelöstes Problem", das Thema eines zu generierenden Textes vorzugeben und den Textstil getrennt davon zu kontrollieren.

Differenzierung von Thema und Inhalt

In den letzten Jahren ist es der KI bereits gelungen, Texte zusammenzufassen und deren Tonalität zu verändern, um beispielsweise eine positive Bewertung in eine negative umzuwandeln. Weitaus schwieriger zu kontrollieren seien allerdings andere, weniger offensichtliche Stilaspekte, wie z.B. Ironie und Sarkasmus, die ein "enormes Problem" darstellen, "zumal das System den Wissensstand verstehen müsste", so Dr. Burkhardt in einer Pressemitteilung der JGU zu ihrem Projekt vom 17. Juni 2020.

Durch ein Disentanglement, sprich die Entwirrung von Thema und Stil in Textdaten, soll es künftig möglich sein, z.B. einen wissenschaftlichen Artikel in einen Zeitungsartikel zu verwandeln oder einen Harry-Potter-Roman in den Stil von Shakespeare zu konvertieren. Das vierjährige Forschungsprojekt setzt sich zum Ziel, "wirklich sehr qualitativ hochwertige Texte" mit einem vorgegebenen Stil und Thema zu erzeugen. Dadurch soll beispielsweise der Stil eines Textes übernommen werden können, der Text jedoch zu einem anderen Thema generiert werden oder umgekehrt.

Inwiefern diese Ziele zur automatisierten Arbeit mit Texten nach vier Jahren Forschung erreicht sein könnten, ist für Dr. Burkhardt schwer zu sagen, wobei es ihr zufolge aber durchaus machbar sei. Insgesamt käme es v.a. darauf an, inwieweit andere Forschungsgruppen in der KI Fortschritte erzielen.

Dennoch ist sie sich sicher, mit ihrem eigenen Forschungsprojekt den Stand der Forschung weiter voranzutreiben, denn sie und ihre Nachwuchsgruppe würden versuchen, "dass es besser ist als das, was es jetzt schon gibt." Sie beschäftigt in ihrer Nachwuchsgruppe drei Doktorandinnen, die im Rahmen ihrer Promotion den Forschungsstand in jeweils drei bis vier Publikationen dokumentieren müssen. Forschungsergebnisse sind zudem in vom BMBF geforderten jährlichen Workshops für ein externes Fachpublikum zu präsentieren. Publikationen werde es Dr. Burkhardt zufolge "auf jeden Fall" in den einschlägigen Konferenzen für maschinelles Lernen und Natural Language Processing (NLP) und darüber hinaus eventuell in Workshops im Rahmen der BMBF-Förderung geben.

Zwei Millionen Euro zur Frauenförderung in der Wissenschaft

Das Forschungsprojekt wird vom BMBF im Rahmen der Förderung von Nachwuchswissenschaftlerinnen im Bereich der KI mit einer Fördersumme von zwei Millionen Euro unterstützt. Dadurch kann Dr. Burkhardt ihre eigene interdisziplinäre Nachwuchsgruppe aufbauen, die im Rahmen der BMBF-Förderung hauptsächlich aus Nachwuchswissenschaftlerinnen bestehen wird. Die Forderung, dass die Arbeitsgruppe von Frauen zu leiten und mit mindestens 60 Prozent Frauenanteil zu besetzen ist, soll vornehmlich Doktorand:innen und Postdocs ermöglichen, "in flachen Hierarchien eigene Ideen weiterzuentwickeln", so die Ausschreibung vom 19. Juni 2019. Laut BMBF werde mit der Förderung von Nachwuchsgruppen in Millionenhöhe den KI-Wissenschaftlerinnen die Möglichkeit gegeben, "eigenständige Forschung zu betreiben, ihr wissenschaftliches Profil zu stärken und die Sichtbarkeit in der Community zu erhöhen." Zusätzlich dazu sollen die Mitarbeiterinnen durch ein Mentoring des Ada-Lovelace-Projekts, das junge Frauen im MINT-Bereich gewinnen und entsprechend fördern will, an der JGU während ihrer Promotion unterstützt werden. 

Dass ihr Antrag mit "mehr oder weniger Abstrichen so bewilligt wurde", hat Dr. Sophie Burkhardt allerdings positiv überrascht, denn es hätte ihr zufolge auch sein können, dass das BMBF die von ihr kalkulierte Summe und Mitarbeiterinnenpositionen nicht bewilligt. Dank der vollständig bezuschussten Fördersumme kann sie zusätzlich zu den drei festen Mitarbeiterinnenpositionen Geld für Hardwareanschaffungen einkalkulieren. Diese, zu denen auch eine DGX-2 zählt, würden jedoch einen beachtlichen Teil der Fördersumme in Anspruch nehmen, aber seien laut Dr. Burkhardt für die Rechenleistung und Methoden des Deep Learnings unabdinglich. 

Nachwuchsgruppe als Vorbild für Frauen in der Informatik

Was die Anzahl an Frauen auf ihrem Gebiet in der Informatik betrifft, sieht es nach Dr. Burkhardt "eher mau" aus. Ihren Informationen zufolge sei sie die dritte Frau überhaupt, die an der JGU ihre Promotion in Informatik abgeschlossen hat. Dabei müsse man sich vor Augen halten, dass das Institut für Informatik bereits seit über 30 Jahren besteht und somit im Schnitt nur alle zehn Jahre eine Frau in dieser Disziplin promoviert. Auch habe es seither, Dr. Burkhardt zufolge, keine einzige Professorin der Informatik in Mainz gegeben, "was schon eher traurig ist." Die Universität kann diese Zahlen auf Anfrage jedoch nicht bestätigen, "denn hierfür müsste eigentlich ermittelt werden, wie viele Personen jemals seit Gründung des Instituts dort beschäftigt waren" – diese Daten lägen Petra Giegerich, der Leiterin des Bereichs für Presse- und Öffentlichkeitsarbeit, jedoch nicht vor. Dass Dr. Burkhardts Nachwuchsgruppe die erste weiblich geführte Arbeitsgruppe überhaupt ist, zeigt, dass "da schon noch viel getan werden muss". Ihrem Doktorvater Prof. Dr. Stefan Kramer, in dessen Arbeitsgruppe Data Mining sie bis zu Beginn ihrer eigenen Nachwuchsgruppe Postdoktorandin gewesen ist, habe sie allerdings viel zu verdanken. Denn laut Dr. Burkhardt bemühe er sich sehr, "zumindest in meiner aktuellen Arbeitsgruppe viele Frauen einzustellen".

Dr. Burkhardt sieht es als internationales Problem, dass spezifisch in der KI und insgesamt in der Informatik viel zu wenige Frauen vertreten seien. Ihre Nachwuchsgruppe könne jedoch ein Vorbild bieten und anderen aufzeigen, dass durchaus auch Frauen solche Positionen besetzen, indem man einen Eindruck bei Studierenden und Besucher:innen des Instituts oder der Website hinterlässt, da es zumindest eine Frau in diesem Forschungsfeld gibt. Wie stark die Auswirkungen ihrer Nachwuchsgruppe auf ein breites Publikum letzten Endes sein werden, steht in den Sternen, doch Dr. Burkhardt glaubt daran, dass sie einen nachhaltigen Effekt erzielen wird.

Campus Mainz e.V. unterstützen!

Campus Mainz e.V. ist ein gemeinnütziger Verein und die meiste Arbeit ist ehrenamtlich. Hilf uns dabei auch in Zukunft tolle Dienste für alle kostenlos anzubieten. Unterstütze uns jetzt!