Web Mining und Natural Language Processing in der Geographie am Beispiel deutscher Unternehmenswebseiten

Vortrag
Sitzungstermin
Mittwoch (20. September 2023), 14:30–16:00
Sitzungsraum
SH 2.106
Autor*innen
Lukas Kriesch (JLU Gießen)
Kurz­be­schreib­ung
Der Beitrag skizziert anhand von Fallstudien wie Verfahren des Natural Language Processings und Web Minings einen Mehrwert für geographische Forschung darstellen können.

Abstract

Das Internet hat sich in der jüngeren Vergangenheit zu einer reichhaltigen und umfassenden Datenquelle für (wirtschafts‑)geographische Forschung entwickelt. Insbesondere Verfahren des Natural Language Processings ermöglichen es unstrukturierten Text auch semantisch performant verarbeiten zu können. Dieser methodische Fortschritt eröffnet der Geographie neue Optionen Webinhalte als Datenquelle zu nutzen. Speziell die Möglichkeiten räumlich und zeitlich feinaufgelöste Daten generieren zu können, erlauben es bestehende Fragestellungen neu zu denken und völlig neue Forschungsfragen stellen zu können. Entsprechend halten Verfahren des Web Minings vermehrt Einzug in die Geographie beispielsweise zur Ableitung von Innovationsindikatoren, zur Technologiekartierung oder zur Untersuchung von Unternehmenskooperationen. Trotz der enormen Potentiale moderner Big Data und KI-Methoden bestehen ebenso große Hürden bei der Etablierung der Methodik. Einerseits besteht für Wissenschaftler*innen bis dato kein systematischer Zugang zu Webdaten, sodass Datenerhebung und -aufbereitung bereits markante Hemmnisse für die Forschungspraxis darstellen. Andererseits bedarf es völlig neuer Verfahren und Heuristiken, um Umfang und (Un‑)Struktur von Webtexten bewältigen zu können. Erschwerend kommt hinzu, dass sich das Forschungsfeld des Natural Language Processings extrem dynamisch fortentwickelt, sodass Geistes- und Sozialwissenschaftler*innen zunächst einen Überblick über die Methodenvielfalt gewinnen müssen.

Dieser Beitrag illustriert beispielhaft wie mittels Web Mining offener Webrepositorien über 600.000 deutsche Unternehmenswebseiten identifiziert und räumlich verortet werden können. Die Analyse der räumlichen Verteilungsmuster offenbart signifikante Unterschiede hinsichtlich des Digitalisierungsgrades von Unternehmen. Darüber hinaus demonstriert die Arbeit, wie modernste Verfahren des Natural Language Processings eingesetzt werden können, um die generierte Datenbank mittels quantitativer Textanalyse weiter zu veredeln. Auf Basis von Fallstudien zu KI-Unternehmen und Unternehmen der Bioökonomie werden neue Möglichkeiten zur Beleuchtung spezieller Branchen sowie für mikrogeographische Analysen diskutiert. Die Ergebnisse der Fallstudien unterstreichen die Potentiale von Webdaten für geographische Forschung. Einerseits wird deutlich, dass Webindikatoren unterschiedliche Sachverhalte präzise messen können. Andererseits eröffnen mikrogeographische Analysen von Textdaten neue erkenntnistheoretische Ansätze. Damit bildet der Beitrag insbesondere methodisch einen Ausgangspunkt für eine stärkere Etablierung von quantitativen Textanalysen in der Geographie.