Innovationen Trends finden und überblicken für KMU – Teil 2
Wie können Algorithmen Informationen aus Texten extrahieren? Und wie nutzt man sie, um Technologietrends zu erkennen? Diese Fragen beantwortet der zweite Teil über das Projekt Techrad.
Anbieter zum Thema

- Für ein Technologie-Scouting können viele verschiedene Quellen herangezogen werden.
- Mit einer Kombination aus Web Crawling, Suchmaschinen- und API-Abfragen kann aus Internet-Quellen ein großer, technologiespezifischer Datensatz erstellt und mittels Automatisierung aktuell gehalten werden.
- Für die Ansprüche des automatisierten Technologie-Scoutings von Techrad bietet sich ein Transfer Learner an.
Ein schnellerer Austausch von Wissen, ein stetiger technologischer Fortschritt und eine steigende Menge an Daten prägen seit einigen Jahren unsere Welt. Diese Daten zu filtern und zu bewerten, um erfolgversprechende Technologien zu erkennen und damit sinnvoll strategische Investitionsentscheidungen zu treffen, wird stetig komplexer. Das Forschungsprojekt „Techrad” hilft KMU, in der schnell wachsenden IT-Landschaft einen aktuellen und kontextbasierten Überblick zu behalten. Im ersten Teil dieser Serie wurde das autonome Technologie-Scouting als methodischer Ansatz beschrieben, hier werden nun die algorithmischen Grundlagen vorgestellt.
Technologiefrüherkennung – immer auf der Suche
Für ein Technologie-Scouting können viele verschiedene Quellen herangezogen werden. So bieten wissenschaftliche Fachzeitschriften hochwertige Inhalte, unterliegen aber oft Zugangsbeschränkungen. Gleichzeitig gibt es frei zugängliche Dokumente und Webseiten, wie Nachrichtenportale, Social-Media-Plattformen, Blogs oder Patentdatenbanken. Mit einer Kombination aus Web-Crawling, Suchmaschinen- und API-Abfragen kann aus diesen Quellen ein großer, technologiespezifischer Datensatz erstellt und mittels Automatisierung auch leicht aktuell gehalten werden. Die Quellen werden mit unterschiedlichen Metriken versehen, die unter anderem Reputation, Verlässlichkeit und Stimmungen (Sentiments) reflektieren und später zur Bestimmung des Technology Readiness Level (TRL) einer spezifischen technologischen Ausprägung herangezogen werden.
Die Aufgaben des NLP-Verfahrens
Bereits während des Sammelns der Daten werden Verfahren des Natural Language Processing (NLP) angewandt, um beispielsweise unpassende Dokumente zu filtern und zu gewünschten Themen relevante Daten zu finden. Weitere Aufgaben für das automatisierte Technologie-Scouting sind:
- die Klassifizierung von Dokumenten, Textabschnitten und Wörtern in vorgegebene Kategorien;
- Topic Modeling, das automatische Erkennen und Lernen von Themenclustern;
- die Übersetzung von Dokumenten. Während für den lokalen Markt vor allem deutsche Publikationen interessant sind, erscheint ein Großteil der Fachliteratur in Englisch. Um keine Einschränkungen hinnehmen zu müssen, wird eine automatische Übersetzung angestrebt.
- Die Sentiment-Analyse kann ein Stimmungsbild für ein einzelnes Dokument oder zu einer bestimmten Technologie liefern und nachhalten, wie sich diese Bewertung über die Zeit entwickelt. Damit kann zum Beispiel der technologische Fortschritt mit beurteilt oder auf spontane Änderungen in der Bewertung wie ein Technologiesprung eingegangen werden.
- Das Ranking von Dokumenten hilft bei der Beurteilung der einflussreichsten Quellen und ist maßgeblich beteiligt bei der Bestimmung des TRL der identifizierten Technologien für das Technologieradar.
Diese NLP-Aufgaben sind mehrfach und an verschiedenen Stellen relevant, sodass die Algorithmen im Techrad-Projekt möglichst modular aufgebaut werden. Das heißt, dass aufgabenspezifische Bausteine unabhängig voneinander und wiederverwendbar gestaltet werden.
Von Mensch in Maschine übersetzen
Um maschinelle Lernverfahren wie Deep Learning auf Sprache anwenden zu können, ist eine numerische Repräsentation des Textes notwendig. Hierbei gibt es diverse Kodierungsverfahren, die semantische Zusammenhänge unterschiedlich präzise abbilden. Je nach Darstellungsart werden Vorverarbeitungsprozesse benötigt, etwa Satzzeichenfilterung oder Stammformreduktion, um den Text in kleinere Bedeutungselemente zerlegen zu können. Diese sogenannten Tokens werden mehrdimensionalen Vektoren zugeordnet (Kodierung), die in ein Sprachmodell gespeist werden können, das daraus eine gehaltvollere abstrakte Darstellung generiert oder erlernen kann. Der Fachbegriff dafür ist Word-Embedding. Sie sind in der Lage, semantische Ähnlichkeiten und den Kontext von Wörtern widerzuspiegeln, und haben so zu enormen Fortschritten im Bereich der algorithmischen Textverarbeitung geführt.
Inzwischen gibt es viele Frameworks und Software-Bibliotheken, um Satz- oder Wortmodelle direkt aus Rohtexten zu extrahieren und zu trainieren. In statischen Modellen wie Word2Vec werden Wörter in ihrer Vektorrepräsentation mit geringerem Abstand zueinander dargestellt, wenn sie einerseits in Texten öfter zusammen vorkommen und anderseits einen ähnlichen umgebenden Text besitzen. Während hier jedem Wort eindeutig ein Vektor zugeordnet wird, gibt es Sprachmodelle, die den Kontext besser abbilden, dabei können Wörter mit mehreren Bedeutungen auch unterschiedliche Repräsentationen haben.
Mit diesen Modellen können Pronomen, wie „diese“, auf das vorherige Substantiv „Sprachmodelle“ bezogen werden.
Das Techrad-Technologieradar
Für die Ansprüche des automatisierten Technologie-Scoutings ist ein Transfer Learner ein vielversprechender Lösungsansatz. Dabei handelt es sich um Sprachmodelle, die auf einem großen Textkorpus vortrainiert wurden, zum Beispiel auf öffentlichen Datenquellen wie Wikipedia. Ihr großer Vorteil ist, dass sie sich mit einem überschaubaren Aufwand an technische Fachsprache anpassen lassen, indem die neuen Dokumente den Modellen präsentiert werden. Die spezifischen NLP-Aufgaben können einfach nachgeschaltet werden und trainieren das Sprachmodelle zugleich weiter, womit es an die Bedürfnisse des Technologieradars anpassbar ist. Gleichzeitig können die gesammelten Metadaten wie die Quelle des Textes oder das Abfragedatum verwendet werden, um die Ergebnisse weiter zu verbessern.
Ein gefundenes Dokument durchläuft zunächst ein Preprocessing, in dem Metadaten extrahiert werden und es auf ein einheitliches Format gebracht wird. Das verwendete Sprachmodell wird mit den neuen Daten aktualisiert und mittels Transfer Learning werden die gewählten Lernverfahren angepasst. Ausgegeben werden ein feiner abgestimmtes Sprachmodell und die Ergebnisse der jeweiligen Aufgaben. Mit all diesen Informationen kann ein finales Ranking für die gefunden Technologien getroffen werden.
Im nächsten Teil dieser Serie wird auf die juristischen Herausforderungen eingegangen, die sich bei der Datenspeicherung und Nutzung von Textquellen aus dem Internet ergeben.
* André Bräkling arbeitet bei der KEX in 52074 Aachen, David Arnu und Mina-Lilly Shibata arbeiten bei Rapidminer in 44141 Dortmund, Tel. (02 31) 29 29 93 01, research@rapidminer.com
(ID:46798881)