AI und ML Basics

Was steckt eigentlich dahinter?

rb omnichannel

Ein paar Begriffe

Artificial Intelligence (AI), Machine Learning (ML) oder Deep Learning (DL) sind Begriffe, die aktuell in den Medien sehr häufig zu hören sind. Und ganz bestimmt werden diese Themen in den kommenden Jahren noch relevanter werden. Grund genug, einmal einen genaueren Blick auf diese Themen zu werfen.

AI_ML_DL

Artificial Intelligence (AI)

Hierunter versteht man ein Teilgebiet der Informatik, welches sich mit der Automatisierung intelligenten Verhaltens und dem Maschinenlernen befasst. Dabei unterscheidet man zwischen der angewandten AI, welche uns auch im Rahmen dieser Artikelreihe schwerpunktmäßig beschäftigen wird, und der allgemeinen AI.

Im Rahmen der angewandten AI werden im Regelfall konkrete Probleme und Use Cases mit Hilfe von Machine Learning angegangen.

Parallel hierzu ist die allgemeine AI zu nennen, welche stärker auf Grundlagenforschung fokussiert ist und sich vor allem mit Systemen beschäftigt, welche ganz allgemein „intelligent“ agieren können – also eher vergleichbar mit dem menschlichen Gehirn. Diese Form der AI werden wir in unserer Artikelreihe nicht näher betrachten.

Machine Learning (ML)

Machine Learning ist ein Oberbegriff für die „künstliche“ Generierung von Wissen aus Erfahrung – einem Teilbereich der Artificial Intelligence.

Man unterscheidet hierbei grundsätzlich das überwachte und das unüberwachte Lernen.

Überwachtes Lernen

Beim überwachten Lernen wird ein System (beispielsweise basierend auf vorhandenen Daten) trainiert. Dieser Trainingsprozess wird im Regelfall durch einen Menschen überwacht. Sobald das so entstehende Modell hinreichend genau arbeitet, kann es beispielsweise genutzt werden, um Zukunftsprognosen zu erstellen.

Ein Beispiel: Basierend auf bestehenden Online-Trackingdaten kann durch AI prognostiziert werden, ob und zu welchem Preis ein aktueller User eines Webshops einen Artikel kaufen wird. Dies kann dann eine Basis für Dynamic Pricing sein.

Unüberwachtes Lernen

Im Gegensatz zum überwachten Lernen, kommt das unüberwachte Lernen ohne expliziten Trainingsprozess aus. Diese Art des Machine Learnings kommt vor allem dann zum Einsatz, wenn es darum geht, Muster und Strukturen in bestehenden (unstrukturierten) Daten zu erkennen. Ein Beispiel ist das Erkennen von Strukturen in vorhandenen Kundendaten, wie das automatisierte Bilden von Kundengruppen, die beispielsweise mit einer speziellen Marketingmaßnahme gezielt angesprochen werden sollen.

Deep Learning (DL)

Beim Deep Learning handelt es sich wiederum um ein Teilgebiet des Machine Learnings, welches auf spezielle Lernalgorithmen setzt, nämlich künstliche neuronale Netze, welche durch die Funktionsweise biologischer Gehirne inspiriert sind. Deep Learning und neuronale Netze werden wir in weiteren Artikeln unserer AI-Serie noch genauer betrachten.

Gelabelte und ungelabelte Daten

Daten sind ganz entscheidend, wenn es um Machine Learning geht. Im Regelfall benötigen Sie so viele Datensätze wie möglich, um Ihren Maschine Learning Algorithmus zu trainieren, zu testen und im Produktionsbetrieb permanent zu optimieren. Neben der Datenquantität ist aber auch die Datenqualität entscheidend. Nach wie vor ist es eine Aufgabe von Menschen, zu entscheiden, welche Attribute von Datensätzen in welcher Form für das Machine Learning genutzt werden – dies hat einen entscheidenden Einfluss auf die Qualität der Ergebnisse.

Gelabelte Daten haben Zielattribute, welche beim überwachten Lernen zu Trainings-, Validierungs- und Testzwecken genutzt werden können. Anders ausgedrückt: Die Daten bestehen aus Eingabewerten x und Ausgabewerten y (= Labels).

Beispiel aus dem Bereich E-Commerce:

x1 = Alter
x2 = Anzahl Seitenbesuche
x3 = Durchschnittliche Dauer der Sessions
y = Bestellvolumen (Label)

Bei ungelabelten Daten fehlt das Label „y“. Sie werden oft beim unüberwachten Lernen eingesetzt.

Details zum Einsatz von gelabelten und ungelabelten Daten betrachten wir in den nächsten Abschnitten.

Unterschiedliche Varianten des Machine Learning

Schauen wir uns zunächst einmal verschiedene Beispiele an, um einige grundsätzliche Varianten des Machine Learning (oder Deep Learning) zu betrachten.

Regression

Hierbei geht es typischerweise um Herausforderungen im Bereich „überwachtes Lernen“. Basierend auf vorhandenen, gelabelten Daten, soll AI helfen, Aussagen für die Zukunft zu treffen.

Hierbei kommen normalerweise gelabelte Daten zum Einsatz. Kommen wir auf die Daten aus dem vorherigen Abschnitt zurück.

x1 = Alter
x2 = Anzahl Seitenbesuche
x3 = Durchschnittliche Dauer der Sessions
y = Bestellvolumen (Label)

Basierend auf den Eingabewerten x1 bis x3 soll hierbei das Bestellvolumen y ermittelt werden. Historische, gelabelte Daten stehen zur Verfügung, die für das Training genutzt werden. Das Ziel dieses Trainings ist nun, eine „Formel“ zu finden, die möglichst genau das Bestellvolumen auf Basis künftiger Werte x1 bis x3 vorhersagen kann.

Dies kann durch lineare, oder häufiger – wie in der folgenden Grafik gezeigt – durch nicht lineare Regression geschehen. Einfacher gesagt, es wird eine „Kurve“ gesucht, die bestmöglich die Werte der Trainingsdaten abbildet. Was genau dabei zu berücksichtigen ist, wird in einem der kommenden Artikel behandelt.

AI_Grafik1

Klassifizierung

Nicht immer geht es darum, mit maschinellem Lernen einen Zahlenwert zu ermitteln. Oft ist auch eine Klassifizierung das Ziel: Beispielsweise vorherzusagen, ob ein bestimmter Zustand eintreten wird oder nicht. Auch hier wird im Regelfall mit gelabelten Daten gearbeitet.

Ein Beispiel, ebenfalls aus dem Bereich E-Commerce:

x1 = Dauer der Session
x2 = Anzahl der Seitenbesuche
y = Bestellung wird abgebrochen: wahr/falsch (Label)

 

AI_Grafik2
Clustering

Clustering ist ein typisches Beispiel für unüberwachtes Lernen. Dabei ist das Ziel, unstrukturierte Daten durch eine bestimmte Anzahl von Clustern zu strukturieren – dies können zum Beispiel Marktsegmente oder Kundentypen sein, die durch AI automatisiert ermittelt werden sollen.

Die Grafik zeigt ein Beispiel, in dem Kundengruppen auf Basis von Bestellvolumen und Alter generiert werden, um diese beispielsweise in Gruppen durch personalisierten Content gezielt anzusprechen.

Im echten Leben sind diese Daten meist wesentlich komplexer als im hier gezeigten Beispiel.

AI_Grafik3

Vor welcher Herausforderung stehen Sie?

Haben Sie Fragen, oder möchten Sie weitere Details zu den vorgestellten Themen mit mir besprechen? Kontaktieren Sie mich jederzeit über unser Kontaktformular oder rufen Sie mich unter 04121 6460410 an. Von der Anforderungsanalyse bis hin zum Rollout unterstützt Sie die rb omnichannel GmbH gerne.

Herzliche Grüße

Ihr Roland Bühler