Maschinelles Lernen: Betreutes Lernen versus unbeaufsichtigtes Lernen

Dieser Blog ist eine kurze Diskussion über beaufsichtigte und unbeaufsichtigte Lerntechniken

Betreutes Lernen gegen unbeaufsichtigtes Lernen

Beginnen wir mit dem betreuten Lernen

Überwachtes Lernen

Überwachtes Lernen

Bevor wir uns mit dem technischen Teil befassen, möchte ich ein einfaches Beispiel geben, wie ein kleines Baby die Dinge lernt.

Sagen wir zum Beispiel, wir haben einem Baby zwei Bilder gezeigt. Wir sagten dem Baby, dass das erste Bild ein Apfel und das zweite Bild eine Banane ist. Während das Baby diese beiden Dinge lernt, denkt es daran, dass wenn die Farbe rot und die Form kreisförmig ist, es sich um einen Apfel handelt und wenn die Farbe gelb und die Form nicht kreisförmig ist, es sich um eine Banane handelt. So lernt Baby. Dann zeigten wir das dritte Bild und baten das Baby, die Frucht entweder als Apfel oder als Banane zu finden. In dem Moment, in dem Sie das dritte Bild gezeigt haben, erkennt er "Ja, es ist eine Banane :)". Weil wir die beiden Bilder bereits in zwei Kategorien eingeteilt haben. So weiß das Baby, was Apfel und was Banane ist. So funktioniert betreutes Lernen.

Die Grundidee für das überwachte Lernen ist, dass Ihre Daten Beispiele für Situationen enthalten und für jedes Beispiel ein Ergebnis angeben. Anschließend erstellt die Maschine aus den Trainingsdaten ein Modell, das das Ergebnis der neuen Daten anhand der vorherigen Beispiele vorhersagen kann.

Betrachten wir also einen einfachen Datensatz des kürzlich verkauften Hauses

Unser erstes Beispielhaus könnte 30 m² groß sein, mit 5 Schlafzimmern und 3 Bädern, und wir könnten dem Algorithmus mitteilen, dass dieses Haus für 530.000 US-Dollar verkauft wurde. Als nächstes möchten wir Ihnen ein Beispiel eines 2100 m² großen Hauses mit 4 Schlafzimmern und 2 Bädern vorstellen, das für 460.000 US-Dollar verkauft wurde. Ebenso 1200 m² großes Haus mit 3 Schlafzimmern und 1,5 Bädern für 250.000 US-Dollar verkauft.

Nachdem wir die Maschine mit den oben genannten Daten trainiert haben, bitten wir die Maschine, den Preis eines anderen Hauses mit 6 Schlafzimmern und 4 Bädern vorherzusagen.

Das Wichtige am überwachten Lernen ist, dass es eine sehr spezifische Struktur hat, wie unten gezeigt

spezifische Struktur des überwachten Lernens

Wir haben Datenzeilen, von denen jede ein Beispiel für etwas ist, das wir zum Trainieren des Modells verwenden. Jede Zeile hat eine Spalte mit einem bekannten Ergebnis. Wir bezeichnen es als „Label“. Im obigen Hausbeispiel ist Price ein Label.

Wenn die Bezeichnung kategorisch ist, wird das Modell als "Klassifizierung" bezeichnet.
Wenn die Bezeichnung numerisch ist, wird das Modell als "Regression" bezeichnet.

Wir können die folgenden Algorithmen für überwachtes Lernen verwenden.

  • Logistische Regression
  • Modell / Ensemble
  • Zeitfolgen

Unbeaufsichtigtes Lernen

Unbeaufsichtigtes Lernen

Nehmen wir noch einmal ein Beispiel für ein Baby, um das unbeaufsichtigte Lernen zu verstehen

Wir haben dem Baby eine Gruppe von Hunden und Katzen gezeigt. Nehmen wir an, das Baby hat vorher noch keine Hunde und Katzen gesehen. Das Baby weiß also nicht, was die Merkmale einer Katze und eines Hundes sind. Daher kann er die Hunde und Katzen nicht als überwachtes Lernbeispiel einstufen. In dem überwachten Lernszenario wusste das Baby, was die Merkmale eines Apfels und was die Merkmale einer Banane sind. Weil wir die Bilder früher gezeigt haben. In diesem Fall weiß das Baby nichts. Es gibt keine Kennzeichnung. So kann das Baby nicht genau einordnen, welche Katze und welche ein Hund ist. Aber wenn man sich das Bild ansieht, kann das Baby feststellen, dass 1,3,5 Tiere auf dem Bild ähnlich und 2,4 Tiere auf dem Bild ähnlich aussehen, aber ich weiß nicht, warum und was sie sind. Es ist nicht möglich, es als Hunde und Katzen zu bezeichnen, aber wir können das Muster trotzdem finden. Das wird als unbeaufsichtigtes Lernen bezeichnet.

In diesem Fall sind die Trainingsdaten ein "Beispiel", aber wir haben keine spezifischen Ergebnisse. In einfachen Worten, mit diesem Lernen ist kein Etikett verbunden. Beim unbeaufsichtigten Lernen versucht die Maschine, interessante Muster in den Daten zu finden.

Schauen wir uns einen Datensatz der Transaktion an

Wir haben Informationen zu Transaktionsdatum, Kundenname, Kontonummer, PIN-Nummer, Klasse, Postleitzahl und Betrag. Bitte beachten Sie, dass wir in diesem Datensatz kein bestimmtes Etikett haben. Zum Beispiel ein Etikett, das angibt, welche dieser Transaktionen Betrugstransaktionen sind und welche nicht. Es ist hier nicht vorhanden.

Welche Art von Mustern wir also in diesem Datensatz ohne Etikett entdecken können. Zur Zeit habe ich nur zwei Muster erwähnt.

  • Clustering
    Suchen Sie nach einem Beispiel, das in der Gruppierung ähnlich ist.

Hier haben wir also zwei Transaktionen, beide werden am Mittwoch durchgeführt, wobei die PIN-Nummer für die Authentifizierung verwendet wird, beide für das Gas und beide Beträge sind weniger als 100 Rupien.

  • Erkennung von Anomalien
    Suchen Sie nach Zeilen, die sehr ungewöhnlich sind.

Hier haben wir also eine Transaktion, die für Kunden Bob ungewöhnlich ist und die PIN-Nummer verwendet.

Das Ziel des unbeaufsichtigten Lernens ist es, Entdeckungen durchzuführen, Muster zu finden usw.

Die verfügbaren Algorithmen für das unbeaufsichtigte Lernen sind

  • Cluster
  • Erkennung von Anomalien
  • Assoziationsentdeckung
  • Trainingsmodelle

Da die Trainingsdaten kein spezifisches „Ergebnis“ haben, können wir die Ausgabe dieses Algorithmus nicht einfach als überwachtes Lernen bewerten. Weil es keine Grundwahrheit gibt, mit der wir vergleichen können.

Aus diesem Grund werden die Daten beim unbeaufsichtigten Lernen nicht gekennzeichnet. Sie kennen also die Datenkategorien nicht, können jedoch die Muster finden. aber bei beaufsichtigtem lernen sind daten beschriftet und sie kennen die kategorie.

Hoffe ihr versteht alle den Unterschied zwischen beaufsichtigtem und unbeaufsichtigtem Lernen :)