Erkennen von Instagram-Schleichwerbung mit Hilfe von R

Methoden des maschinellen Lernens

Moderator: consuli

consuli
Beiträge: 329
Registriert: Mo Okt 10, 2016 8:18 pm

Re: Erkennen von Instagram-Schleichwerbung mit Hilfe von R

Beitrag von consuli » Do Mai 31, 2018 7:05 pm

bnjmn_j hat geschrieben:
Do Mai 31, 2018 3:47 pm

Code: Alles auswählen

Error in qr.default(X) : too large a matrix for LINPACK
Leider ist wohl der Datensatz zu groß? Habt ihr vielleicht einen Ratschlag wie man das lösen könnte?
biglm:bigglm() ?

Consuli
Thanks to Steven for bringing up the best explanation for the existence and the origin of the universe, though. Especially for been a lighthouse of will-power still shining on, not only for disabled people, but any (beautiful minded) person.

Athomas
Beiträge: 41
Registriert: Mo Feb 26, 2018 8:19 pm

Re: Erkennen von Instagram-Schleichwerbung mit Hilfe von R

Beitrag von Athomas » Sa Jun 02, 2018 11:06 am

Wenn man bereits ordentliche R-Vorkenntnisse und Basiswissen in Bezug auf Machine Learning hat, kann ich das Päckchen "h2o" (R Interface to H2O) empfehlen. (Auch) H2O arbeitet in-memory, sodass Du bei zu wenig RAM Probleme bekommen kannst. Aber im Gegensatz zu einigen R-Packages ist H2O von vornherein für fette Datensätze ausgelegt und entsprechend sparsam...

Für H2O existiert eine recht detaillierte Beschreibung: http://docs.h2o.ai/?_ga=2.3654448.14068 ... 1524227214

P.S.: Noch ein Hinweis zu Deinem konkreten Problem: wenn ich die Zeilen
$ caption : chr "throwback summer 08 #tb ...
und
demo_model <- multinom(output~caption+comments+likes, data=combinedData)
richtig interpretiere, ist "caption" die Bildbeschreibung des Users, eine Textvariable, die wahrscheinlich nur selten doppelt auftritt. Wenn Du die "roh" als Prognosevariable einsetzt - also mit ca. 100.000 Ausprägungen - sollte es nicht verwundern, dass die entstehenden Modellmatrizen groß werden :shock: !

bnjmn_j
Beiträge: 6
Registriert: Mi Mai 23, 2018 12:20 pm

Re: Erkennen von Instagram-Schleichwerbung mit Hilfe von R

Beitrag von bnjmn_j » Sa Jun 16, 2018 11:42 am

Hallo zusammen,

wollte euch ein kurzes Update geben.
Habe mittels dem Paket "RTextTools" recht gute Ergebnisse erzielt.
Das Paket bietet verschiedene Algorithmen zur Textklassifizierung und sogar Ensemble Learning. Man kann also mehrere Algorithmen im Model verwenden und dadurch die Treffergenauigkeit der Ergebnisse erhöhen. Ich habe anfangs nur mit einer Support Vector Machine gearbeitet und anschließend noch Maximum Entropy hinzugefügt.

Mit diesem Modell konnte ich ausschließlich anhand der Bildbeschreibung der jeweiligen Beiträge mehrere 100 Beiträge, die eindeutig der Kategorie Schleichwerbung zuzuordnen sind, aus meiner zufälligen Stichprobe (n=30.000) filtern.
Trainiert wurde das Modell mit der zuvor künstlich erstellten Schleichwerbung. Dazu habe ich die Beiträge die ich vorher anhand einiger Keywords (ad, sponsored, Werbung, etc.) gefiltert habe dupliziert und die Keywords aus der Bildbeschreibung gelöscht. Bin echt begeistert wie gut das funktioniert hat und dass es selbst für Anfänger wie mich relativ einfach umzusetzen war.

Falls jemand ähnliches probieren will, kann ich das Paket nur empfehlen!

Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast