Ich sitze vor folgender Aufgabenstellung:
Implementieren Sie folgende Formel in R:
Ein geeignetes aber unbekanntes Dispersionsmaß für Nominaldaten ist der sogenannte relative Informationsgehalt.
Dieser hat einen Wertebereich zwischen 0 und 1. Ein Wert von 0 stellt eine sehr homogene Stichprobe dar. Bei einem Wert von 1 sind die gewählten Antworten überr alle Kategorien gleich verteilt.
Dieser lässt sich mit Hilfe folgender Formel berechnen:
h = -\frac{1}{\ln(k)}*\sum_{j=1}^{k}h_{j}\ln(h_{j})
k stellt dabei die Anzahl der Antwortkategorien und h_{j} die relative Häufigkeit der verschiedenen Antwortkategorien dar. Im Folgenden soll diese Formel in R implementiert werden.
Folgende Funktionen könnten für die Implementierung nützlich sein:
`prop.table()`
`log()`
`sum()`
Die implementierte Formel wird am Ende folgende Struktur haben:
` rel.info = function(x){ `
` hj = prop.table(table(x)) `
` ... `
` return(h)} `
Hat jemand eine Idee wie ich dieses Problem lösen kann? Ich würde mich schon über einen Ansatz freuen, da ich gerade ziemlich ratlos vor der Aufgabe sitze
