Qualität von Paketen (CRAN)

MrBeen · Beitrag von **MrBeen** » Mo Okt 21, 2019 2:38 pm

Hallo Liebe Community,

mich würde mal interessieren, ob es ein Qualitäts-Test von Paketen in Cran existieren, bzw inwiefern diese beim "Hochladen" überprüft werden.

Also könnte man Paketen aus Cran "blind" vertrauen (zB. für ökonometrische Anwendungen, masch. Lernen etc.) oder gibt es eine Prüfungsnachweis, inwiefern diese den Standards entsprechen?

LG
Pavel

Beitrag von **bigben** » Mo Okt 21, 2019 3:38 pm

Hallo Pavel,

ja, die gibt es und nein, die gibt es nicht. Auf CRAN hochgeladene Pakete werden automatisiert auf technische Konsistenz, technische Widersprüche und Syntaxauffälligkeiten durchgeklopft, dass es manchmal keine Freude ist. Inhaltliche Kontrollen auf Richtigkeit der angewendeten Verfahren, Angemessenheit von Empfehlungen in den Vignetten oder Alltagsrelevanz des Gebotenen gibt es nicht.
In der Folge kannst Du bei einem CRAN Paket nach dem Herunterladen erwarten, dass es läuft, dass es zu den Funktionen Hilfeseiten gibt, dass die Emailadresse eines Ansprechpartners hinterlegt ist, der "Richtigkeit" der Rechnungen vertrauen darfst Du nicht automatisch. Wer sollte bei freier Software auch die Verantwortung dafür übernehmen?

Beiträge im R-Journal durchlaufen ein Review-Verfahren: https://journal.r-project.org/reviews-etc.html
Die CRAN Task Views enthalten nach Themen sortierte Packages, die ein Task View Maintainer empfiehlt: https://cran.r-project.org/web/views/

Aber Garantien gibt es keine.

HTH,
Bernhard

Beitrag von **EDi** » Mo Okt 21, 2019 11:34 pm

Hier mal ein Beispiel an dem ich selbst mitgearbeitet habe: vegan

Laut google scholar < 17.000 zitiert: https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=vegan+oksanen&btnG=

Jedes Package muss die Checks auf allen 12 getesteten system passieren: https://cran.r-project.org/web/checks/check_results_vegan.html
Das wird bei jedem update des packages und auch regelmäßig dazwischen durchlaufen.

Hier ein Beispiel für solaris:
https://www.r-project.org/nosvn/R.check/r-patched-solaris-x86/vegan-00check.html

Eine grobe auflistung was durch CRAN getestet wird findest du hier: http://r-pkgs.had.co.nz/check.html

CRAN macht nur ein technisches testem und gewährt so hohe Qualitätstandards.
Für das fachliche testen ist jeder entwickler selbst verantworlich das mit unit tests zu machen (auch ein Punkt im automatischen CRAN testen: "checking tests ..." ).

In vegan testen wir gegen vordefinierte Ergebnisse, man kann das aber auch automatiserein und die % getester Zeilen aufgeben (z.B. hier: https://codecov.io/gh/tidyverse/dplyr?branch=master).
Das ist aber wie gesagt Entwickler abhängig.
Du kannst auch deinen eigenen Tests einbauen falls nötig (z.b. für GLP validierung).

Alles was nicht auf CRAN ist würde ich eher mit vorsicht genießen (außer der author ist bekannt, standards wie automatisches testen & unit tests sind da).

Hufeisen · Beitrag von **Hufeisen** » Di Okt 22, 2019 9:15 am

Ich habe einen Bekannten, der macht inzwischen die Finanzmathematik für die Sparkassen. Modelle für die Assetbewertung und so was. Seine Aufgabe ist es unter anderem, alle verwendeten Funktionen aus Paketen einmal händisch in R gegen zu rechnen, um zu gucken, ob das Ergebnis stimmt.

Beitrag von **bigben** » Di Okt 22, 2019 10:27 am

Eine Anfrage wie diese steht ja nicht im luftleeren Raum. Hinter dem Zweifel am Multi-Autor-Open-Source-System steckt ja irgendwie immer der Glaube, eine große Firma wie IBM oder SAS wäre inherent glaubwürdiger. Soviel glaubwürdiger, dass man deren versteckten Code mehr glauben sollte als dem offenen Code von R. Oder deren Paketen.

Vielleicht hilft hier fortune(302):

Kevin Wright: Doug already mentioned the limitations of open source optimization code. Open
source has benefits, but simply being open doesn’t necessarily mean better.
Joshua Wiley: Actually, a series of studies I have conducted including theoretical proofs and
empirical evidence proves open source to be unequivocally better. If you are interested, you can
pay me to use the assertion, but the supporting details are restricted so you must accept that
my internal checks and quality control are sufficient and the findings are correct and accurate.
Details follow.
License and Use of I. Ben Fooled’s findings:
"Open source is unequivocally better" is $10 for personal use or $20 for each public use of the
assertion. It is also possible to get a yearly license, but note that this does not include updates.
Support is extra. If you wish to use the assertions on a multicore system, there is an additional
$5 per core per assertion fee. A student version is available for pedagogical purposes only: “pn
src s nqvcll bttr". If you need more than 20 letters, please upgrade to the full version.
This is the best thing since bread, but don’t take my word for it. Here are some trite testimonials
putatively from customers:
"Using I. Ben Fooled’s assertion has really revolutionized my work. I love it. I use it every day" ~
Jane, Data Expert
"I lost 130 lbs on this system", ‘wait, this isn’t a weightloss testimonial? Sorry!’ “My work is easily
twice as efficient since I switched to I. Ben Fooled’s product." ~ John, Entrepeneur
—Kevin Wright and Joshua Wiley
R-SIG-Mixed-Models (October 2011)

Beitrag von **EDi** » Di Okt 22, 2019 5:38 pm

teckt ja irgendwie immer der Glaube, eine große Firma wie IBM oder SAS wäre inherent glaubwürdiger.

Genau, man hat zahlt ja einen zwei bis dreistelligen Betrag monatlich für die Lizenz, dann muss es ja gut sein...
Zumindest kann man den Premium Support anrufen...

Ein Trugschluss meiner Meinung nach

a) man findet die bugs seltener (weil closed source)
b) es dauert länger bugs zu fixen (weil closed source)
c) es haben nicht unbeding mehr Augen drauf geschaut (weil closed source)

Es gibt schechte R Pakete da draussen, keine Frage. Aber es gibt auch Pakete deren Qualität top notch ist.
Bedenklich finde ich immer, wenn man gegen closed source Programme validieren soll/muss - ich bevorzuge da dann lieber papier und Bleistift...

Beitrag von **bigben** » Di Okt 22, 2019 6:49 pm

In den späten 80ern hat mein Cousin ein Computerprogamm für Arztpraxen geschrieben und vertrieben und dabei erfolgreich unter anderem gegen Siemens konkurriert. Wie kann eine Firma, die komplett im Keller eines Ein-Familien-Hauses betrieben wird und deren Chef "nebenher" noch eine Arztpraxis betreibt, gegen Siemens konkurrieren? Seine Antwort damals: Auch wenn Siemens ein riesiges Unternehmen ist, dann sitzen an so einer kleinen Spezialsoftware bei Siemens trotzdem nicht viel mehr Programmierer daran als bei mir.

Man darf vermuten, dass IBM für seine allerbesten Programmierer wichtigere Aufgaben findet als die SPSS-Weiterentwicklung. Nun ist es aber so, dass es R Pakete für nahezu jede Nischenaufgabe gibt, für die es nicht unbedingt auch eine SPSS Lösung gibt. Diese Nischenpakete werden auch in R von wenigen Leuten heruntergeladen und beurteilt und dann wird es auf CRAN das eine oder andere fehlerhafte Paket geben, wo es in SPSS eben keine Fertiglösung gibt. Ob dann die Chance auf eine vorhandene Lösung das Risiko der Fehlerhaftigkeit ausgleicht, das muss jeder Anwender für sich selbst entscheiden. Grundsätzlich hat der OP schon recht: CRAN sammelt -anders als Amazon- keine Nutzerbewertungen und veröffentlicht keine Sternchen.

LG,
Bernhard

Deutsches R-Forum

Qualität von Paketen (CRAN)

Qualität von Paketen (CRAN)

Re: Qualität von Paketen (CRAN)

Re: Qualität von Paketen (CRAN)

Re: Qualität von Paketen (CRAN)

Re: Qualität von Paketen (CRAN)

Re: Qualität von Paketen (CRAN)

Re: Qualität von Paketen (CRAN)