Anbindung von R an Microsoft HPC

... zu anderer statistischer Software, zu Datenbanken und Programmiersprachen.

Moderatoren: EDi, jogo

Antworten
OriginaleNichtskoenn
Beiträge: 2
Registriert: Mi Jul 22, 2020 6:56 pm

Anbindung von R an Microsoft HPC

Beitrag von OriginaleNichtskoenn »

Ich habe ein ziemlich zeit- und arbeitspeicheraufwendiges R-Skript, das bereits durch Parallelisierung mithilfe des foreach-Packages auf den Kernen meines Laptops beschleunigt wird. Jetzt möchte ich die Laufzeit weiter verbessern durch die Anbindung an Microsoft HPC. Dort habe ich Zugriff auf einige mit ausreichend Arbeitsspeicher ausgestattete Rechenkerne.

Nun frage ich mich, wie kann ich R an Microsoft HPC anbinden, sodass die R-Berechnungen auf den HPC-Kernen parallelisiert werden und nicht weiterhin auf meinem Laptop?

Durch Google habe ich bisher hauptsächlich Infos dazu gefunden, wie man sich mit diversen Universitätsclustern verbinden kann, aber nichts Hilfreiches dazu, wie ich R allgemein an mein eigenes HPC Cluster anbinden kann.

Ich nutze R Version 3.6.0 mit RStudio Version 1.2.1335. Außerdem habe ich Microsoft HPC Pack 2016.

Vielen Dank für eure Hilfe!
Athomas
Beiträge: 768
Registriert: Mo Feb 26, 2018 8:19 pm

Re: Anbindung von R an Microsoft HPC

Beitrag von Athomas »

So, jetzt habe ich eine Anstandsfrist von 24 Stunden verstreichen lassen - weil ich zu Deiner eigentlichen Frage nichts beitragen kann :( und evtl. Kundigen den Vortritt lassen wollte!

Was ich aber sagen kann ist, dass gerade Anfänger (in R, nicht in der Programmierung allgemein!) häufig ungeeignete Hilfsmittel benutzen oder die unter dem Blickwinkel der Performance "richtigen" Mittel falsch einsetzen.

Wenn Du über Deine Anwendungen etwas 'rauslassen würdest, könnten wir darüber reden...
OriginaleNichtskoenn
Beiträge: 2
Registriert: Mi Jul 22, 2020 6:56 pm

Re: Anbindung von R an Microsoft HPC

Beitrag von OriginaleNichtskoenn »

Um meine rechenaufwändige Anwendung zu beschleunigen, teile ich meinen Datensatz in verschiedene Teildatensätze auf. Diese werden mittels einer foreach-Schleife voneinander getrennt parallel auf den Kernen meines Laptops bearbeitet. Diese Parallelisierung möchte ich nun nicht auf den Kernen meines Laptops, sondern auf den leistungsfähigeren Kernen des HPC Clusters durchführen.

Ich hoffe, damit ist klar, was ich erreichen möchte :-)
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Anbindung von R an Microsoft HPC

Beitrag von bigben »

Hi!

Was Du erreichen möchtest ist auf diesem Abstraktionslevel schon klar -- es sieht nur derzeit nicht so aus, als ob Dir jemand hier dabei helfen könnte. Nun gibt es in R tausend Möglichkeiten, Berechnungen ineffizienter oder effizienter zu machen und sehr oft lassen sich mit optimiertem Code viel beachtlichere Geschwindigkeitssteigerungen erreichen als durch eine Vervierfachung der Kerne. Athomas ist sehr gut darin, große Datenmengen in R effizient zu verwalten und ich verstehe das als Angebot, sich mit Deiner Implementierung des Problems detailliert zu befassen und Optimierungspotenzial zu suchen. Natürlich geht das nicht, wenn Du keine Details zu Deinem Code öffentlich machen kannst oder möchtest. Um zu sehen, wo R unnötige Kopien von Daten macht etc. muss man schon schnell auf das Niveau der einzelnen Programmzeile hinunter.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Anbindung von R an Microsoft HPC

Beitrag von EDi »

Ich benutze für sowas batchtools zusammen mit furrr.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Antworten