Auslesen von Links einer Website

DanielAC · Beitrag von **DanielAC** » Mo Aug 31, 2020 7:56 pm

Hallo zusammen,

ich würde gern eine Liste mit Links auf einer bestimmten Webseite erstellen (https://www.adac.de/rund-ums-fahrzeug/a ... lle/abarth)

Mir ist das auch schonmal gelungen, aber im Moment läuft R auf einen Fehler, den ich nicht verstehe.

Mein Code dazu:

Code: Alles auswählen


library(gdata)
library("readxl")
library(stringr)
library(rvest)

scraplinks <- function(url){
  # Create an html document from the url
  webpage <- xml2::read_html(url)
  # Extract the URLs
  url_ <- webpage %>%
    rvest::html_nodes("a") %>%
    rvest::html_attr("href")
  # Extract the link text
  link_ <- webpage %>%
    rvest::html_nodes("a") %>%
    rvest::html_text()
  return(data.frame(url = url_))
}

test<-scraplinks("https://www.adac.de/rund-ums-fahrzeug/autokatalog/marken-modelle/abarth")

Der Fehler ist dann "Fehler in read_xml.raw(raw, encoding = encoding, base_url = base_url, as_html = as_html, :
Failed to parse text "
Früher lief das Programm problemlos durch. Bei anderen Seiten klappt das auch normalerweise problemlos. Da ich von XML nicht viel Ahnung habe, verstehe ich nicht so richtig, was ich jetzt tun kann. Google konnte mir auch nicht weiterhelfen.

Testweise habe ich mal versucht, mit Python die Links auslesen zu lassen (über BeautifulSoup). Das hat spannenderweise geklappt. Aber ich bin in Python nicht wirklich fit.

Hat jemand einen Tipp für mich?

Danke im Voraus und VG
Daniel