In der täglichen Arbeit begegnen uns Daten nicht immer in Tabellenform. Wenn wir an die vorhergehenden Projekte denken, so konnten wir die benötigten Daten auf der jeweiligen Webseite oder eines API, mittels eines Download-Buttons herunterladen. Doch auf vielen Webseiten steht ein solcher Download-Button nicht zur Verfügung. Die Informationen sind in der HTML der Webseite eingebettet und nur von dort verfügbar. Um solche Informationen zu analysieren müssen wir diese zuerst in ein für uns geeignetes Format bringen. Hier hilft uns das sogenannte web scraping weiter, welches in R durch rvest implementiert werden kann.

Der Terminus web scraping wird oft verwendet um den Download von Daten eine Webseite zu beschreiben. Dies ist möglich, da der Computercode, welcher in hyper text markup language (HTML) geschrieben wurde, vom Browser als Text empfangen und entsprechend gerendert wird. Um sich den HTML-Code einer Website anzeigen zu lassen können Sie auf der jeweiligen Website die rechte Maustaste drücken und dann auf Seitenquelltext anzeigen ( View Source ) gehen.

Wenn wir uns HTML-Code anschauen, dann scheint es eher mühsam zu sein die jeweiligen Informationen herunterzuladen und in Tabellenform zu bringen. Jedoch bietet R einige Pakete um den Prozess deutlich zu vereinfachen. Für einen ersten Einblick, wie HTML-Code aussehen könnte, zeigen wir ihnen hier einen Ausschnitt der Seite www.imdb.com mit den besten 250 Filmen. Im Laufe dieses Tutoriums lernen Sie, wie Sie diese Informationen der HTML automatisiert entnehmen.

      <table class="chart full-width" data-caller-name="chart-top250movie">
        <colgroup>
          <col class="chartTableColumnPoster"/>
          <col class="chartTableColumnTitle"/>
          <col class="chartTableColumnIMDbRating"/>
          <col class="chartTableColumnYourRating"/>
          <col class="chartTableColumnWatchlistRibbon"/>
        </colgroup>
        <thead>
        <tr>
          <th></th>
          <th>Rank &amp; Title</th>
          <th>IMDb Rating</th>
          <th>Your Rating</th>
          <th></th>
        </tr>
        </thead>
        <tbody class="lister-list">

  <tr>
    <td class="posterColumn">

    <span name="rk" data-value="1"></span>
    <span name="ir" data-value="9.216784978442458"></span>
    <span name="us" data-value="7.791552E11"></span>
    <span name="nv" data-value="1967223"></span>
    <span name="ur" data-value="-1.7832150215575417"></span>
<a href="/title/tt0111161/?pf_rd_m=A2FGELUUNOQJNL&pf_rd_p=e31d89dd-322d-4646-8962-327b42fe94b1&pf_rd_r=X25RJR4TAEAZG9P04HNC&pf_rd_s=center-1&pf_rd_t=15506&pf_rd_i=top&ref_=chttp_tt_1"
> <img src="https://m.media-amazon.com/images/M/MV5BMDFkYTc0MGEtZmNhMC00ZDIzLWFmNTEtODM1ZmRlYWMwMWFmXkEyXkFqcGdeQXVyMTMxODk2OTU@._V1_UY67_CR0,0,45,67_AL_.jpg" width="45" height="67"/>
</a>    </td>
    <td class="titleColumn">
      1.
      <a href="/title/tt0111161/?pf_rd_m=A2FGELUUNOQJNL&pf_rd_p=e31d89dd-322d-4646-8962-327b42fe94b1&pf_rd_r=X25RJR4TAEAZG9P04HNC&pf_rd_s=center-1&pf_rd_t=15506&pf_rd_i=top&ref_=chttp_tt_1"
title="Frank Darabont (dir.), Tim Robbins, Morgan Freeman" >Die Verurteilten</a>
        <span class="secondaryInfo">(1994)</span>
    </td>
    <td class="ratingColumn imdbRating">
            <strong title="9,2 based on 1.967.223 user ratings">9,2</strong>
    </td>
    <td class="ratingColumn">
    <div class="seen-widget seen-widget-tt0111161 pending" data-titleid="tt0111161">
        <div class="boundary">
            <div class="popover">
<span class="delete">&nbsp;</span><ol><li>1<li>2<li>3<li>4<li>5<li>6<li>7<li>8<li>9<li>10</ol>            </div>
        </div>
        <div class="inline">
            <div class="pending"></div>
            <div class="unseeable">NOT YET RELEASED</div>
            <div class="unseen"> </div>
            <div class="rating"></div>
            <div class="seen">Seen</div>
        </div>
    </div>
    </td>
    <td class="watchlistColumn">
        <div class="wlb_ribbon" data-tconst="tt0111161" data-recordmetrics="true"></div>
    </td>
  </tr>

Hier sehen Sie die Daten direkt! Der Ausschnitt zeigt, dass der Film “Die Verurteilten” mit 9,2 Punkten (basierend auf 1 967 223 Bewertungen) laut imdb.com der beste Film aller Zeiten ist. In der HTML finden Sie weiterhin die Hauptdarsteller und das Jahr der Veröffentlichung.

Mittels HTML Tags und CSS können Sie diese Informationen auch aus der HTML extrahieren. Hierzu im Laufe des Tutorials mehr. Wenn Sie sich überlegen zukünftig im Bereich der Datenanalyse zu arbeiten, so ist es immer vorteilhaft etwas über HTML und CSS zu wissen. Dies verbessert ihre web scraping Fähigkeiten und natürlich auch ihre Fähigkeit eigene Webseiten zu gestalten. Tutorials zu HTML und CSS finden sie beispielsweise auf code academy und WWW3 school

Das Paket rvest

Innerhalb von tidyverse gibt es das Paket rvest, mit welchem Sie web scraping in einer ihnen bekannte Syntax durchführen können. Zuerst importieren Sie die gewünschte Seite in R. Hierfür nutzen Sie den Befehl read_html:

library(tidyverse)
library(rvest)
url <- "https://www.imdb.com/chart/top"
imdb250 <- read_html(url)

Nun ist die komplette Website von imdb mit den 250 besten Filmen in imdb250 gespeichert. Die Klasse von imdb250 ist:

class(imdb250)
## [1] "xml_document" "xml_node"

Das rvest Paket ist sehr allgemein gehalten und kann XML Dokumente handhaben. Eine XML Datei ist in einer allgemeinen Markup Sprache geschrieben (daher ML) und kann zur Repräsentation jeglicher Daten dienen. HTML Dateien sind eine Sonderform von XML Dateien um Webseiten darzustellen.

Unser Ziel ist es nun, die Informationen aus der imdb Seite über Ranking, Rating, Anzahl der Stimmen etc. zu extrahieren. Wenn wir uns imdb250 ausgeben lassen, so sind wir diesem Ziel noch nicht näher gekommen, außer das die HTML nun als R Objekt verfügbar ist:

imdb250
## {html_document}
## <html xmlns:og="http://ogp.me/ns#" xmlns:fb="http://www.facebook.com/2008/fbml">
## [1] <head>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8 ...
## [2] <body id="styleguide-v2" class="fixed">\n            <img height="1" widt ...

Denken wir zurück an unseren HTML Ausschnitt von oben. In diesem wird deutlich, dass unsere Informationen sich in einer HTML Tabelle befinden. Zu sehen ist dies an der Code-Zeile <table class="chart full-width" data-caller-name="chart-top250movie">. Die einzelnen Teile einer HTML, welche oft mit einem sprechenden Text zwischen < und > definiert sind, werden als Nodes bezeichnet. Mit dem Paket rvest können wir die Nodes einer HTML extrahieren: html_nodes liest hierbei alle Nodes mit der entsprechenden Definition aus und html_node nur die erste Node. Beispielsweise können wir die Tabelle mit den 250 besten Filmen mit folgendem Befehl in der Variable table speichern:

table <- imdb250 %>% 
  html_node("table")

table
## {html_node}
## <table class="chart full-width" data-caller-name="chart-top250movie">
## [1] <colgroup>\n<col class="chartTableColumnPoster">\n<col class="chartTableC ...
## [2] <thead><tr>\n<th></th>\n          <th>Rank &amp; Title</th>\n          <t ...
## [3] <tbody class="lister-list">\n<tr>\n<td class="posterColumn">\n\n    <span ...

Allerdings sieht diese Tabelle immer noch sehr stark nach HTML aus und weniger nach einem für uns zu bearbeitenden Data Frame. Mittels rvest können wir das jedoch schnell beheben und aus der HTML Tabelle einen Data Frame machen, hierzu nutzen wir die Funktion html_table:

table <- table %>% 
  html_table()

class(table)
## [1] "tbl_df"     "tbl"        "data.frame"
nrow(table)
## [1] 250

Nun sind wir unserem Wunschergebnis schon sehr viel näher:

head(table)
## # A tibble: 6 x 5
##   ``    `Rank & Title`          `IMDb Rating` `Your Rating`                ``   
##   <lgl> <chr>                           <dbl> <chr>                        <lgl>
## 1 NA    "1.\n      Die Verurte…           9.2 "12345678910\n        \n   … NA   
## 2 NA    "2.\n      Der Pate\n …           9.1 "12345678910\n        \n   … NA   
## 3 NA    "3.\n      Der Pate 2\…           9   "12345678910\n        \n   … NA   
## 4 NA    "4.\n      The Dark Kn…           9   "12345678910\n        \n   … NA   
## 5 NA    "5.\n      Die zwölf G…           8.9 "12345678910\n        \n   … NA   
## 6 NA    "6.\n      Schindlers …           8.9 "12345678910\n        \n   … NA

Hier müssten wir immer noch ein paar Dinge umgestalten, wie z.B. die newline ( “” ) entfernen, um zu einem wirklich zufriedenstellenden Ergebnis zu gelangen. Jedoch gibt es bessere und allgemeineren Vorgehensweisen um Informationen aus HTML Seiten zu extrahieren. Hierfür widmen wir uns im nächsten Abschnitt CSS-Selektoren.

CSS-Selectoren

Webseiten, welche ausschließlich mit grundständigem HTML programmiert sind, wirken recht unattraktiv. Um eine ansprechende Webseite zu gestalten greifen die meisten Webmaster auf CSS zurück. Durch CSS können Sie beispielsweise alle Seiten eines Unternehmens einheitlich gestalten, indem sie auf eine einheitliche CSS Datei zurückgreifen. Grundsätzlich können Sie mit CSS das Aussehen jedes Elements einer Webseite bestimmen. Hierunter fallen unter anderem der Titel, Überschriften, Listen, Tabellen und Links, wobei jedes Element seine eigene Schrift, Farbe, Größe etc. erhalten kann. Um die einzelnen Anpassungen zu machen nutzt CSS so genannte Selektoren. Beispielsweise wäre table ein solcher Selektor, welchen wir zuvor verwendet haben.

Wenn wir nun Daten aus einer Webseite herunterladen und wir kennen eben diese Selektoren, so können wir die Informationen direkt mit html_nodes herunterladen. Leider ist es nicht immer einfach herauszufinden, welcher Selektor für welches Element maßgeblich ist. Glücklicherweise gibt es SelectorGadget welches Sie als Lesezeichen zu ihrem Browser hinzufügen können. Bitte schauen Sie sich den Screencast auf www.selectorgadget.com an um einen Einblick in Selectorgadget zu erhalten. Weiterhin erhalten Sie hier eine Einführung in SelectorGadget

Mit SelectorGadget können Sie interaktiv jeden CSS Selektor bestimmen welchen Sie ansteuern möchten. Somit können Sie spezifische Inhalte einer Webseite genau ansteuern und herunterladen. Wenn Sie mit SelectorGadget auf ein Element einer Webseite klicken werden alle mit diesem CSS Selektor zusammenhängenden Objekte entsprechend gelb markiert.

Um die Möglichkeiten von CSS Selektoren etwas besser zu veranschaulichen wollen wir uns wieder imdb.com zuwenden. Im weiteren Verlauf des Tutorials wollen wir Daten zu allen Filme, welche 2018 auf den Markt gekommen sind, herunterladen und analysieren.

Hierzu suchen wir zuerst auf www.imdb.com nach den entsprechenden Filmen um die url herauszufinden Der Link in dem unteren Chunk enthält die url unserer Suche.

imdb2018 <- read_html("https://www.imdb.com/search/title?count=100&release_date=2018,2018")

Schauen wir uns diesen Link etwas genauer an:

  • count: Anzahl der Filme die auf einer Seite gezeigt werden, hier 100
  • release_date: Jahr in dem der Film gedreht wurde (wird als [von,bis] angegeben, d.h. im gesamten Jahr 2018)

Im Folgenden möchten wir uns nun folgende Informationen über den jeweiligen Film genauer anschauen: - Popularität - Titel - Rating - Dauer - Genre - Anzahl der Stimmen

#Sortierung nach Popularität
popul <- imdb2018 %>% 
  html_nodes(".text-primary") %>% 
  html_text() %>% 
  as.numeric()

#Titel
titel <- imdb2018 %>% 
  html_nodes(".lister-item-header a") %>% 
  html_text()

#Rating
rating <- imdb2018 %>% 
  html_nodes(".ratings-imdb-rating strong") %>% 
  html_text() %>% 
  as.numeric()

#Dauer
dauer <- imdb2018 %>% 
  html_nodes(".text-muted .runtime") %>% 
  html_text() %>% 
  str_replace(" min", "") %>% 
  as.numeric()

#Genre (immer das erste Genre als Klassifikation)
genre <- imdb2018 %>% 
  html_nodes(".genre") %>% 
  html_text() %>% 
  str_replace("\n", "") %>% 
  str_replace(" ", "") %>% 
  str_replace(",.*", "") %>% 
  str_trim() %>% 
  as.factor()

#Anzahl an Stimmen
stimmen <- imdb2018 %>% 
  html_nodes(".sort-num_votes-visible span:nth-child(2)") %>% 
  html_text() %>% 
  str_replace(",", "") %>% 
  as.numeric()

Teilweise sind die Selektoren recht komplex und wir bekommen auch nicht immer 100%-ig saubere Werte zurückgeliefert, sondern müssen diese nachträglich bearbeiten. Dies geschieht mit dem Paket stringr, welches Teil des tidyverse ist, insbesondere der Funktion str_replace um bspw. Ersetzungen vorzunehmen. Doch es wird auch deutlich, dass wir durch CSS-Selektoren direkt auf einzelnen Elemente zugreifen können und dadurch deutlich mehr Flexibilität als mit reinen HTML Befehlen haben.

Auf dieser Grundlage können wir ein Data Frame erstellen, welcher alle geforderten Informationen beinhaltet:

Filme2018 <- tibble(popul,titel, rating, dauer, genre, stimmen)
Filme2018
## # A tibble: 100 x 6
##    popul titel               rating dauer genre  stimmen
##    <dbl> <chr>                <dbl> <dbl> <fct>    <dbl>
##  1     1 The Kominsky Method    8.2    30 Comedy   27138
##  2     2 A Quiet Place          7.5    90 Drama   426138
##  3     3 9-1-1: Notruf L.A.     7.7    43 Action   24006
##  4     4 The Rookie             8      43 Comedy   23231
##  5     5 Yellowstone            8.6    60 Drama    36799
##  6     6 New Amsterdam          8.1    43 Drama    25455
##  7     7 Innocent               7.4    45 Crime     3084
##  8     8 Cobra Kai              8.6    30 Action  118685
##  9     9 Mr Inbetween           8.4    30 Crime     6636
## 10    10 FBI                    6.8    60 Action   11378
## # … with 90 more rows

Dadurch, dass alle Seitenelemente dem gleichen Schema folgen, könnten wir für die obere Abfrage auch eine Funktion schreiben.

Diese Funktion können wir anschließend auf die 2. Seite anwenden (und auf alle weiteren):

get_imdb2018 <- function(url){
  imdb <- read_html(url)
  popul <- imdb %>% html_nodes(".text-primary") %>% html_text() %>% as.numeric()
  titel <- imdb %>% html_nodes(".lister-item-header a") %>% html_text()
  rating <- imdb %>% html_nodes(".ratings-imdb-rating strong") %>% html_text() %>% as.numeric()
  dauer <- imdb %>% html_nodes(".text-muted .runtime") %>% html_text() %>% str_replace(" min", "") %>% as.numeric()
  genre <- imdb %>% html_nodes(".genre") %>% html_text() %>% str_replace("\n", "") %>% str_replace(" ", "") %>% 
    str_replace(",.*", "") %>% as.factor()
  stimmen <- imdb %>% html_nodes(".sort-num_votes-visible span:nth-child(2)") %>% html_text() %>% str_replace(",", "") %>% 
    as.numeric()
  tibble(popul,titel, rating, dauer, genre, stimmen)
}
Filme2018_2 <- get_imdb2018("https://www.imdb.com/search/title?count=100&release_date=2018,2018&start=101")

Erkennen Sie, was sich an der url geändert hat?

Richtig! In der url steht nun ein “start=101”, was heißt, dass die 100 Filme, die auf dieser Seite gezeigt werden bei Film 101 im Ranking beginnen. Sie sollten in den urls immer auf derartige Details achten, wenn Sie mehrere Seiten scrapen möchten!

Die Informationen zu den Top 100 Filmen in 2018, welche wir uns heruntergeladen haben, können wir nun auch analysieren. Beispielsweise wäre interessant zu wissen, welche Filme in 2017 die meisten Stimmen mit dem höchsten Rating erhalten haben. Dies getrennt nach Genre und Dauer des Films:

options(scipen = 999)

#which genre has the highest votes
ggplot(Filme2018,aes(x=dauer,y=rating)) + 
  geom_point(aes(size=stimmen,col=genre)) +
  theme_minimal() +
  labs(title = "Welches Genre hat das höchste ImdB Rating?",
       x = "Dauer (in Minuten)",
       y = "Rating")

Zur Übung könnten Sie sich auch noch die nächsten 100 Filme genauer anschauen (diese haben Sie in dem Tutorial nämlich auch eingelesen).

Wenn Sie sich vertieft mit web scraping beschäftigen wollen so können Sie sich insbesondere noch die Funktionen html_form, set_values, und submit_form anschauen. Jedoch gehen diese Funktionen für eine Einführung in das web scraping etwas zu weit.

Seien Sie nett im Internet

Angenommen Sie möchten nun nicht nur zwei Seiten von IMDb auswerten, sondern alle Filme, die aus dem Jahr 2018 bei IMDb hinterlegt sind (insgesamt 380 682 Filme). Insbesondere wenn Sie größere Datenmengen aus dem Internet analysieren möchten sollten Sie sich darüber im Klaren sein, dass jede ihrer Anfragen auf dem Server des Betreibers landet und dort zu Traffic führt.

Daraus ergeben sich für Sie einige Verhaltensregeln beim web scraping:

  1. Sie sollten die robots.txt Datei respektieren. Wenn in dieser steht, dass Sie einzelne Elemente der Webseite nicht herunterladen dürfen, dann sollten Sie das auch nicht tun.
    • Die robots.txt Datei finden Sie indem Sie an die jeweilige url “robots.txt” anhängen.
    • Beispielsweise finden Sie die “robots.txt” Datei von IMDb hier: “https://www.imdb.com/robots.txt
  2. Seien Sie nett, Sie sollten die Webseite, die Sie scrapen wollen nicht überlasten
    • D.h. wenn Sie mehrere Webseiten herunterladen, dann sollten Sie zwischen den einzelnen Aufrufen immer einige Sekunden Pause einlegen
    • Dies können Sie in R durch “Sys.sleep(x)” erreichen, wobei “x” die Anzahl an Sekunden darstellt, die das System pausiert
    • Sie sollten i.d.R. zwischen zwei Seitenaufrufen rund 5 Sekunden Pause lassen, hier ein Beispiel für eine zufällige Pause von 5-10 Sekunden:
#Durch diese Funktion ruht das System zufällig zwischen 5-10 Sekunden
Sys.sleep(sample(5:10),1)
  1. Laden Sie ihre Daten immer herunter und speichern diese lokal ab um für eine spätere Analyse nicht noch einmal die Webseite aufrufen zu müssen!
    • Diese Regel ist nicht nur im Sinne des Systemadmins der Webseite, sondern auch in ihrem Interesse um ihre Analyse reproduzierbar zu gestalten
    • Um eine Datei herunterzuladen können Sie z.B. “download.file()” verwenden:
#Durch diese Funktion laden Sie die Zielseite lokal auf ihren PC
download.file("https://www.imdb.com/search/title?count=100&release_date=2018,2018", "IMDB_2018_Movies.html")

einlesen <- read_html("IMDB_2018_Movies.html")
