class: center, middle, inverse, title-slide # Willkommen zum 2. Teil des Projektkurs Data Science und Business Analytics ### Dr. Alexander Rieber
AlexRieber
alexander.rieber@uni-ulm.de
--- # Mit wem haben Sie es zu tun? ## Ihr Dozent und Übungsleiter .pull-left[ <br><br> **Dozent** Dr. Alexander Rieber <a href="mailto:alexander.rieber@uni-ulm.de"><i class="fa fa-paper-plane fa-fw"></i> alexander.rieber@uni-ulm.de</a><br> Büro: Helmholtzstraße 18, Raum 1.22 ] .pull-right[ <br><br> **Übungsleiter** Julius Düker <a href="mailto:julius.dueker@uni-ulm.de"><i class="fa fa-paper-plane fa-fw"></i> julius.dueker@uni-ulm.de</a> Büro: Helmholtzstraße 18, Raum 1.10 ] --- ## Ihre Tutoren .pull-left[ <br><br> **Tutor** Simon Maier <a href="mailto:simon.maier@uni-ulm.de"><i class="fa fa-paper-plane fa-fw"></i> simon.maier@uni-ulm.de</a> <br><br> **Tutorin** Chiara Schwenke <a href="mailto:chiara.schwenke@uni-ulm.de"><i class="fa fa-paper-plane fa-fw"></i> chiara.schwenke@uni-ulm.de</a> ] .pull-right[ <br><br> **Tutor** Daniel Dreyer <a href="mailto:daniel.dreyer@uni-ulm.de"><i class="fa fa-paper-plane fa-fw"></i> daniel.dreyer@uni-ulm.de</a> <br><br> **Tutor** Kevin Walter <a href="mailto:kevin.walter@uni-ulm.de"><i class="fa fa-paper-plane fa-fw"></i> kevin.walter@uni-ulm.de</a> ] --- class: inverse, center, middle # Vorlesungsdetails --- ## Aufbau der Veranstaltung - Interaktive Vorlesung mit Übungsaufgaben - In den erste 6 Wochen - Mittwochs von 12:15 Uhr - 13:45 Uhr - Freitags von 10:15 Uhr - 11:45 Uhr - [Anonymer Chat](https://quizchat.econ.mathematik.uni-ulm.de/pkds/) in der Veranstaltung (mit Umfragen) - `RTutor` Übungsaufgaben um Inhalte zu vertiefen - Ein gemeinsames Projekt mit dem Dozenten - Zwei selbstständige Projekte - Peer Review der selbstständigen Projekte --- ## Wo finden Sie die Kursmaterialien? .center[.instructions[Unserer Kommunikation mit Ihnen erfolgt über unsere Moodle Seite]] Auf dieser Moodle Seite finden Sie: -- - Vorlesungsplaner per Excel 📆 -- - Vorlesungsfolien 🗒 -- - Lehrvideos 📻 -- - RTutor Problem Sets -> `RTutor` -- - Aufgabenstellungen für die einzelnen Projekte 📖 -- - Forum für Fragen 👨🎓 👩🎓 ⁉️ -- - Zoom Räume für Vorlesung und Tutorien ⌚ -- Bis zum 21. Mai werden Vorlesungen in Form von Zoom Sessions, Lehrvideos, Tutorials und RTutor Problem Sets stattfinden. Weiterhin wird eine Projektarbeit innerhalb der Vorlesung mit ihnen gemeinsam erarbeitet. (Gibt 10% der Endnote) -- .center[.alert[Anschließend gibt es zwei selbstständige Projektarbeiten, welche in die Endnote einfließen werden.]] --- ## Interaktive Vorlesung - Interaktive Vorlesung mit integrierten Übungsaufgaben - Geblockte Vorlesungseinheiten zu Beginn des Semesters - Synchrone Lehre durch Zoom dient der praktischen Anwendung aus den Lehrvideos - **Anders als im letzten Semester** werden diese Vorlesungseinheiten hauptsächlich theoretische Inhalte präsentieren - Case-Study wird in der Einheit zur linearen Regression näher beleuchten - Kausale Efekte werden anhand eines Experiments und eine Instrumentalvariablenschätzung aufgezeigt - RTutor Problem Sets und Tutorials sollen zum "learning-by-doing" anregen - Vorlesungs- und Übungsunterlagen werden zu Beginn der jeweiligen Vorlesungswoche hochgeladen --- class: inverse, middle, center # Was Sie in dieser Vorlesung lernen --- ## Was haben Sie im ersten Teil des Projektkurses gelernt? -- - (Große) Datenmengen einlesen, bearbeiten und aus verschiedenen Datenquellen zusammenführen -- - Mit diversen Problemen rund um die Datenaufbereitung umgehen -- - Zusammenarbeit im Team + Versionierung über Github -- - Regeln zur Erstellung geeigneter Grafiken und Tabellen um ihre Analyse zu untermauern -- - Transparente und reproduzierbare Analysen mit RMarkdown erstellen -- - Selbstständig nach Lösungen für Probleme bei empirischen Problemen zu suchen -- - (Kritische) Bewertung anderer Gruppen über einen Review Report -- .center[.alert[Das letzte Semester war eher technisch (programmierlastig) ausgelegt und auf deskriptive Analysen beschränkt.]] --- ## Was werden Sie im zweiten Teil des Projektkurses lernen? -- - Wahrscheinlichkeitsrechnung (kurz) -- - (Multivariate) Lineare Regression -- - Interpretation von Schätzern -- - Kausale Zusammenhänge aufdecken - In Experimenten - In beobachtbaren Daten -- - Konzept der Kausalität in beobachtbaren Daten mittels directed acyclical graphs (DAG) -- - Instrumentalvariablenschätzung -- .center[.alert[Dieses Semester werden Sie ihre ökonometrischen Kenntnisse vertiefen!]] --- ## Ziele für dieses Semester Nach diesem Semester werden Sie in der Lage sein: -- - Regressionstabellen zu lesen und die jeweiligen Schätzer zu interpretieren -- - Die (statistische) Signifikanz von Schätzern zu beurteilen -- - Hypothesen abzuleiten und eigene Fragenstellungen mittels statistischer Analysen zu beantworten -- - Zu verstehen, wann Sie ihre Ergebnisse kausal interpretieren können --- class: inverse, center, middle # Übungsaufgaben mit `RTutor` --- ## Wie Sie die Vorlesungsinhalte vertiefen - Wöchentliche `RTutor` Problem Sets, welche die Unterrichtseinheit aufgreifen und vertiefen - _Individuelle_ Abgabe der `RTutor` Problem Sets als **Vorleistung** - Insgesamt 3 `RTutor` Problem Sets müssen bearbeitet werden - In jedem `RTutor` Problem Set müssen Sie mind. 80% der Gesamtpunkte erreichen -- Die `RTutor` Problem Sets behandeln vorlesungsbegleitend folgende Inhalte: - Regressionsanalysen in R - Kausalität in Experimenten - Kausalität in beobachtbaren Daten --- class: inverse, center, middle # Teamzusammensetzung --- ## Teamzusammensetzung Im letzten Semester gab es einige Stimmen, die eine andere Gruppenzuteilung angeregt hatten. .instructions[Daher gilt in diesem Semester: Die Teams werden zufällig zusammengestellt!] -- .question[Was benötigen wir hierfür?] - Auf Moodle im Abfragetool angeben, wer in diesem Semester am Projektkurs teilnimmt - Angabe bis spätestens Ende KW 17 - Wir machen eine **zufällige Zuteilung** der Gruppen - **Neu:** Die Gruppen können sich anschließend auf einen Termin für das Tutorium bewerben (mehrere Termine stehen zur Auswahl) -- Voraussetzung zur Teilnahme am 2. Teil des Projektkurses in diesem SoSe: - Erster Teil des Projektkurses im WiSe 20/21 bestanden
05
:
00
--- class: inverse, center, middle # Unterstützungsangebote --- ## Wo bekommen Sie Hilfe? - Auf Moodle gibt es wieder ein Diskussionforum, scheuen Sie sich nicht dort ihre Fragen zu stellen! - Bitte benutzen Sie dieses Forum, bevor Sie eine Mail an den Tutor, Übungsleiter oder Dozent stellen - Wir haben einige Beispiele aufgearbeitet, wie Sie Fragen stellen können, auf die Sie schnell antworten erhalten. [Das Dokument finden Sie hier](https://projektkurs-data-science-ulm2021.netlify.app/tutorials/fragen-im-forum) .alert[Insbesondere während der Vorlesungsphase ist das Moodle Forum sehr wichtig um allgemeine Fragen zu klären!] -- - Es finden parallel zu den Projektarbeiten Tutorien statt, wobei jede Gruppe einen Termin pro Woche **heraussuchen kann** --- ## Tutorium - Ab der 6. Vorlesungswoche gibt es ein vorlesungsbegleitendes Tutorium. - Die Termine werden auf der Homepage bekannt gegeben - Jede Gruppe kann ihren präferierten Termin angeben - Die Tutorien werden wöchentlich über das interaktive Videokonferenztool Zoom in Moodle stattfinden. - Die Tutoren und die Tutorin beantworten auch ihre Fragen auf Moodle - Bitte stellen Sie ihre Fragen im Forum, wenn ihr Problem allgemeiner Natur ist -- .instructions[Das Tutorium soll hauptsächlich dazu dienen Sie bei ihren individuellen Projektausarbeitungen zu unterstützen!] --- class: inverse, center, middle # Mit welchen Daten bekommen _Sie_ es zu tun? --- ## Case-Study: Statistische Analyse der Verschuldung in Deutschland -- .pull-left[ <br><br> In der Case-Study widmen Sie sich der Frage: .alert[Gibt es einen Zusammenhang zwischen den Verschuldung eines Landkreises und dessen Arbeitslosenquote?] **Fokus in diesem Semester:** Statistische Analyse mittels linearer Regression Zur Beantwortung dieser Frage werten Sie u.a. Informationen vom statistischen Bundesamt auf Landkreisebene aus. ] .pull-right[ <br><br> <img src="figs/verschuldung.png" width="110%" style="display: block; margin: auto;" /> ] --- ## Projekt 4: Bildungsrendite -- .pull-left[ <br><br> In diesem Projekt widmen Sie sich der Frage: .alert[Welche Auswirkung hat Bildung auf das spätere Einkommen?] Frage nicht trivial, da es mehrere sogenannte Confounder gibt: - Hintergrund, Motivation, Fähigkeiten - **Lösung:** Verwenden von Instrumentalvariablenschätzern Weiterhin: - Nutzung eines API um auf die amerikanischen ACS Daten zuzugreifen ] .pull-right[ <br><br> <img src="figs/Bildungsrendite.png" width="110%" style="display: block; margin: auto;" /> ] --- ## Projekt 5: Restaurantbewertungen auf Tripadvisor -- .pull-left[ <br><br> In diesem Projekt widmen Sie sich der Frage: .alert[Bewerten ausländige Gäste Restaurants in Deutschland systematisch anders als deutsche Gäste?] - Zur Beantwortung dieser Frage **scrapen Sie selbstständig** die Webseiten von Tripadvisor zu bestimmten Restaurants und werten die Reviews der Restaurantbesucher statistisch aus. ] .pull-right[ <br><br> <img src="figs/Tripadvisor-Seite.png" width="110%" style="display: block; margin: auto;" /> ] --- ## Projekt 6: Effekte höherer Entlohnung -- .pull-left[ <br><br> In diesem Projekt widmen Sie sich der Frage: .alert[Welche Auswirkungen auf Produktivität und Anstrengung hat eine höhere Entlohnung?] Zur Beantwortung dieser Frage werten Sie einen **bereitgestellten Datensatz** aus einem Feldexperiement mit Fahrradkurieren in Zürich aus. ] .pull-right[ <br><br> <img src="figs/Fahrradkuriere.png" width="110%" style="display: block; margin: auto;" /> ] --- ## Was Sie in den Projekten lernen - Analysen auf **echten Daten** -- - Nutzung eines API, Webscraping, Analyse von experimentellen Daten -- - Deskriptive Analysen mittels Grafiken und Tabellen -- - Regressionsanalysen (univariat und multivariat) und Interpretation von Schätzern -- - Kausale Zusammenhänge verstehen und diese aufdecken --- ## Was Sie durch Review Reports lernen - Rekapitulation des Projekts -- - Kritische Auseinandersetzung mit der Arbeit von Mitstudierenden -- - Erkennen was die andere Gruppe gut/schlecht gemacht hat und daraus für ihre eigene Arbeit Erkenntnisse gewinnen -- .instructions[Die Review Reports für jedes Projekt sind _individuelle_ Abgaben!] --- class: inverse, center, middle # Wie setzt sich die Note zusammen? --- ## Notengebung Nach den Vorlesungseinheiten und der Einführung in R gibt es drei Projekte: -- - Erstes Projekt: Zusammen mit dem Dozenten: 10 Punkte = 10% der Note - Nur Basiscode (spezielle für die Grafiken) wird geliefert und Sie sollten diesen optimieren - Interpretation der Regression und Instrumentalvariablenschätzer wird in der Vorlesung ausführlich besprochen -- - Zweites Projekt: 30 Punkte = 30% der Note -- - Drittes Projekt: 30 Punkte = 30% der Note -- - Multiple-Choice Abschlussprüfung: 30 Punkte = 30% der Note -- Es werden immer **Gruppen von drei Personen** geformt, welche die **Projekte zusammen** abgeben. Natürlich dürfen alle Teilnehmer Projekte gerne miteinander diskutieren. Jedoch muss jede Gruppe eine _individuelle Ausarbeitung_ abgeben. Wenn sich die Lösung einzelner Abschnitte der Projektes (oder das komplette Projekt)zu stark ähnelt, wird dies mit 0 Punkten für das Projekt geahndet (für alle beteiligten Gruppen). --- ## Klausur **Vorleistung 1:** Die **RTutor Problem Sets** müssen **individuell** bearbeitet und eingereicht werden um für die Projekte und Klausur zugelassen zu werden - Letztes RTutor Problem Set ist am 16. Mai fällig - Mindestens 80% der Punkte **pro Problem Set** müssen erreicht werden um für die Projekte zugelassen zu werden - Mindestens 30% der Punkte in der Probeklausur in KW 20 -- **Vorleistung 2:** Die **Peer Reviews** müssen **individuell** bearbeitet und eingereicht werden um für die Klausur zugelassen zu werden - Letzter Review Report ist am 27. Juli fällig - Studenten ranken die Review Reports nach Nützlichkeit: - Bei _mindestens_ einem Projekt muss der Review Report _mindestens_ auf Platz 2 gerankt werden. - Wenn alle Reports als "nützlich" eingestuft wurden, entscheidet der Dozent über die Zulassung zu Klausur -- .alert[Die multiple choice Abschlussprüfung beinhaltet Fragen zu den drei Teilprojekten, den Vorlesungsinhalten, der Case-Study und den `RTutor` Problem Sets.] --- ## Teilen von Code - Viel ist im Web verfügbar und darf auch gerne verwendet werden - Wenn Sie Code aus dem Internet verwenden, dann müssen Sie die Quelle entsprechend kennzeichnen! - Falls Sie die Quelle nicht zitieren wird dies als Plagiat gewertet und wird mit einer 5.0 für das gesamte Projekt geahndet - `RTutor` Problem Sets sind selbstständig auszuführen. Code darf nicht mit anderen geteilt werden! -- .instructions[Projekte dürfen innerhalb der Gruppe und auch gerne mit anderen Gruppen diskutiert werden, jedoch **darf kein Code** an andere Gruppen **weitergegeben werden!**] --- ## Notengebung der Projekte - Im zweiten Projekt muss neben der schriftlichen Ausarbeitung (70% der Note für das Projekt) auch ein Screencast (30% der Note für das Projekt) gehalten werden - Der Screencast sollte nicht länger als 5 Minuten gehen -- - Im dritten Projekt muss neben der schriftlichen Ausarbeitung (70% der Note für das Projekt) auch ein Screencast (30% der Note für das Projekt) gehalten werden - Der Screencast sollte nicht länger als 5 Minuten gehen -- .instructions[Bitte bereiten Sie den Screencast frühzeitig vor, er gibt 30% der Note!] --- ## Notenschlüssel Der Notenschlüssel für die Zusammensetzung der Endnote wurde auf Moodle hochgeladen. .alert[Dieser Notenschlüssel ist unsere Referenzgröße, wir behalten uns jedoch vor davon abzuweichen!] --- ## Dokumentation und Coding Standard Sie sollten mit ihren Gruppenpartnern zusammenarbeiten, dafür gilt es einige Prinzipien zu beachten: - Benutzen Sie immer einfache Textdateien um miteinander zusammen zu arbeiten - Dateien, welche Sie miteinander bearbeiten sollten mit einem Texteditor zu lesen sein (Notepad ++ / vim / eclipse ...) - Hier eignet sich das in der Vorlesung vorgestellte RMarkdown bestens - Strukturieren Sie ihren Code (Kommentare) - Begrenzen Sie ihren Code (max. 80 Zeichen pro Zeile) - Rücken Sie einzelne Bausteine ein (Alles was zu einer Funktion gehört sollte mit vier Leerzeichen eingerückt werden) --- ## Zeitmanagement - Definieren Sie Meilensteine - Bis wann muss was von wem erstellt worden sein? -- - Bleiben Sie in Kontakt mit ihrem/ihrer Gruppenpartner/in, bspw. über Github oder Moodle, um über ihren Projektfortschritt zu sprechen -- - Stellen Sie unbedingt Fragen im Forum auf Moodle! - Hier können Fragen oft sehr schnell beantwortet werden und meist haben mehrere Gruppen die gleiche Frage - Wenn Sie die Antwort auf eine Frage wissen, dann scheuen Sie sich nicht diese in Moodle zu posten! -- - Nutzen Sie die Möglichkeit des Tutoriums und sprechen Sie dort Schwierigkeiten direkt an -- - Kommen Sie bei tiefergehenden Fragen frühzeitig auf den Dozenten zu -- - Planen Sie genügend Zeit für die Erstellung und das Halten des Screencast ein - Der Screencast gibt 30% der Projektnote -> Nicht auf die leichte Schulter nehmen! --- ## Vorbereitung bis zur Vorlesung am Freitag - Aktualisieren Sie RTutor! - Nach dem letzten Semester hat Herr Prof. Kranz einige Updates zur Verbesserung von RTutor eingepflegt - Bitte aktualisieren Sie RTutor: > `install.packages("RTutor",repos = c("https://skranz-repo.github.io/drat/",getOption("repos")))` - Sie sollten folgende Version installiert haben: 2020.11.25 (kann mit `sessionInfo()` geprüft werden nachdem das Paket geladen wurde) - **Optional:** Aktualisieren Sie ihr RStudio (Version 1.4) - Hier gibt es nette Features wie den Preview Modus: https://blog.rstudio.com/2021/01/19/announcing-rstudio-1-4/ --- ## Vorbereitung bis zur Vorlesung am Freitag - Schauen Sie sich die Lehrvideos an: - Stichprobe vs. Population - Stichprobenvarianz und Standardfehler - Konfidenzintervall --- ## Github für die Zusammenarbeit .instructions[ Wir werden weiterhin unsere [private Organisation auf Github](https://github.com/pkds20-21) nutzen. ] Falls Sie ihre Git-Kenntnisse auffrischen wollen können Sie jederzeit auf den [Moodle-Kurs des letzten Semesters](https://moodle.uni-ulm.de/course/view.php?id=15914) zugreifen. Die Unterlagen bleiben dort weiterhin für Sie verfügbar! --- class: inverse, center, middle # Recap des 1. Teils der Vorlesung --- ## Recap zu R und dem tidyverse .question[Welche Pakete verwenden Sie um .csv/.dta/.xlsx Dateien einzulesen?] -- .question[Was sagt dieses Symbol `%>%`?] -- .question[Wie führen Sie mehrere Datensätze zusammen?] --- ## Recap zu Github .question[Warum sollte ihr Commit in Github Desktop immer beschrieben werden?] -- .question[Warum sollten Sie häufig committen?] --- ## Recap zur Visualisierung .question[Warum sollte ein Balkendiagramm immer bei Null beginnen? Gilt diese Regel für alle Diagramme?] -- .question[Warum sollten Sie ihre Tabellen nicht als Tibble Output präsentieren?] --- ## Recap der Case-Study .question[Welches Bild ergibt sich für die Verschuldung in Deutschland? Gibt es regionale Unterschiede?] -- .question[Sind diese regionalen Unterschiede auch bei anderen Kenngrößen sichtbar?] --- ## Recap Theoretischer Inhalte .question[Wann können Sie aus einer Stichprobe valide Aussagen zur Grundgesamtheit ziehen?] -- .question[Welchen Effekt hat die Stichprobengröße auf ihre Stichprobenvarianz?]