Berliner Open Data-Statistiken
Analyse der Zugriffszahlen des Open Data-Portals
Im Juni hat Berlin Online aktuelle Zugriffsstatistiken zum Open Data-Portal der Hauptstadt veröffentlicht. Da wir im Rahmen von ODIS die Weiterentwicklung des Berliner Datenangebotes strategisch unterstützen, haben wir diese Zahlen einer ausführlichen Analyse unterzogen. Im Folgenden geben wir einen kleinen Einblick in die Entwicklung des Portals seit 2013, zeigen Trends und fassen die wesentlichen Einsichten zusammen.
Klicke auf weiter um mehr zu erfahren.
Die wichtigsten Erkenntnisse
1. Die Gesamtentwicklung ist positiv
Mit dem Anwachsen des Datenbestandes sind im letzten Jahr auch die Zugriffszahlen gestiegen. Ein breiteres Angebot führt also – wenig überraschend – auch zu intensiverer Nutzung. Die positive Tendenz zeigt, dass tatsächlich ein Bedarf an offenen Verwaltungsdaten besteht und diese kontinuierlich nachgefragt werden.
2. Der Großteil der Downloads entfällt auf wenige Datensätze
Während einige wenige Datensätze mehrere tausend Zugriffe verzeichnen, wird der größte Teil auch über längere Zeiträume nur selten aufgerufen. Allerdings taugt die Zahl der Aufrufe nur bedingt als Erfolgsindikator, denn schon aus einem einzelnen Download kann eine relevante Anwendung entstehen. Trotzdem sollte bei einer solchen Verteilung ein besonderes Augenmerk darauf liegen, dass die wenigen wirklich stark nachgefragten Datensätze hohen Qualitäts- und Aktualitätsansprüchen genügen.
3. Die Interesse an Daten hängt stark von äußeren Faktoren ab
Ungewöhnlich hohe Zugriffszahlen hängen fast immer mit äußeren Faktoren zusammen. Das kann eine Verlinkung auf einem Online-Medium oder ein datenjournalistisches Projekt sein, oft aber auch Ereignisse wie Wahlen, oder der Beginn der Badesaison. Starke Nachfrage lässt sich immer dort verzeichnen, wo es einen direkten Bezug der Daten zur Lebensrealität der Bürger*innen gibt. Das bedeutet umgekehrt: Eine Orientierung an konkreten Bedarfen zahlt sich für Datenbereitsteller fast immer aus und schlägt sich in deutlich höheren Zugriffszahlen nieder.
Detailanalysen
Eine einschränkende Anmerkung vorab: In den Zugriffszahlen tauchen nur jene Aufrufe auf, die auch tatsächlich über das Open Data-Portal erfolgen. Falls User*innen ihre Daten direkt aus anderen Portalangeboten des Landes (z.B. FIS Broker, GSI oder AfS) beziehen, erscheinen diese nicht in den Statistiken. Trotzdem erlauben die veröffentlichten Zahlen zahlreiche interessante Einsichten.
Im Folgenden zeigen wir detailliertere Analysen zu einzelnen Aspekten des Berliner Open Data-Bestandes. Wer sich darüber hinaus für den Stand von offenen Daten in Berlin interessiert, dem sei auch unser Report Open Data in der Berliner Verwaltung empfohlen.
Verteilung
Ein Blick auf die individuelle Verteilung der Zugriffe macht deutlich, dass eine kleine Gruppe von Datensätzen den Großteil der Zugriffe ausmacht.
Gesamtzahl der Zugriffe auf einen Datensatz
Durchschnittliche monatliche Zugriffe (Mean)
Mittelwert monatlicher Downloads (Median)
Auch der Großteil neu hochgeladener Datensätze bekommt kaum Zugriffe. Nur wenige Datensätze können auch über einen längeren Zeitraum konstant hohe Abrufzahlen verzeichnen
Die ersten 24 Monate nach Bereitstellung eines Datensatzes
Zeitliche Muster
Der Anteil der verfügbaren Daten ist während dieser Zeit kontinuierlich angewachsen. Immer wieder gab es konzentrierte Initiativen, größere Pakete an Daten in das Portal zu bringen (Batch-Uploads, Harvesting anderer Portale).
Auch die Nachfrage ist stetig gestiegen. Die folgende Grafik zeigt, auf wieviel Prozent der Daten im jeweiligen Monat zugegriffen wurde. Anfangs waren es um die 15%, mittlerweile sind es mehr als 30% (schwarze Linie). Daten, die in den letzten vier Monaten hochgeladen wurden erhalten etwas mehr Aufmerksamkeit (graue Linie). Ein interessantes Muster, das wir dabei entdeckten: Alle vier Monate gibt es einen Peak an Anfragen, als würde automatisiert eine größere Gruppe an Daten abgefragt werden. Hierfür konnten wir bisher keine Erklärung finden. Die auffälligen Daten stammen größtenteils vom GSI-Portal.
Über das Jahr hinweg gibt es ein durchgehendes Muster, nämlich das Abflauen der Anfragen im Winter. Im Sommer lässt sich bislang keine rechte Regelmäßigkeit erkennen.
Die Ausreißer
Immer wieder finden sich in den Zahlen ungewöhnliche Ausreißer, wenn einzelne Datensätze zu einem bestimmten Zeitpunkt besonders nachgefragt werden. Hier einige Beispiele
Zugriffe nach Themen, Herkunft und Lizenzen
Über alle Datensätze hinweg besteht das größte Interesse an räumlichen Informationen, gefolgt von Datensätzen rund um das Thema Demographie. Das Amt für Statistik Berlin Brandenburg bleibt der wichtigste Bereitsteller offener Daten in Berlin. Bei den Lizenzen hat sich die international verbreitete Creative Commons-Lizenz weitgehend durchgesetzt.
Zugriffszahlen nach Thema
Zugriffszahlen nach Bereitsteller
Zugriffszahlen nach Lizenzen
Top-Datensätze
Abschließend noch die Top-Ten der beliebtesten Datensätze. Übrigens: Die beliebtesten Berliner Vornamen des letzten Jahres waren "Emilia" und "Ben". Wer es in den Rohdaten nachsehen will: Hier entlang .