Wir bauen uns

Ein Wissensportal

In der Vorlesung vom letzten Mal haben wir begonnen die von der ETH vorgestellten praktischen Umsetzungen im Kleinen verstehen zu lernen. Dabei haben wir uns erstens damit auseinandergesetzt, woher wir die Daten nehmen und uns als zweiten Schritt angeschaut, wie wir die Daten bereinigen um sie später (folgt in der nächsten Vorlesung) für unser Wissensportal brauchen zu können. Bevor wir das tun konnten, haben wir uns die Grundlagen über den Umgang mit der Open Source Software Open Refine erarbeitet.

 

Als Datensätze für unser Wissensportal verwendeten wir die öffentlich über eine frei zugänglichen Bibliotheksdaten von swissbib. Diese haben wir über eine Schnittstelle heruntergeladen. Dazu konnten wir die erlernten Grundlagen von Kapitel 1 gut brauchen. Die entsprechenden Befehle für die Kommandozeile konnten wir also dort nachschauen.

 

Dazu musste als erstes Open Refine gestartet werden. Danach wurden die Daten, die wir zuvor über die Kommandozeile heruntergeladen haben im Open Refine geöffnet. Dies ermöglichte nun nachfolgend die Bearbeitung und Umsortierung der bestehenden Marc Datensätzen.

 

Dabei gingen wir wie folgt vor, zuerst waren alle Daten unsortiert, dann wurde mit den erlernten Grundlagen aus dem Tutorial von Open Refine, bestimmt, welche Marc Datenfelder am relevantesten erscheinen für eine Suche mit Filterung, wie wir es im Wissensportal gesehen haben und das heisst im Klartext, welche Datensätze am meisten relevante Inhalte vorweisen können.

Beispielsweise ist das ein Feld wo Autorenangaben stehen. Da der Marc Datensatz da etwas unstrukturiert ist, und es teilweise mehre Inhalte in einem Feld hat (Bsp. Header, dort wurde ursprünglich im Marc alles Mögliche reingepackt) oder mehrere Felder mit ähnlichem Inhalt, mussten diese Felder erst ausgewählt werden. Dazu war es nötig zu evaluieren, welche Felder sinnvoll sind.

 

Diese Felder auszuwählen und unnötige zu entfernen lief dann so ab, dass in Open Refine viel umstrukturiert werden musste, Spalten wurden gelöscht, es wurden neue hinzugefügt – Inhalte in diese eingefügt und benutzt zum Transportieren von Inhalten in neue Spalten und Zeilen. Dies alles war ziemlich mühsam, doch es war trotzdem interessant zu sehen, wie viel möglich ist aus Daten, die noch dazu öffentlich frei verfügbar sind zu machen und gerade, weil das Bereinigen der Daten so mühsam war, wird der Mehrwert von bereinigten Daten in einer Suchabfrage stärker erkennbar. 

Kommentar schreiben

Kommentare: 0