Frag mich alles!

Warum brauchen wir Sauerstoff zum Atmen? Wie kann ich im Internet Geld verdienen? Ohne deine Fragen läuft bei Frag mich alles! gar nichts. Regelmäßig lässt sich hier ein Experte Löcher in den Bauch fragen. Fragen stellen darf jeder. Wenn dir eine Frage besonders gut gefällt, stimme für sie! Die beliebtesten Fragen werden von unserem Experten beantwortet.

Julian Bruns
Karlsruher Institut für Technologie

Julian Bruns

9 Fragen      9 Antworten      130 Upvotes
Abgeschlossen

Moin, ich bin Julian Bruns, Informationswirt am FZI Forschungszentrum Informatik in Karlsruhe. In meiner Forschung analysiere und nutze ich Big Data im geo-temporalen Feld. Das sind Daten, die einen räumlichen und einen zeitlichen Bezug haben. Zum Beispiel, wir unterstützen einen Feuerwehreinsatz, indem wir die Rauchentwicklung vorhersagen sowie Drohnen für eine bessere Übersicht nutzen. Dabei entstehen riesige Datenmengen aus Bildern, Texten, Sensordaten, die schnell ausgewertet werden müssen – recht interessant! Fragt mich zu der Analyse von vielen Daten und der Nutzung von Big Data. Also was ist Big Data, was können Probleme bei der Analyse sein und was sind Möglichkeiten und Risiken bei der Anwendung.

Antworten

Sortieren nach: Top | Unbeantwortet

23 Leute finden das interessant Das interessiert mich auch! – Ma, 5. Februar 2016, 11:59:

Wie kann man verhindern, dass durch Kombination verschiedener Daten über eine Person unliebsame Konstrukte entstehen und welche Beispiele kann es dafür geben?

6 Leute finden das interessant Finde ich auch! – Julian Bruns, 5. Februar 2016, 10:14:

Moin ma, den Begriff der „unliebsamen Konstrukte“ kenne ich nicht. Generelles Ziel bei Big Data und Datenanalysen im Allgemeinen ist es, mehr Wissen zu erlangen. Und zwar nicht durch sehr kleine Stichproben, die häufig einen starken sogenannten Bias – also nicht repräsentativ sind - haben, sondern durch derart große Mengen an vielfältigen Daten, dass „wahre“, also tatsächlich beobachtete Ergebnisse erzeugt werden können. Durch die Masse an Daten beeinflussen kleine Fehler oder ein Bias bei Untergruppen der Daten die Ergebnisse deutlich weniger stark oder werden sogar ausgeglichen.
Was die Verhinderung der Identifikation einer Person angeht: Das ist eine sehr schwierige Frage, mit der sich eine Vielzahl an Datenschutzexperten befassen. Hier ist auch die Datenherausgebende Stelle gefordert. Das bekannteste Konzept ist hierbei k-anonymity bzw. ihre Weiterentwicklungen, wie z.B. t-closeness.

14 Leute finden das interessant Das interessiert mich auch! – Stefan, 5. Februar 2016, 11:59:

Welche Methoden und Mittel verwendet Ihr um BigData zu visualisieren?

5 Leute finden das interessant Finde ich auch! – Julian Bruns, 5. Februar 2016, 10:16:

Moin Stefan, kurze Antwort: Viele. Einfache Liniendiagramme, Heatmaps, Boxplots, Karten, Korrelationsplots, und vieles mehr. Generell muss man sich immer überlegen, welche Darstellungsform für den konkreten Sachverhalt und das Zielpublikum sinnvoll ist. Daran orientiert ergeben sich dann viele Möglichkeiten, die abgewogen werden müssen. Wichtig ist dabei auch, ob man Daten visualisiert, um damit Informationen zu kommunizieren, oder ob man die Daten verstehen will und daraus Ideen und/oder Zusammenhänge entwickelt.
Im Projekt, in dem ich hauptsächlich beschäftigt bin (http://biggis-project.eu/), gibt es mit dem Lehrstuhl von Prof. Keim von der Universität Konstanz einen Partner, der sich primär um die Visualisierung der Daten kümmert (http://www.vis.uni-konstanz.de/). Die dortige Gruppe forscht ganz konkret an verschieden Möglichkeiten der Datenvisualisierung. Da lerne auch ich noch einiges.

10 Leute finden das interessant Das interessiert mich auch! – Daniel, 5. Februar 2016, 11:59:

Was ist der Unterschied zwischen Big Data und Smart Data?

5 Leute finden das interessant Finde ich auch! – Julian Bruns, 5. Februar 2016, 10:17:

Moin Daniel, wenn ich den Unterschied kurz beschreiben müsste, würde ich sagen, dass Smart Data eher mit „sauberen“ Daten arbeitet und sicherstellt, dass man weiß wo die Daten herkommen und wie diese sich entwickelt haben. Smart-Data-Lösungen bauen auf klassischen Big-Data-Ansätzen auf und machen sich diese und weitere Technologien zunutze. Zusätzlich werden besonders Sicherheitsaspekte, juristische Rahmenbedingungen und gesellschaftliche Akzeptanz berücksichtigt. „Klassisches“ Big Data ist im Vergleich hingegen das wertungsfreie Arbeiten mit „dreckigen“. Hier ist viel nicht sicher, verrauscht und uneinheitlich. Und das führt dann zu anderen Herausforderungen.

Ausführlicher gesagt gibt es ohne Big Data kein Smart Data. Während man unter Big Data den gesamten Werkzeugkasten aus verschiedensten Technologien und Methoden versteht, zielt Smart Data auf anwendungsorientierte Lösungen ab, die diese Methoden um Verständnis der jeweiligen Bereiche erweitern.
Eine Definition des Big-Data-Begriffs gelingt nach meinem Verständnis am ehesten mit den 4 Vs von IBM (http://www.ibmbigdatahub.com/inf...). Dabei steht das erste V für das Volumen der Daten, also die reine Menge. Dies ist wohl das bekannteste Merkmal. Das zweite V beschreibt die Vielfalt der Daten und ihrer Formate. Dies können Audio-Mitschnitte, Bilder, etc. sein. Das dritte V meint die Geschwindigkeit (engl. Velocity), mit der die Daten empfangen und verarbeitet werden. So können Daten z.B. als durchgehender Fluss ankommen und müssen schnell gesammelt, analysiert und verarbeitet werden. Das letzte V behandelt die Unsicherheit in den Daten (engl. Veracity). Hierunter fällt vor allem die Qualität der Daten, also die Frage, ob sich Fehler bei ihrer Übertragung eingeschlichen haben, sie vielleicht sogar falsch aufgenommen wurden oder einfach nur die Quelle unsicher ist. Big Data umfasst eben diese vier Charakteristika und die Herausforderung besteht vor allem darin, mit ihnen umzugehen und gute Ergebnisse zu erlangen.
Mit dem Begriff „Smart Data“ wird versucht zu umschreiben, wie man aus diesen vielen („big“) Daten nutzbringende, hochwertige und abgesicherte („smart“) Daten macht. In Deutschland ist der Begriff dabei mit einem Förderprogramm des Bundesministeriums für Wirtschaft und Technologie verbunden.

9 Leute finden das interessant Das interessiert mich auch! – psplith, 5. Februar 2016, 11:58:

Welche Schlüsselfähigkeiten brauchst du für deine Arbeit? An welchen Lehrstühlen des KIT (und ggf. EUCOR-Unis) hast du sie erlernt?

5 Leute finden das interessant Finde ich auch! – Julian Bruns, 5. Februar 2016, 10:16:

Moin psplith, für mich persönlich lässt sich der Hauptteil der benötigten Schlüsselqualifikationen in drei grobe Kategorien fassen: Mathematik/Modellierung, Kommunikation und „Hacking“. Die erste Qualifikation umfasst dabei das Verständnis von Algorithmen, das Erstellen von Modellen und vor allem grundlegende Überlegungen darüber, wie das Ganze funktionieren soll. Kommunikation ist wohl die am meisten unterschätze Qualifikation bei Big-Data-Fragestellungen. Dabei ist es wichtig, im Vorfeld viel Fachwissen über die Zusammenhänge zu erarbeiten, um einen Ansatzpunkt zu haben und die Richtigkeit der erstellten Modelle validieren zu können. Auch muss dem späteren Nutzer klar gemacht werden, was das Ergebnis aussagt und wo es herkommt. Was Menschen nicht verstehen, akzeptieren sie oft nicht. Wenn aber ein Verständnis da ist, wird das Ergebnis eher akzeptiert und kann sogar oft noch verbessert werden. „Hacking“ umfasst alles vom Implementieren bis zum einfachen Herumspielen. Oft ist es sehr hilfreich, einfach mal etwas auszuprobieren, um ein Gefühl für die Daten und Verkettungen zu bekommen, statt sehr lange im Vorfeld alle Möglichkeiten zu modellieren. Natürlich macht das auch viel mehr Spaß als einfach nur Formeln zu schreiben. ;)

Zuletzt ein allgemeiner Tipp: Versuche im Studium den Fokus auf grundlegende Methoden und Konzepte zu legen und nicht so sehr auf Technologien. Technologien ändern sich, Konzepte weniger. Während meines Studiums habe ich nur Vorlesungen am KIT selbst besucht. Den empfohlenen Lernstoff hier auf wenige Lehrstühle zu konzentrieren, ist eher schwierig. Dieser ist eben doch sehr umfangreich. Ich habe recht früh versucht, den Bereich der Datenanalyse zu vertiefen. Dabei spielten vor allem die Lehrstühle folgender Professoren eine wichtige Rolle (ohne diese genau zu beschreiben): Prof. Setzer, Prof. Böhm, Prof. Beigl, Prof. Dillmann, Prof. Zöllner, Prof. Weinhardt und Prof. Geyer-Schulz. Auch wenn mir persönlich dazu die Zeit gefehlt hat, kann ich außerdem Vorlesungen bzw. vertiefende Kenntnisse aus dem Bereich des Software Engineering, der Algorithmentechnik, Telematik, der Parallelisierten Algorithmen sowie Vorlesungen zur Semantik empfehlen.

8 Leute finden das interessant Das interessiert mich auch! – Ma, 5. Februar 2016, 11:59:

Wenn es bei den riesigen Datenmengen Roboter/Maschinen braucht, um die Daten auszuwerten, wer überprüft dann letztlich die Auswertungen der Roboter - und wo kommt da die Ethik ins Spiel?

5 Leute finden das interessant Finde ich auch! – Julian Bruns, 5. Februar 2016, 10:15:

Moin Ma, hier möchte ich mit einem Zitat beginnen, das fälschlicherweise Albert Einstein zugeschrieben wird, aber dennoch einen sehr wahren Kern hat: „Computers are incredibly fast, accurate and stupid: humans are incredibly slow, inaccurate and brilliant; together they are powerful beyond imagination.”
Der Mensch entwickelt Methoden, Algorithmen, Konzepte, Maschinen, etc., um diese für sich arbeiten zu lassen. Diese werden oft in kleinen Testläufen überprüft und dann auf größere Datensätze angewandt, bei denen eine Überprüfung schwer bis gar nicht möglich ist. Aber genau deshalb werden diese Verfahren ja genutzt. Wenn ein Mensch dies schnell und effizient erarbeiten könnte, bräuchte man dafür keine Maschine. Die Ethik liegt dabei beim Menschen. Dieser entscheidet über die Frage, auf welche die Daten eine Antwort geben sollen. Er entscheidet über die verwendeten Daten, die verwendete Methodik, die Interpretation der Ergebnisse und darüber hinaus, wie über die Ergebnisse berichtet wird. Der Vorteil hierbei ist jedoch, dass die Ergebnisse am Ende auf den Daten basieren, damit sie reproduzierbar und so unabhängig wie möglich von persönlichen Ansichten sind.

6 Leute finden das interessant Das interessiert mich auch! – Martin, 5. Februar 2016, 11:59:

Widersprechen sich "Big Data" und Datensparsamkeit nicht? Es wird heutzutage doch immer empfohlen möglichst wenige Daten von sich preiszugeben - zu überlegen, welche Daten wirklich gebraucht werden und nur diese auszuhändigen.

Ist Big Data nicht ein sehr gegenläufiger Trend? Lassen sich beide Trends irgendwie vereinheitlichen?

5 Leute finden das interessant Finde ich auch! – Julian Bruns, 5. Februar 2016, 10:14:

Moin Martin, nicht unbedingt. Natürlich achte ich auch darauf, welche Daten ich preisgebe und an wen. Als Wissenschaftler, der mit Daten arbeitet, würde ich aber auch immer gerne mehr Daten für meine Analysen haben. Personenbezogene Daten sind dabei nur ein Teil aller verfügbaren Daten.
Big-Data-Ansätze beschäftigen sich aber ganz grundsätzlich mit der Nutzbarmachung von Daten und versuchen damit, mehr Informationen über die Welt zu gewinnen. Dies kann sich auf verschiedene Bereiche beziehen. Dabei gibt es viele Anwendungsfälle, die auch ohne Personenbezug auskommen, z.B. im Umweltschutz. Dort könnten durch Big-Data-Ansätze invasive Spezies frühzeitig entdeckt werden sowie deren Ausbreitung vorhergesagt.

5 Leute finden das interessant Das interessiert mich auch! – Fredi, 5. Februar 2016, 11:58:

Es geht ja viel um die Gefahr von Big Data. Was sind den "positive" Seiten davon? Also was sind Möglichkeiten?

5 Leute finden das interessant Finde ich auch! – Julian Bruns, 5. Februar 2016, 10:15:

Moin Fredi, Informationsgewinn. Bei Big Data geht es – wie bei jeder Analyse – darum, etwas mehr über die Welt und die dahinter liegenden Mechaniken zu erfahren. Big Data bietet dafür neue Methoden und Konzepte, um mehr Wissen zu erlangen. Der Vorteil bei Big-Data-Methoden ist hierbei, dass man die Nadel im Heuhaufen finden kann, auch ohne vorher zu wissen, dass im Heuhaufen überhaupt eine Nadel ist. Im klassischen Fall kann man in einem ersten Schritt erstmal nur die Daten sprechen lassen, ohne Annahmen oder ähnliches zu treffen. Diese Ergebnisse kann man dann weiterverarbeiten oder direkt verwenden, je nach Anwendungsfall und Methodik. Beispiele hierzu lassen sich im Gesundheitswesen finden, wo leichter Krankheiten entdeckt und bekämpft werden können bevor diese sich zu großen Epidemien entwickeln. Andere Beispiele für die Vorteile von Big Data finden sich in der Industrie, im Mobilitätssektor oder auch im Energiebereich.

5 Leute finden das interessant Das interessiert mich auch! – Interessierter, 5. Februar 2016, 11:58:

Bietet Big Data tatsächlich auch einen qualitativen Mehrwert (Masse und Klasse sind zwei Paar Schuhe)?

5 Leute finden das interessant Finde ich auch! – Julian Bruns, 5. Februar 2016, 10:15:

Moin Interessierter, einfach gesagt: Ja. Denn unter Big Data versteht man nicht nur einfach mehr Daten. Dies alleine würde tatsächlich keinen so großen Mehrwert liefern. Stattdessen geht es bei Big-Data-Ansätzen auch und vor allem um die Art der Daten, die Verarbeitungsgeschwindigkeit und um die Unsicherheiten und Fehler innerhalb der Daten.
Eines der Szenarien aus dem Projekt, in dem ich gerade arbeite (http://biggis-project.eu/), zeigt dies sehr schön: Ein Brand bricht in einem Lager mit gefährlichen Chemikalien aus. Noch bevor die Feuerwehr losfährt, kann mit Hilfe von Satellitenbildern, Baustellenmeldungen und anderen Daten die optimale Route zum Einsatzort berechnet werden, die sich in Echtzeit aktualisiert. Sobald die Feuerwehr am Einsatzort eintrifft, kann sie eine Drohne starten lassen, die mit Hyperspektralsensoren die bestehende Schadstoffwolke aufnimmt und hochauflösende Bilder zurückschickt. Mit denen können dann Ausbreitung und potentielle Inhaltsstoffe der Wolke bestimmt werden. In Kombination mit Daten aus sozialen Medien, Wetterdaten und anderen kann der Evakuierungsbereich schnell festgelegt werden. Mit diesem Wissen kann der Einsatzleiter seine Kräfte besser verteilen. Für den gesamten Prozess hat man nur wenige Minuten Zeit, nämlich so lange, bis die Einsatzkräfte die Schutzkleidung angezogen haben. Man hat dabei viele Daten, die in verschiedenen Formaten mit gewisser Unsicherheit ankommen und sehr schnell zur Verfügung stehen müssen. Außerdem müssen die Daten entsprechend visualisiert, d.h. veranschaulicht werden, damit die wichtigsten Informationen von der Feuerwehr direkt erfasst werden können.

4 Leute finden das interessant Das interessiert mich auch! – Stefan Z., 5. Februar 2016, 11:57:

Hallo Julian,

welche Rolle spielen deiner Meinung nach Meta Daten in Big Data und kennst du Ansätze oder Beispiele, wo Meta Daten und Semantic einen Mehrwert in Big Data gebracht haben?

5 Leute finden das interessant Finde ich auch! – Julian Bruns, 5. Februar 2016, 10:14:

Moin Stefan, mit Metadaten und Semantik habe ich mich bisher wenig beschäftigt. Meinem Verständnis nach spielen diese eine Rolle bei der Nutzbarmachung von Daten. Bei beiden Konzepten ist es möglich, vorhandene Daten mit zusätzlichen Informationen zu beschreiben. Dies erleichtert die spätere Transformation bzw. Kombination verschiedener Datentypen, Datenquellen und Datenarten. Zusätzlich lassen sich dadurch Informationen über die Datenqualität speichern, z.B. Herkunft oder wie diese erhoben wurden. Der Nachteil dabei ist aber, dass durch die Anreicherung mit Hintergrundinformationen die Datenmenge wächst.
In dem Projekt BigGIS (http://biggis-project.eu/) nutzen wir derzeit Ansätze der Semantik vor allem für das Wissensmanagement.