Viele Leute verwenden den Begriff Big Data eher kommerziell als Mittel für Dies zeigt an, dass große Datenmengen an der Berechnung beteiligt sind und daher potenzielle Lösungen eine gute Leistung aufweisen müssen. Natürlich enthält Big Data immer zugehörige Begriffe wie Skalierbarkeit und Effizienz, aber was genau definiert ein Problem als Big Data -Problem?
Funktioniert das Die Berechnung muss sich auf bestimmte Zwecke beziehen, z. B. Data Mining / Informationsabruf, oder könnte ein Algorithmus für allgemeine Diagrammprobleme als Big Data bezeichnet werden, wenn der Datensatz groß genug ? Wie groß ist groß genug (wenn dies definiert werden kann)?
Kommentare
- Ein schöner Artikel darüber, wann Ihre Daten für den normalen Gebrauch zu groß werden chrisstucchio.com/blog/2013/hadoop_hatred.html
- “ Auch alles groß in Excel zu laden “ ist der Laufwitz.
- Das hängt davon ab, ob es nur als Schlagwort eingeworfen wird.
- Es ist ‚ genau 1 GB. Das ‚ ist der Cutoff im Regelbuch. Es gibt keinen Raum für Mehrdeutigkeiten.
- Dies ist eine ausgezeichnete Frage. Wie durch die Vielfalt der Antworten angezeigt, ist die Definition … undefiniert
Antwort
Für mich (kommt Aus einem relationalen Datenbankhintergrund geht es bei „Big Data“ nicht in erster Linie um die Datengröße (die den größten Teil der bisherigen Antworten ausmacht).
„Big Data“ und „Bad Data“ eng verwandt. Relationale Datenbanken erfordern „makellose Daten“. Wenn sich die Daten in der Datenbank befinden, sind sie genau, sauber und 100% zuverlässig. Relationale Datenbanken erfordern „großartige Daten“, und es wird viel Zeit, Geld und Rechenschaftspflicht aufgewendet, um sicherzustellen, dass die Daten gut vorbereitet sind, bevor sie in die Datenbank geladen werden. Wenn sich die Daten in der Datenbank befinden, handelt es sich um „Evangelium“ und definiert das Systemverständnis der Realität.
„Big Data“ geht dieses Problem aus der anderen Richtung an. Die Daten sind schlecht definiert, viele davon sind möglicherweise ungenau und viele fehlen tatsächlich. Die Struktur und das Layout der Daten sind im Gegensatz zu relationalen Daten linear.
Big Data muss über ein ausreichendes Volumen verfügen, damit die Menge an fehlerhaften Daten oder fehlenden Daten statistisch unbedeutend wird. Wenn die Fehler in Ihren Daten häufig genug sind, um sich gegenseitig aufzuheben, wenn die fehlenden Daten proportional klein genug sind, um vernachlässigbar zu sein, und wenn Ihre Datenzugriffsanforderungen und -algorithmen auch bei unvollständigen und ungenauen Daten funktionieren, haben Sie „Big Data“.
Bei „Big Data“ geht es nicht wirklich um das Volumen, sondern um die Eigenschaften der Daten.
Kommentare
- +1 Ich schätze es sehr, dass es bei Big Data nicht darum geht, wie groß ist, sondern darum, was der Inhalt (die Eigenschaften von) ist.
- Das ist eine sehr erfrischende Perspektive. Ich habe das noch nie gehört, aber es ist sehr wahr. Dies deutet darauf hin, dass SQL- und NoSQL-Technologien nicht wettbewerbsfähig, sondern komplementär sind.
- Sie ‚ sprechen von unstrukturierten Daten, nicht von Big Data. Unstrukturierte Daten führen normalerweise zu NoSQL-Lösungen und Big Data in der Anwendung, aber sie unterscheiden sich immer noch.
- Ich denke, dies ist eine gute Geschäftsperspektive für Big Data, beantwortet jedoch nicht die spezifische Frage, auf die genau hingewiesen wird “ Wie groß sind Big Data? “
Antwort
Wie Sie zu Recht bemerken, ist „Big Data“ heutzutage etwas, von dem jeder sagen möchte, dass er es hat, was eine gewisse Lockerheit in der Definition des Begriffs mit sich bringt. Im Allgemeinen jedoch ich „Ich würde sagen, Sie haben es mit Big Data zu tun, wenn die Skalierung so ist, dass es nicht mehr möglich ist, mit traditionelleren Technologien wie RDBMS zu arbeiten, zumindest ohne sie mit Big Data-Technologien wie Hadoop zu ergänzen.
Wie groß Ihre Daten tatsächlich sein müssen, damit dies der Fall ist, ist umstritten. Hier ist ein (etwas provokanter) Blog-Beitrag , der behauptet, dass dies bei weniger als 5 TB Daten nicht wirklich der Fall ist. (Um klar zu sein, es wird nicht behauptet, dass weniger als 5 TB nicht „Big Data“ sind, sondern nur „Weniger als 5 TB sind nicht“ groß genug, dass Sie Hadoop benötigen „.)
Aber sogar Bei kleineren Datensätzen können Big-Data-Technologien wie Hadoop andere Vorteile haben, darunter die gute Eignung für Batch-Vorgänge, das gute Spielen mit unstrukturierten Daten (sowie Daten, deren Struktur nicht im Voraus bekannt ist oder sich ändern könnte) sowie die horizontale Skalierbarkeit (Skalierung durch Hinzufügen weiterer Knoten, anstatt Ihre vorhandenen Server zu verbessern) und (als einer der Kommentatoren in den oben verlinkten Postnotizen) die Möglichkeit, Ihre Datenverarbeitung in externe Datensätze zu integrieren (denken Sie an eine Kartenreduzierung, bei der der Mapper eine erstellt) Anruf an einen anderen Server).Andere mit Big Data verbundene Technologien wie NoSql-Datenbanken legen Wert auf schnelle Leistung und konsistente Verfügbarkeit bei großen Datenmengen sowie auf die Fähigkeit, halb unstrukturierte Daten zu verarbeiten und horizontal zu skalieren.
Natürlich Traditionelle RDBMS haben ihre eigenen Vorteile, einschließlich ACID-Garantien (Atomizität, Konsistenz, Isolation, Haltbarkeit) und besserer Leistung für bestimmte Vorgänge sowie standardisierter, ausgereifter und (für viele Benutzer) vertrauter. Selbst für unbestreitbar „große“ Daten kann es sinnvoll sein, mindestens einen Teil Ihrer Daten in eine herkömmliche SQL-Datenbank zu laden und diese in Verbindung mit Big-Data-Technologien zu verwenden.
Eine großzügigere Definition wäre, dass Sie über Big Data verfügen, solange es groß genug ist, dass Big Data-Technologien einen Mehrwert für Sie bieten. Wie Sie jedoch sehen können, kann dies nicht nur von der Größe Ihrer Daten abhängen, sondern auch davon, wie Sie arbeiten möchten Damit und welche Anforderungen Sie an Flexibilität, Konsistenz und Leistung haben. Wie Sie Ihre Daten verwenden, ist für die Frage relevanter als was Sie verwenden (z. B. Data Mining). Allerdings führen Anwendungen wie Data Mining und maschinelles Lernen eher zu nützlichen Ergebnissen, wenn Sie über einen ausreichend großen Datensatz verfügen, mit dem Sie arbeiten können.
Kommentare
- Dieser Kommentar ist fast 5 Jahre alt, und obwohl Teile davon noch zutreffen, ist der 5-TB-Schwellenwert aus dem von mir zitierten Blog sicherlich nicht stimmt nicht mehr. Beispielsweise bietet Microsoft “ Hyperscale “ SQL-DBs mit bis zu 100 TB an: docs.microsoft.com/en-us/azure/sql-database/… Natürlich kann man viele Organisationen mit riesigen SQL-DBs auch annehmen Ich habe beispielsweise einen Spark-Cluster, um verschiedene Workloads zu unterstützen. Es gibt ‚ keine Regel, die Sie für die eine oder andere auswählen müssen.
Antwort
Gesamtdatenmenge in der Welt: 2,8 Zetabyte im Jahr 2012, geschätzte 8 Zetabyte bis 2015 ( Quelle ) und mit einer Verdopplungszeit von 40 Monaten. Kann nicht größer werden 🙂
Als Beispiel für eine einzelne große Organisation zieht Facebook 500 Terabyte pro Tag in ein 100-Petabyte-Lager und führt ab 2012 70.000 Abfragen pro Tag aus ( source ) Ihr aktuelles Lager umfasst> 300 Petabyte.
Big Data ist wahrscheinlich ein guter Bruchteil der Facebook-Zahlen (1) / 100 wahrscheinlich ja, 1/10000 wahrscheinlich nicht: es ist ein Spektrum, keine einzige Zahl).
Zusätzlich zur Größe sind einige der Merkmale, die es „groß“ machen ,:
-
Es wird aktiv analysiert und nicht nur gespeichert (Zitat „Wenn Sie Big Data nicht nutzen, haben Sie keine Big Data, sondern nur einen Datenstapel“ Jay Parikh @ Facebook)
-
Der Aufbau und Betrieb eines Data Warehouse ist ein wichtiges Infrastrukturprojekt.
-
Es wächst erheblich
-
es ist unstrukturiert oder hat eine unregelmäßige Struktur
Gartner-Definition: „Big Data ist hohes Volumen, hohe Geschwindigkeit und / oder vielfältige Informationsressourcen, die neue Formen der Verarbeitung erfordern „(The 3Vs) Sie denken also auch, dass“ Größe „nicht nur von der Größe des Datensatzes abhängt, sondern auch von der Geschwindigkeit und Struktur und der Art der benötigten Werkzeuge.
Kommentare
- Wenn sich die Gesamtdatenmenge der Welt alle 40 Monate verdoppelt, kann sie mit Sicherheit größer werden als Das. ; p
- Andere beschreiben 4 V ‚ s von Big Data IBM oder sogar 5 V. ‚ s DAVE BEULKE 2011
- Die ursprünglichen 3 V ‚ s wurden 2001 von Doug Laney 3D-Datenmanagement: Steuern von Datenvolumen, Geschwindigkeit und Vielfalt festgelegt.
Antwort
Für mich geht es bei Big Data in erster Linie um die Tools (schließlich hat es dort begonnen), einen „großen“ Datensatz ist eine, die zu groß ist, um mit herkömmlichen Tools verarbeitet zu werden – insbesondere groß genug, um Speicherung und Verarbeitung auf einem Cluster und nicht auf einer einzelnen Maschine zu erfordern. Dies schließt ein herkömmliches RDBMS aus und erfordert neue Verarbeitungstechniken. Insbesondere machen es verschiedene Hadoop-ähnliche Frameworks einfach, eine Berechnung über einen Cluster zu verteilen, auf Kosten der Einschränkung der Form dieser Berechnung. Ich werde den Verweis auf http://www.chrisstucchio.com/blog/2013/hadoop_hatred.html unterstützen. Big-Data-Techniken sind ein letzter Ausweg für Datensätze, die einfach zu groß sind Ich würde sagen, jeder Datensatz für jeden Zweck könnte sich qualifizieren, wenn er groß genug wäre. Wenn die Form des Problems jedoch so ist, dass vorhandene „Big Data“ -Tools nicht geeignet sind, wäre es wahrscheinlich besser einen neuen Namen finden.
Natürlich gibt es einige Überlappungen. Als ich (kurz) bei last.fm arbeitete, arbeiteten wir mit Hadoop an demselben 50-TB-Dataset und auch in einer SQL-Datenbank auf einem ziemlich lächerlichen Server (ich erinnere mich, dass es 1 TB RAM hatte, und das ist einige Jahre her). Was in gewissem Sinne bedeutete, dass es Big Data war und nicht, je nachdem, an welchem Job Sie gearbeitet haben. Aber ich denke, das ist eine genaue Charakterisierung. Die Leute, die an den Hadoop-Jobs gearbeitet haben, fanden es nützlich, zu Big Data-Konferenzen und Websites zu gehen, während die Leute, die an den SQL-Jobs gearbeitet haben, dies nicht taten.
Antwort
Daten werden „groß“, wenn ein einzelner Warencomputer die Datenmenge, die Sie haben, nicht mehr verarbeiten kann Punkt, an dem Sie über den Aufbau von Supercomputern oder die Verwendung von Clustern zur Verarbeitung Ihrer Daten nachdenken müssen.
Antwort
Big Data ist definiert Nach dem Datenvolumen ist das richtig, aber nicht nur. Die Besonderheit von Big Data besteht darin, dass Sie Lose von speichern müssen verschiedene und manchmal unstrukturierte Sachen alle Male und von Tonnen Sensoren , normalerweise für Jahre oder Jahrzehnte .
Außerdem benötigen Sie etwas Skalierbares, damit Sie es nicht brauchen ein halbes Jahr, um Daten zurück zu finden.
Hier kommt also Big Data, wo herkömmliche Methoden nicht mehr funktionieren. SQL ist nicht skalierbar. Und SQL funktioniert mit sehr strukturierten und verknüpften Daten (mit allen) Diese Primär- und Fremdschlüssel-Verwirrung, innere Verbindung, imbrizierte Anfrage …).
Grundsätzlich, weil Speicher immer billiger und Daten immer wertvoller werden, bittet der große Manager den Ingenieur, alles aufzuzeichnen Diese Unmengen neuer Sensoren mit all diesen mobilen, sozialen Netzwerken, eingebetteten Dingen … usw. Da klassische Methoden nicht funktionieren, müssen sie neue Technologien finden (alles in Dateien speichern, im JSON-Format, mit großem Index, was wir noSQL nennen).
Big Data kann also sehr groß sein, aber kann nicht so groß sein, aber komplex, unstrukturiert oder verschiedene Daten, die schnell und unterwegs in einem Rohformat gespeichert werden müssen. Wir konzentrieren uns zuerst auf das Speichern und Speichern und dann schauen wir uns an, wie alles miteinander verknüpft werden kann.
Antwort
Ich werde Ihnen mitteilen, wie Big Data in der Genomik aussieht, insbesondere bei der De-novo-Assemblierung.
Wann Wir sequenzieren Ihr Genom (z. B. neue Gene erkennen) und nehmen Milliarden von Kurzlesungen der nächsten Generation vor. Schauen Sie sich das Bild unten an, in dem wir versuchen, einige Lesevorgänge zusammenzustellen.
Das sieht einfach aus? Aber was ist, wenn Sie Milliarden dieser Lesungen haben? Was ist, wenn diese Lesevorgänge Sequenzfehler enthalten? Was ist, wenn Ihr RAM nicht über genügend Speicher verfügt, um die Lesevorgänge zu speichern? Was ist mit sich wiederholenden DNA-Regionen, wie dem sehr häufigen Alu-Element ?
Die De-novo-Assemblierung erfolgt durch Erstellen eines De-Bruijn-Diagramms :
Das Diagramm ist eine clevere Datenstruktur zur Darstellung überlappender Lesevorgänge. Es ist nicht perfekt, aber es ist „Es ist besser, als alle möglichen Überlappungen zu generieren und sie in einem Array zu speichern.
Der Assemblierungsprozess kann Tage dauern, da es eine ganze Reihe von Pfaden gibt, die ein Assembler zum Durchlaufen und Reduzieren benötigen würde.
In der Genomik haben Sie große Datenmengen, wenn:
- Sie nicht alle Kombinationen brutal erzwingen können
- Ihr Computer verfügt nicht über genügend physischen Speicher zum Speichern der Daten
- Sie müssen die Abmessungen reduzieren (z. B. redundante Diagrammpfade reduzieren)
- Sie sind sauer, weil Sie müssen Warten Sie Tage, um etwas zu tun.
- Sie benötigen eine spezielle Datenstruktur, um die Daten darzustellen.
- Sie müssen Ihren Datensatz nach Fehlern filtern (z. B. Sequenzierungsfehler)
Antwort
Es ist etwas Besonderes, Algorithmen grafisch darzustellen, Ihre ursprünglichen Fragen, die dann etwas Besonderes sind, nämlich die Fähigkeit, die Daten im Wesentlichen zu partitionieren.
Für einige Dinge, wie das Sortieren von Zahlen in einem Array, ist es nicht allzu schwierig, das Problem in der Datenstruktur in kleinere disjunktive Teile zu unterteilen, z. Hier: Parallele Zusammenführungssortierung
Bei Diagrammalgorithmen besteht jedoch die Herausforderung, eine optionale Partitionierung für eine bestimmte Grafikmetrik zu finden $ NP-hart sein $.
Während 10 GB zu sortierende Zahlen auf einem normalen PC ein sehr gut zugängliches Problem sein können (Sie können dies einfach über dynamische Programmierung tun und haben eine sehr gute Vorhersagbarkeit über den Programmfluss), arbeiten Sie mit einem 10 GB-Diagramm Datenstruktur kann schon durch Herausforderung.
Es gibt eine Reihe spezialisierter Frameworks wie GraphX , die Methoden und spezielle Computerparadigmen verwenden, um die inhärenten Herausforderungen von Graphen etwas zu umgehen.
Um Ihre Frage kurz zu beantworten: Wie bereits von anderen erwähnt, ist es ein guter Hinweis, dass Ihre Daten nicht in den Hauptspeicher eines normalen PCs passen, aber Sie alle benötigen, um Ihr Problem zu beantworten Daten sind schon etwas groß. Die genaue Kennzeichnung hängt allerdings ein wenig von der Datenstruktur und der gestellten Frage ab.
Antwort
Ich denke, dass Big Data an dem Punkt beginnt, an dem die Größe Sie daran hindert, das zu tun, was Sie wollen. In den meisten Szenarien gibt es eine Begrenzung der Laufzeit, die als machbar angesehen wird. In einigen Fällen ist es eine Stunde, in einigen Fällen können es einige Wochen sein. Solange die Daten nicht groß genug sind, dass nur O (n) -Algorithmen im realisierbaren Zeitrahmen ausgeführt werden können, haben Sie Big Data nicht erreicht.
Ich mag diese Definition, da sie volumenunabhängig ist. Technologiestufe und spezifische Algorithmen. Es ist nicht ressourcenunabhängig, sodass ein Student den Punkt Big Data weit vor Google erreicht.
Um quantifizieren zu können, wie groß die Daten sind, möchte ich Berücksichtigen Sie die Zeit, die zum Sichern benötigt wird. Seit dem Fortschritt der Technologie sind die Volumes, die vor einigen Jahren als groß angesehen wurden, jetzt moderat. Die Sicherungszeit verbessert sich mit der Verbesserung der Technologie ebenso wie die Laufzeit der Lernalgorithmen. Ich halte dies für sinnvoller Um über einen Datensatz zu sprechen, dauert die Sicherung X Stunden und nicht einen Datensatz mit Y Bytes.
PS.
Es ist wichtig zu beachten, dass selbst wenn Sie den Big-Data-Punkt erreicht haben und Sie können Algorithmen mit einer Komplexität von mehr als O (n) nicht direkt ausführen. Sie können viel tun, um dennoch von einem solchen Algorithmus zu profitieren s.
Beispielsweise kann die Feature-Auswahl die Anzahl der Features reduzieren, von denen die Laufzeit vieler Algorithmen abhängt. Bei vielen Long-Tail-Verteilungen kann es von Vorteil sein, sich auf die wenigen Elemente im Kopf zu konzentrieren. Sie können ein Beispiel verwenden und die langsameren Algorithmen darauf ausführen.
Kommentare
- Beachten Sie, dass die Barriere $ O (n) $ ebenfalls überschritten wurde jetzt in einigen Bereichen von ML. Siehe [ grigory.us/mpc-workshop-dimacs.html] für den Workshop zu sublinearen Algorithmen für ML [1]: grigory.us/mpc-workshop-dimacs.html
Antwort
Daten sind „Big Data“, wenn sie so umfangreich sind, dass die Analyse auf zwei oder mehr Standardcomputern kostengünstiger ist als auf einem High-End-Computer.
So funktioniert Google im Wesentlichen. Das Dateisystem von BigFiles „entstand. Page und Brin konnten sich keinen schicken Sun-Server leisten, um ihren Webindex zu speichern und zu durchsuchen, und schlossen daher mehrere Standardcomputer an.
Antwort
Ich stimme eher dem zu, was @Dan Levin bereits gesagt hat. Da wir letztendlich nützliche Erkenntnisse aus den Daten ziehen möchten, anstatt sie nur zu speichern, ist es die Fähigkeit zum Lernen von Algorithmen / Systemen , die bestimmen sollen, was als „Big Data“ bezeichnet wird. Wenn sich ML-Systeme weiterentwickeln, wird das, was heute Big Data war, morgen nicht mehr Big Data sein.
Eine Möglichkeit, Big Data zu definieren, könnte sein:
- Big Data : Daten, auf denen Sie ML-Modelle nicht in angemessener Zeit (1-2 Stunden) auf einer typischen Workstation erstellen können (mit beispielsweise 4 GB RAM)
- Nicht große Datenmengen : Ergänzung der obigen
Unter der Annahme dieser Definition sollten wir uns im Nicht-Big Data befinden, solange der von einer einzelnen Zeile belegte Speicher (alle Variablen für einen einzelnen Datenpunkt) den Maschinen-RAM nicht überschreitet em> Regime.
Hinweis: Vowpal Wabbit (mit Abstand das schnellste ML-System von heute) kann für jeden Datensatz lernen, solange eine einzelne Zeile (Datenpunkt) < RAM (z. B. 4 GB) ist. Die Anzahl der Zeilen ist keine Einschränkung , da SGD auf mehreren Kernen verwendet wird. Erfahrungsgemäß können Sie ein Modell mit 10.000 Funktionen und 10 Millionen Zeilen an einem Tag auf einem Laptop trainieren.
Antwort
„Big Daten „ist buchstäblich nur eine Menge Daten. Obwohl es sich eher um einen Marketingbegriff als um irgendetwas handelt, bedeutet dies normalerweise, dass Sie so viele Daten haben, dass Sie nicht alle Daten auf einmal analysieren können, da die Menge an Speicher (RAM) erforderlich ist, um die Daten zu speichern Der zu verarbeitende und zu analysierende Speicher ist größer als der verfügbare Speicher.
Dies bedeutet, dass Analysen normalerweise an zufälligen Datensegmenten durchgeführt werden müssen, sodass Modelle erstellt werden können, um sie mit anderen Teilen der Daten zu vergleichen.