Beaucoup de gens utilisent le terme big data de manière plutôt commerciale , comme moyen de indiquant que de grands ensembles de données sont impliqués dans le calcul et que les solutions potentielles doivent donc avoir de bonnes performances. Bien sûr, les big data comportent toujours des termes associés, comme lévolutivité et lefficacité, mais quest-ce qui définit exactement un problème comme un problème de big data ?
le calcul doit être lié à un ensemble dobjectifs spécifiques, comme lexploration de données / lextraction dinformations, ou un algorithme pour les problèmes de graphes généraux pourrait-il être étiqueté big data si lensemble de données était assez grand ? De plus, à quel point grand est assez grand (si cela est possible à définir)?
Commentaires
- Un bel article sur le moment où vos données commencent à être trop volumineuses pour une utilisation normale chrisstucchio.com/blog/2013/hadoop_hatred.html
- » Tout aussi gros à charger dans Excel » est la blague en cours.
- Cela dépend si elle est simplement lancée comme un mot à la mode.
- Il ‘ correspond exactement à 1 Go. Ce ‘ est la limite dans le livre de règles. Il ny a pas de place pour lambiguïté.
- Cest une excellente question. Comme indiqué par la variété de réponse, la définition est … indéfinie
Réponse
À moi (à venir à partir dun arrière-plan de base de données relationnelle), le « Big Data » ne concerne pas principalement la taille des données (qui est la majeure partie des autres réponses jusquà présent).
Les « Big Data » et « Bad Data » sont étroitement liés. Les bases de données relationnelles nécessitent des «données intactes». Si les données sont dans la base de données, elles sont exactes, propres et fiables à 100%. Les bases de données relationnelles nécessitent de «grandes données» et une énorme quantité de temps, dargent et de responsabilité est consacrée à sassurer que les données sont bien préparées avant de les charger dans la base de données. Si les données sont dans la base de données, cest « gospel », et cela définit la compréhension du système de la réalité.
« Big Data » aborde ce problème dans lautre sens. Les données sont mal définies, une grande partie peut être inexacte et une grande partie peut en fait manquer. La structure et la disposition des données sont linéaires par opposition à relationnelles.
Le Big Data doit avoir un volume suffisant pour que la quantité de mauvaises données ou de données manquantes devienne statistiquement insignifiante. Lorsque les erreurs dans vos données sont suffisamment courantes pour sannuler, lorsque les données manquantes sont proportionnellement suffisamment petites pour être négligeables et lorsque vos exigences daccès aux données et vos algorithmes sont fonctionnels même avec des données incomplètes et inexactes, alors vous avez « Big Data » .
Le « Big Data » ne concerne pas vraiment le volume, il sagit des caractéristiques des données.
Commentaires
- +1 Japprécie à peu près le fait que le Big Data ne porte pas sur quelle est la taille , mais plutôt sur quel est le contenu (caractéristiques de) .
- Cest une perspective très rafraîchissante. Je nai jamais entendu cela auparavant, mais cest très vrai. Cela suggère que les technologies SQL et NoSQL ne sont pas compétitives, mais complémentaires.
- Vous ‘ parlez de données non structurées, pas de Big Data. Les données non structurées mènent généralement à des solutions NoSQL et au Big Data dans lapplication, mais elles sont toujours différentes.
- Je pense que cest une bonne perspective commerciale de ce quest le Big Data, mais ne répond pas à la question spécifique qui est assez pointue » Quelle est la taille du Big Data? »
Réponse
Comme vous le notez à juste titre, de nos jours, tout le monde veut dire que le « big data » est acquis, ce qui implique un certain flou dans la façon dont les gens définissent le terme. En général, cependant, je «Je dirais que vous avez certainement affaire au Big Data si l’échelle est telle qu’il n’est plus possible de gérer avec des technologies plus traditionnelles telles que le SGBDR, du moins sans les compléter avec des technologies Big Data telles que Hadoop.
La taille réelle de vos données pour que cela soit le cas est discutable. Voici un article de blog (quelque peu provocateur) qui prétend que ce nest pas vraiment le cas pour moins de 5 To de données. (Pour être clair, il ne prétend pas que « moins de 5 To nest pas du » big data « , mais juste » Moins de 5 To nest pas assez grand pour que vous ayez besoin dHadoop « .)
Mais même sur des ensembles de données plus petits, les technologies Big Data comme Hadoop peuvent présenter dautres avantages, notamment être bien adaptées aux opérations par lots, bien jouer avec des données non structurées (ainsi que des données dont la structure nest pas connue à lavance ou pourraient changer), lévolutivité horizontale (mise à léchelle par ajouter plus de nœuds au lieu de renforcer vos serveurs existants), et (comme lun des commentateurs sur les notes de publication liées ci-dessus) la possibilité dintégrer votre traitement de données avec des ensembles de données externes (pensez à une réduction de carte où le mappeur fait un appel à un autre serveur).Dautres technologies associées au Big Data, comme les bases de données NoSql, mettent laccent sur des performances rapides et une disponibilité cohérente tout en traitant de grands ensembles de données, tout en étant capable de gérer des données semi-non structurées et de les mettre à léchelle horizontalement.
Bien sûr , les SGBDR traditionnels ont leurs propres avantages, notamment les garanties ACID (atomicité, cohérence, isolation, durabilité) et de meilleures performances pour certaines opérations, en plus dêtre plus standardisés, plus matures et (pour de nombreux utilisateurs) plus familiers. Ainsi, même pour des données indiscutablement «big», il peut être judicieux de charger au moins une partie de vos données dans une base de données SQL traditionnelle et de lutiliser en conjonction avec les technologies Big Data.
Donc, une définition plus généreuse serait que vous ayez des données volumineuses à condition quelles soient suffisamment volumineuses pour que les technologies de données volumineuses vous apportent une valeur ajoutée. Mais comme vous pouvez le constater, cela peut dépendre non seulement de la taille de vos données, mais aussi de la manière dont vous souhaitez travailler et quels types dexigences vous avez en termes de flexibilité, de cohérence et de performances. Comment vous utilisez vos données est plus pertinent pour la question que pour quoi vous les utilisez (par exemple, lexploration de données). Cela dit, des utilisations comme lexploration de données et lapprentissage automatique sont plus susceptibles de donner des résultats utiles si vous disposez dun ensemble de données suffisamment volumineux pour travailler.
Commentaires
- Ce commentaire a presque 5 ans, et bien que certaines parties soient toujours vraies, le seuil de 5 To du blog que jai cité nest certainement pas t vrai plus. Par exemple, Microsoft propose des bases de données SQL » hyperscale » jusquà 100 To: docs.microsoft.com/en-us/azure/sql-database/… Bien sûr, on peut supposer que de nombreuses organisations avec dénormes bases de données SQL également Jai, par exemple, un cluster Spark pour prendre en charge différentes charges de travail. Il ny a ‘ aucune règle, vous devez choisir lune ou lautre.
Réponse
Quantité totale de données dans le monde: 2,8 zétaoctets en 2012, estimée à 8 zétaoctets dici 2015 ( source ) et avec un temps de doublement de 40 mois. Impossible de devenir plus grand que ça 🙂
À titre dexemple dune seule grande organisation, Facebook tire 500 téraoctets par jour, dans un entrepôt de 100 pétaoctets, et exécute 70 000 requêtes par jour à partir de 2012 ( source ) Leur entrepôt actuel est> 300 pétaoctets.
Le Big Data est probablement quelque chose qui représente une bonne fraction des chiffres de Facebook (1 / 100 probablement oui, 1/10000 probablement pas: cest « un spectre pas un seul nombre).
En plus de la taille, certaines des caractéristiques qui le rendent » grand « sont:
-
il est activement analysé, pas seulement stocké (citation « Si vous ne tirez pas parti du Big Data, alors vous navez pas de Big Data, vous avez juste une pile de données » Jay Parikh @ Facebook)
-
La construction et la gestion dun entrepôt de données est un projet dinfrastructure majeur
-
il se développe à un rythme significatif
-
il est non structuré ou a une structure irrégulière
Définition de Gartner: « Le Big Data est un volume élevé, une vitesse élevée et / ou des actifs dinformation de grande variété qui nécessitent de nouvelles formes de traitement »(Les 3V) Ils pensent donc aussi que« la grandeur »nest pas entièrement liée à la taille du jeu de données, mais aussi à la vitesse et à la structure et au type doutils nécessaires.
Commentaires
- Si la quantité totale de données dans le monde double tous les 40 mois, alors elle peut être plus grande que cette. ; p
- Dautres décrivent 4 V ‘ s de big data IBM ou même 5 V ‘ s DAVE BEULKE 2011
- Les 3 V dorigine ‘ ont été définis en 2001 par Doug Laney Gestion des données 3D: contrôle du volume, de la vitesse et de la variété des données .
Réponse
Pour moi, le Big Data concerne principalement les outils (après tout, cest là que ça a commencé); un « gros » ensemble de données est trop gros pour être manipulé avec des outils conventionnels – en particulier, assez gros pour exiger le stockage et le traitement sur un cluster plutôt que sur une seule machine. Cela exclut un SGBDR conventionnel et exige de nouvelles techniques de traitement; en particulier, différents frameworks de type Hadoop facilitent la distribution dun calcul sur un cluster, au prix de restreindre la forme de ce calcul. Je seconde la référence à http://www.chrisstucchio.com/blog/2013/hadoop_hatred.html ; les techniques Big Data sont un dernier recours pour les ensembles de données qui sont tout simplement trop volumineux pour gérer toute autre manière. Je dirais que tout ensemble de données, quel que soit son objectif, pourrait être qualifié sil était assez grand – mais si la forme du problème est telle que les outils de « big data » existants ne sont pas appropriés, alors ce serait probablement mieux pour trouver un nouveau nom.
Bien sûr, il y a un certain chevauchement; quand jai (brièvement) travaillé chez last.fm, nous avons travaillé sur le même ensemble de données de 50 To en utilisant Hadoop et aussi dans une base de données SQL sur un serveur assez ridicule (je me souviens quil avait 1 To de RAM, et cela remonte à quelques années). Ce qui, en un sens, signifiait que cétait et nétait pas de grandes données, selon le travail sur lequel vous travailliez. Mais je pense que cest une caractérisation précise; les personnes qui ont travaillé sur les emplois Hadoop ont trouvé utile daller à des conférences et des sites Web Big Data, tandis que les personnes qui ont travaillé sur les emplois SQL ne lont pas « t.
Réponse
Les données deviennent « volumineuses » lorsquun seul ordinateur standard ne peut plus gérer la quantité de données dont vous disposez. point auquel vous devez commencer à penser à construire des supercalculateurs ou à utiliser des clusters pour traiter vos données.
Réponse
Le Big Data est défini par le volume de données, cest vrai, mais pas seulement. La particularité du Big Data est que vous devez stocker un lots de divers éléments et parfois non structurés toutes les fois et de tonnes de capteurs , généralement pendant des années ou des décennies .
De plus, vous avez besoin de quelque chose dévolutif, de sorte que cela ne vous prenne pas six mois pour retrouver une donnée.
Voici donc le Big Data, où la méthode traditionnelle ne fonctionnera plus. SQL n’est pas évolutif. Et SQL fonctionne avec des données très structurées et liées (avec tous ces gâchis de clé primaire et étrangère, jointure interne, requête imbriquée …).
Fondamentalement, parce que le stockage devient moins cher et moins cher et que les données deviennent de plus en plus précieuses, le grand gestionnaire demande à lingénieur de tout enregistrer. cette tonnes de nouveaux capteurs avec tous ces mobiles, réseaux sociaux, éléments intégrés … etc. Donc, comme les méthodes classiques ne fonctionnent pas, elles doivent trouver de nouvelles technologies (tout stocker dans des fichiers, au format json, avec un gros index, ce que nous appelons noSQL).
Le Big Data peut donc être très gros mais peut être moins volumineux mais complexe, non structuré ou des données diverses qui doivent être stockées rapidement et en cours dexécution dans un format brut. Nous nous concentrons et stockons dans un premier temps, puis nous cherchons à tout lier ensemble.
Réponse
Je vais partager à quoi ressemble le Big Data en génomique, en particulier lassemblage de novo.
Quand nous séquencons votre génome (par exemple: détecter de nouveaux gènes), nous prenons des milliards de lectures courtes de nouvelle génération. Regardez limage ci-dessous, où nous essayons dassembler quelques lectures.
Cela semble simple? Mais que faire si vous avez des milliards de ces lectures? Et si ces lectures contiennent des erreurs de séquence? Que faire si votre RAM ne dispose pas de suffisamment de mémoire pour conserver les lectures? Quen est-il des régions ADN répétitives, telles que le très courant élément Alu ?
Lassemblage de novo se fait en construisant un graphe De-Bruijn :
Le graphique est une structure de données astucieuse pour représenter des lectures qui se chevauchent. Ce nest pas parfait mais il « Cest mieux que de générer tous les chevauchements possibles et de les stocker dans un tableau.
Le processus dassemblage peut prendre des jours, car il y a un certain nombre de chemins quun assembleur aurait besoin de parcourir et de réduire.
En génomique, vous avez un gros volume de données lorsque:
- Vous ne pouvez pas « forcer brutalement toutes les combinaisons
- Votre ordinateur n’a pas assez de mémoire physique pour stocker les données
- Vous devez réduire les dimensions (par exemple: réduire les chemins de graphes redondants)
- Vous êtes énervé parce que vous devez attendre des jours pour faire quoi que ce soit
- Vous avez besoin dune structure de données spéciale pour représenter les données
- Vous devez filtrer votre ensemble de données pour les erreurs (par exemple: erreurs de séquençage)
Réponse
Il y a une chose spéciale dans le graphe des algorithmes, vos questions originales qui les rendent alors spéciales, à savoir la capacité de partitionner les données essentiellement.
Pour certaines choses, comme le tri des nombres sur un tableau, il nest pas trop difficile de partitionner le problème sur la structure de données en plus petits morceaux disjonctifs, par exemple Ici: tri par fusion parallèle sur place
Pour les algorithmes de graphes, cependant, il est difficile de trouver un partitionnement facultatif sur une métrique graphique donnée être $ NP-dur $.
Donc, bien que 10 Go de nombres à trier puissent être un problème très bien accessible sur un PC normal (vous pouvez simplement entrer via une programmation dynamique et avoir une très bonne prévisibilité sur le déroulement du programme), travailler avec un graphique de 10 Go la structure de données peut déjà en défiant.
Il existe un certain nombre de cadres spécialisés tels que GraphX utilisant des méthodes et des paradigmes de calcul spéciaux pour contourner quelque peu les défis inhérents aux graphiques.
Donc, pour répondre brièvement à votre question: comme mentionné précédemment par dautres, lorsque vos données ne rentrent pas dans la mémoire principale dun PC normal mais que vous avez besoin de tout cela pour répondre à votre problème, cest un bon indice que votre les données sont déjà assez volumineuses. Létiquetage exact dépend, je pense, un peu de la structure des données et de la question posée.
Réponse
Je pense que le big data commence au point où la taille vous empêche de faire ce que vous voulez. Dans la plupart des scénarios, il existe une limite de durée dexécution considérée comme réalisable. Dans certains cas, cest une heure, dans certains cas, cela peut prendre quelques semaines. Tant que les données ne sont pas suffisamment volumineuses pour que seuls les algorithmes O (n) puissent fonctionner dans les délais impartis, vous n’avez pas atteint le big data.
Jaime cette définition car elle est indépendante du volume, niveau technologique et algorithmes spécifiques. Ce nest pas indépendant des ressources, donc un étudiant diplômé atteindra le stade du Big Data bien avant Google.
Afin de pouvoir quantifier la taille des données, jaime prendre en compte le temps nécessaire pour la sauvegarder. Depuis les progrès technologiques, les volumes considérés comme importants il y a quelques années sont maintenant modérés. Le temps de sauvegarde saméliore à mesure que la technologie saméliore, tout comme la durée dexécution des algorithmes dapprentissage. Je pense que cest plus raisonnable pour parler dun ensemble de données, la sauvegarde prend X heures et non dun ensemble de données de Y octets.
PS.
Il est important de noter que même si vous avez atteint le point Big Data et vous ne pouvez pas exécuter des algorithmes de complexité plus que O (n) de manière simple, il y a beaucoup à faire pour continuer à bénéficier dun tel algorithme s.
Par exemple, la sélection de fonctionnalités peut réduire le nombre de fonctionnalités dont dépend le temps dexécution de nombreux algorithmes. Dans de nombreuses distributions à longue traîne, se concentrer sur les quelques éléments de la tête pourrait être bénéfique. Vous pouvez utiliser un exemple et y exécuter les algorithmes les plus lents.
Commentaires
- Notez que la barrière $ O (n) $ a également été franchie maintenant dans certains domaines du ML. Voir [ grigory.us/mpc-workshop-dimacs.html] pour latelier sur les algorithmes sublinéaires pour le ML [1]: grigory.us/mpc-workshop-dimacs.html
Réponse
Les données sont du « Big Data » si elles sont dun volume tel quil est moins coûteux de les analyser sur deux ordinateurs ou plus, que sur un ordinateur haut de gamme.
Cest essentiellement ainsi que Google « s » Le système de fichiers de BigFiles « est né. Page et Brin ne pouvaient pas se permettre un serveur Sun sophistiqué pour stocker et rechercher leur index Web, ils ont donc connecté plusieurs ordinateurs de base
Réponse
Jai tendance à être daccord avec ce que @Dan Levin a déjà dit. En fin de compte, puisque nous voulons tirer des informations utiles des données plutôt que de simplement les stocker, cest le capacité dapprentissage des algorithmes / systèmes qui devraient déterminer ce que lon appelle « Big data ». À mesure que les systèmes de ML évoluent, ce qui était le Big Data aujourdhui ne le sera plus demain.
Une façon de définir le Big Data pourrait être:
- Big data : données sur lesquelles vous ne pouvez pas créer de modèles ML en temps raisonnable (1 à 2 heures) sur un poste de travail typique (avec par exemple 4 Go de RAM)
- Non-Big data : complément de ce qui précède
En supposant cette définition, tant que la mémoire occupée par une ligne individuelle (toutes les variables pour un seul point de données) ne dépasse pas la RAM de la machine, nous devrions être dans le Non-big data régime.
Remarque: Vowpal Wabbit (de loin le système ML le plus rapide à ce jour) peut apprendre sur nimporte quel ensemble de données à condition quune ligne individuelle (point de données) soit < RAM (par exemple 4 Go) . Le nombre de lignes est pas une limitation car il utilise SGD sur plusieurs cœurs. Par expérience, vous pouvez entraîner un modèle avec 10 000 fonctionnalités et 10 millions de lignes sur un ordinateur portable en une journée.
Réponse
« Big data « est littéralement un grand nombre de données. Bien quil sagisse plus dun terme marketing quautre chose, limplication est généralement que vous avez tellement de données que vous ne pouvez pas analyser toutes les données à la fois en raison de la quantité de mémoire (RAM) nécessaire pour contenir les données la mémoire à traiter et analyser est supérieure à la quantité de mémoire disponible.
Cela signifie que les analyses doivent généralement être effectuées sur des segments de données aléatoires, ce qui permet de construire des modèles pour les comparer avec dautres parties des données.