Mnoho lidí používá výraz big data spíše komerčně jako prostředek k což naznačuje, že do výpočtu jsou zapojeny velké datové sady, a proto musí mít potenciální řešení dobrý výkon. Samozřejmě, velká data vždy nesou související pojmy, jako je škálovatelnost a účinnost, ale co přesně definuje problém jako velký datový problém?
Má výpočet musí souviset s nějakou sadou konkrétních účelů, jako je dolování dat / získávání informací, nebo může být algoritmus pro obecné problémy s grafy označen jako velká data , pokud byl soubor dat dostatečně velký ? Jak velký je dostatečně velký (pokud je to možné definovat)?
Komentáře
- Pěkný článek o tom, kdy vaše data začnou být příliš velká pro běžné použití chrisstucchio.com/blog/2013/hadoop_hatred.html
- “ Cokoliv příliš velké načtení do aplikace Excel “ je běžící vtip.
- To záleží na tom, zda je právě vhozeno jako módní slovo.
- Má ‚ přesně 1 GB. To je ‚ omezení v knize pravidel. Neexistuje prostor pro dvojznačnost.
- To je vynikající otázka. Jak je naznačeno rozmanitostí odpovědí, definice je … undefined
Odpověď
Pro mě (přichází z pozadí relační databáze), „Big Data“ není primárně o velikosti dat (což je převážná část toho, co jsou zatím ostatní odpovědi).
„Big Data“ a „Bad Data“ jsou úzce souvisí. Relační databáze vyžadují „původní data“. Pokud jsou data v databázi, jsou přesná, čistá a 100% spolehlivá. Relační databáze vyžadují „skvělá data“ a je věnováno obrovské množství času, peněz a odpovědnosti, aby bylo zajištěno, že jsou data před načtením do databáze dobře připravena. Pokud jsou data v databázi, jedná se o „evangelium“ a definuje systémové chápání reality.
„Big Data“ řeší tento problém z jiného směru. Data jsou špatně definována, většina z nich může být nepřesná a většina z nich ve skutečnosti může chybět. Struktura a rozložení dat je na rozdíl od relačních lineární.
Big Data musí mít dostatečný objem, aby se množství špatných dat nebo chybějících dat stalo statisticky nevýznamným. Když jsou chyby ve vašich datech dostatečně běžné na to, aby se navzájem rušily, když jsou chybějící data dostatečně malá na to, aby byla zanedbatelná a když jsou vaše požadavky na přístup k datům a algoritmy funkční i při neúplných a nepřesných datech, máte „velká data“ .
„Big Data“ ve skutečnosti není o objemu, ale o vlastnostech dat.
Komentáře
- +1 Velice si vážím toho, že stres na velkých datech není o tom, jaká je velikost , a spíše o jaký je obsah (vlastnosti) .
- To je velmi osvěžující pohled. Nikdy předtím jsem to neslyšel, ale je to velmi pravda. To naznačuje, že technologie SQL a NoSQL nejsou konkurenční, ale doplňkové.
- Mluvíte ‚ o nestrukturovaných datech, ne o velkých datech. Nestrukturovaná data obvykle vedou k řešení NoSQL a velkým datům v aplikaci, ale stále se liší.
- Myslím, že je to dobrá obchodní perspektiva toho, co jsou velká data, ale neodpovídá na konkrétní otázku, která je docela ostrá. “ jak velká jsou velká data? “
odpověď
Jak správně poznamenáváte, v dnešní době je „big data“ něco, co chce každý říci, že „má“, což znamená určitou volnost v tom, jak lidé tento pojem definují. Obecně však „Řekněme, že s velkými daty určitě jednáte, pokud je rozsah tak velký, že již není možné spravovat s tradičnějšími technologiemi, jako je RDBMS, přinejmenším bez jejich doplňování s velkými datovými technologiemi, jako je Hadoop.
Jak velká musí být vaše data, aby to tak bylo, je diskutabilní. Zde je (poněkud provokativní) příspěvek na blogu , který tvrdí, že tomu tak ve skutečnosti není pro méně než 5 TB dat. (Aby bylo jasno, netvrdí, že „méně než 5 TB není„ velká data “, ale jen„ „méně než 5 TB, není dostatečně velká, abyste potřebovali Hadoop“.)
Ale ani na menších datových sadách mohou mít technologie velkých dat, jako je Hadoop, další výhody, včetně toho, že se dobře hodí pro dávkové operace, dobře si hrají s nestrukturovanými daty (stejně jako s daty, jejichž struktura není předem známa nebo by se mohla změnit), horizontální škálovatelnost (škálování pomocí přidání více uzlů namísto posílení stávajících serverů) a (jako jeden z komentátorů výše uvedených poznámek k příspěvku) schopnost integrovat vaše zpracování dat s externími datovými sadami (přemýšlejte o mapě, kde mapovač vytvoří volání na jiný server).Jiné technologie spojené s velkými daty, jako jsou databáze NoSql, zdůrazňují rychlý výkon a konzistentní dostupnost při práci s velkými soubory dat a také schopnost zpracovávat polostrukturovaná data a horizontální měřítko.
Samozřejmě , tradiční RDBMS mají své vlastní výhody včetně ACID záruk (Atomicity, Consistency, Isolation, Durability) a lepšího výkonu pro určité operace, stejně jako jsou standardizovanější, vyspělejší a (pro mnoho uživatelů) více známé. Takže i pro nepopiratelně „velká“ data může mít smysl načíst alespoň část vašich dat do tradiční databáze SQL a použít je ve spojení s velkými datovými technologiemi.
Takže, velkorysější definice by bylo to, že máte velká data, pokud jsou dostatečně velká na to, aby vám technologie velkých dat poskytly určitou přidanou hodnotu. Ale jak vidíte, to může záviset nejen na velikosti vašich dat, ale na tom, jak chcete pracovat s tím a jaký druh požadavků máte, pokud jde o flexibilitu, konzistenci a výkon. Jak používáte svá data, je pro danou otázku důležitější než to, k čemu je používáte (např. dolování dat). To znamená, že použití, jako je dolování dat a strojové učení, pravděpodobně přinesou užitečné výsledky, pokud máte dostatečně velký soubor dat, se kterými můžete pracovat.
Komentáře
- Tento komentář je téměř 5 let starý, a zatímco jeho části jsou stále pravdivé, prahová hodnota 5 TB z blogu, který jsem citoval, určitě není už to není pravda. Společnost Microsoft například nabízí “ hyperscale “ SQL DB až do 100 TB: docs.microsoft.com/en-us/azure/sql-database/… Samozřejmě lze předpokládat mnoho organizací s obrovskými databázemi SQL také Mám> řekněme cluster Spark pro podporu různých pracovních zátěží. ‚ Neexistuje pravidlo, že musíte zvolit jedno nebo druhé.
Odpovědět
Celkové množství dat na světě: 2,8 zetabytů v roce 2012, odhaduje se, že do roku 2015 dosáhnou 8 zetabytů ( zdroj ) a se zdvojnásobením času 40 měsíců. Nelze se zvětšit 🙂
Jako příklad jedné velké organizace Facebook stáhne 500 terabajtů denně do skladu o velikosti 100 petabajtů a od roku 2012 na něj spustí 70 tis. Dotazů denně ( zdroj ) Jejich aktuální sklad je> 300 petabajtů.
Velká data jsou pravděpodobně něco, co je dobrým zlomkem čísel na Facebooku (1 / 100 pravděpodobně ano, 1/10000 pravděpodobně ne: není to jediné číslo).
Kromě velikosti jsou některé z funkcí, díky nimž je „velké“:
-
je aktivně analyzován, nejen uložen (citát „Pokud nevyužíváte výhod velkých dat, nemáte velká data, máte jen hromadu dat“ Jay Parikh @ Facebook)
-
budování a provozování datového skladu je významným infrastrukturním projektem
-
významně roste
-
je nestrukturovaný nebo má nepravidelnou strukturu
Gartnerova definice: „Big data is high volume, high velocity, and / nebo různorodá informační aktiva, která vyžadují nové formy zpracování „(3V) Takže si také myslí, že“ bigness „není úplně o velikosti datové sady, ale také o rychlosti a struktuře a druhu potřebných nástrojů.
Komentáře
- Pokud se celkový objem dat na světě každých 40 měsíců zdvojnásobí, pak se určitě může zvětšit než že. ; p
- Jiní popisují 4 V ‚ s velkých dat IBM nebo dokonce 5 V ‚ s DAVE BEULKE 2011
- Původní 3 V ‚ s byly uvedeny v roce 2001 Dougem Laneym 3D Data Management: Controlling Data Volume, Velocity, and Variety .
Odpověď
Big Data jsou pro mě primárně o nástrojích (koneckonců, tam, kde to začalo); „velká“ datová sada je ten, který je příliš velký na to, aby s ním bylo možné manipulovat pomocí konvenčních nástrojů – zejména dostatečně velký na to, aby vyžadoval skladování a zpracování na klastru spíše než na jednom stroji. To vylučuje konvenční RDBMS a vyžaduje nové techniky zpracování; zejména různé rámce podobné Hadoopu usnadňují distribuci výpočtu po klastru za cenu omezení formy tohoto výpočtu. Budu sekundovat odkaz na http://www.chrisstucchio.com/blog/2013/hadoop_hatred.html ; techniky Big Data jsou poslední možností pro soubory dat, které jsou prostě příliš velké zvládnout jakýmkoli jiným způsobem. Řekl bych, že jakýkoli datový soubor pro jakýkoli účel by se mohl kvalifikovat, pokud by byl dostatečně velký – i když je tvar problému takový, že stávající nástroje „velkých dat“ nejsou vhodné, pak by to bylo pravděpodobně lepší přijít s novým jménem.
Samozřejmě existuje určité překrývání; když jsem (krátce) pracoval na last.fm, pracovali jsme na stejné datové sadě 50TB pomocí Hadoop a také v databázi SQL na poměrně směšném serveru (pamatuji si, že to mělo 1TB RAM, a to je před několika lety). Což v jistém smyslu znamenalo, že to byla a nebyla velká data, v závislosti na tom, na jaké práci jste pracovali. Ale myslím, že je to přesná charakteristika; lidé, kteří pracovali na pracovních pozicích Hadoop, považovali za užitečné navštěvovat konference a webové stránky Big Data, zatímco lidé, kteří pracovali na pracovních pozicích SQL, ne.
Odpovědět
Data se stanou „velkými“, když jeden komoditní počítač již nedokáže zpracovat množství dat, která máte. Označuje bod, ve kterém musíte začít přemýšlet o stavbě superpočítačů nebo o využití vašich clusterů ke zpracování dat.
Odpověď
Velká data jsou definována podle objemu dat, to je pravda, ale nejen. Zvláštností velkých dat je, že musíte uložit spousty z různé a někdy nestrukturované věci vždy a z tun senzorů , obvykle po celá léta nebo desetiletí .
Dále potřebujete něco škálovatelného, aby vás to nezabralo půl roku najít data zpět.
Takže tady jsou velká data, kde tradiční metoda už nebude fungovat. SQL není škálovatelný. A SQL pracuje s velmi strukturovanými a propojenými daty (se všemi nepořádek v primárním a cizím klíči, vnitřní spojení, napodobený požadavek …).
V zásadě, protože úložiště je stále levnější a levnější a data se stávají stále cennějšími, velký manažer požádá inženýra, aby vše zaznamenal. Přidat do tato spousta nových senzorů se všemi těmi mobilními, sociálními sítěmi, vloženými věcmi … atd. Protože klasické metody nebudou fungovat, musí hledat nové technologie (ukládání všeho do souborů, ve formátu JSON, s velkým indexem, čemu říkáme noSQL).
Takže Big Data mohou být velmi velká, ale nemusí být tak velká, ale složitá, nestrukturovaná nebo různá data, která se musí rychle a on-the-run ukládat v nezpracovaném formátu. Nejprve se soustředíme a ukládáme a potom se podíváme, jak vše propojit.
Odpověď
Sdílím, jaké jsou Big Data v genomice, zejména v de-novo sestavě.
Když sekvenujeme váš genom (např .: detekujeme nové geny), provedeme miliardy krátkých čtení nové generace. Podívejte se na obrázek níže, kde se pokoušíme shromáždit několik čtení.
Vypadá to jednoduše? Ale co když máte miliardy těchto čtení? Co když tato čtení obsahují chyby sekvence? Co když vaše RAM nemá dostatek paměti k udržení čtení? A co opakující se oblasti DNA, jako je velmi běžný Alu prvek ?
Sestava De-novo se provádí vytvořením grafu De-Bruijn :
Graf je chytře vytěžená datová struktura, která představuje překrývající se čtení. Není to dokonalé, ale je to „Je lepší než generovat všechna možná překrytí a ukládat je do pole.
Dokončení procesu sestavení může trvat několik dní, protože existuje řada cest, které by asembler musel projít a sbalit.
V genomice máte velká data, když:
- Nemůžete hrubou silou všechny kombinace
- Váš počítač nemá dostatek fyzické paměti pro uložení dat
- Musíte zmenšit rozměry (např. sbalení redundantních cest grafů)
- Naštve vás, protože byste museli počkejte dny, než něco uděláte
- K reprezentaci dat potřebujete speciální datovou strukturu
- Musíte filtrovat datovou sadu podle chyb (např. chyby sekvenování)
Odpovědět
Algoritmy grafů mají speciální věc, původní otázky jsou pak speciální, což je o schopnosti v zásadě rozdělit data.
U některých věcí, jako je třídění čísel v poli, není příliš obtížné rozdělit problém datové struktury na menší disjunktivní části, např. Zde: Třídit sloučení paralelně na místě
U grafových algoritmů však existuje výzva, že nalezení volitelného rozdělení na danou grafickou metriku je známé být $ NP-tvrdý $.
Takže zatímco 10 GB čísel k třídění může být na běžném PC velmi dobře přístupným problémem (stačí je zadat pomocí dynamického programování a máte velmi dobrou předvídatelnost toku programu), práce s 10 GB grafem datová struktura již může být náročná.
Existuje celá řada specializovaných rámců, například GraphX , které používají metody a speciální výpočetní paradigmata k obcházení inherentních výzev grafů.
Takže ke stručné odpovědi na vaši otázku: Jak již bylo zmíněno dříve, když se vaše data nevejdou do hlavní paměti na normálním počítači, ale potřebujete vše, abyste mohli odpovědět na svůj problém, je dobrý tip, že vaše data jsou již poněkud velká. Přesné označení však záleží, myslím, že trochu na datové struktuře a otázce.
Odpověď
Myslím si, že velká data začínají v okamžiku, kdy vám velikost brání v tom, co chcete. Ve většině scénářů existuje omezení doby provozu, které je považováno za proveditelné. V některých případech je to hodina, v některých případech to může být několik týdnů. Dokud data nejsou dostatečně velká, aby v proveditelném časovém rámci mohly běžet pouze O (n) algoritmy, nedosáhli jste velkých dat.
Líbí se mi tato definice, protože její objem je agnostický, technologická úroveň a specifické algoritmy. Není zdrojem agnostiky, takže student postgraduálního studia dosáhne bodu velkého objemu dat před Googlem.
Abych mohl kvantifikovat, jak velká jsou data, rád vezměte v úvahu čas potřebný k jeho zálohování. Jelikož se technologie vyvíjí, objemy, které byly před několika lety považovány za velké, jsou nyní mírné. Čas zálohování se zlepšuje, jak se technologie zlepšuje, stejně jako doba chodu algoritmů učení. Mám pocit, že je to rozumnější mluvit o datové sadě trvá zálohování X hodin, nikoli datové sady Y bajtů.
PS.
Je důležité si uvědomit, že i když jste dosáhli bodu velkých dat a nemůžete spouštět algoritmy složitosti více než O (n) přímým způsobem, existuje spousta toho, co můžete udělat, abyste z takového algoritmu mohli i nadále těžit s.
Například výběr funkcí může snížit počet funkcí, na kterých závisí doba běhu mnoha algoritmů. V mnoha distribucích dlouhého ocasu může být přínosem zaostření na několik položek v hlavě. Můžete použít ukázku a spustit na ní pomalejší algoritmy.
Komentáře
- Všimněte si, že byla také porušena bariéra $ O (n) $. nyní v některých doménách ML. Workshop o sublearských algoritmech pro ML viz [ grigory.us/mpc-workshop-dimacs.html] : grigory.us/mpc-workshop-dimacs.html
Odpověď
Data jsou „velká data“, pokud mají takový objem, že je levnější analyzovat je na dvou nebo více komoditních počítačích než na jednom počítači vyšší třídy.
Takto v zásadě funguje Google Souborový systém BigFiles „vznikl. Page a Brin si nemohli dovolit přepychový server Sun k ukládání a prohledávání svého webového indexu, takže připojili několik komoditních počítačů
Odpovědět
Mám sklon souhlasit s tím, co již řekl @Dan Levin. Nakonec chceme data získat spíše než pouhé uložení, takže je to schopnost naučit se algoritmy / systémy , které by měly určovat, čemu se říká „velká data“. Vzhledem k tomu, že systémy ML vyvíjejí to, co bylo dnes Big Data, již zítra nebudou Big Data.
Jedním ze způsobů, jak definovat Big Data, může být:
- Big data : Data, na kterých nelze vytvořit modely ML za přiměřenou dobu (1–2 hodiny) na typické pracovní stanici (s řekněme 4 GB RAM)
- Non-Big data : doplněk výše uvedeného
Za předpokladu této definice, pokud paměť obsazená jednotlivým řádkem (všechny proměnné pro jeden datový bod) nepřesahuje RAM stroje, měli bychom být v Non-big data režim.
Poznámka: Vowpal Wabbit (zdaleka nejrychlejší systém ML k dnešnímu dni) se může naučit na jakékoli datové sadě, pokud je jednotlivý řádek (datový bod) < RAM (řekněme 4 GB) . Počet řádků není omezení protože používá SGD na více jádrech. Když už mluvíme o zkušenostech, model s 10k funkcemi a 10MN řádky můžete trénovat na notebooku za den.
Odpovědět
„Velký data „je doslova jen spousta dat. I když je to spíše marketingový výraz než cokoli jiného, implikace obvykle spočívá v tom, že máte tolik dat, že nemůžete analyzovat všechna data najednou, protože množství paměti (RAM), které by bylo potřeba k uchování dat paměť pro zpracování a analýzu je větší než množství dostupné paměti.
To znamená, že analýzy je obvykle nutné provádět na náhodných segmentech dat, což umožňuje srovnávání modelů s ostatními částmi dat.