많은 사람들이 빅 데이터 라는 용어를 상업적인 방법으로 사용합니다. 큰 데이터 세트가 계산에 포함되므로 잠재적 솔루션이 좋은 성능을 가져야 함을 나타냅니다. 물론 빅 데이터 는 항상 확장 성 및 효율성과 같은 관련 용어를 가지고 있지만 문제를 빅 데이터 문제로 정확히 정의하는 것은 무엇입니까?
계산은 데이터 마이닝 / 정보 검색과 같은 특정 목적 집합과 관련되어야하며 데이터 세트가 충분히 큰 em 경우 일반 그래프 문제에 대한 알고리즘에 빅 데이터 라는 레이블이 지정 될 수 있습니다. >? 또한 충분히 얼마나 크게 (정의 할 수 있다면)?
댓글
- 데이터가 정상적인 사용에 비해 너무 커지기 시작하는시기에 대한 유용한 기사 chrisstucchio.com/blog/2013/hadoop_hatred.html
- ” 무엇이든 Excel로로드하기에 큰 문제는 ” 실행중인 농담입니다.
- 그것은 단지 유행어로 던져 지는지 여부에 따라 다릅니다.
- 정확히 1GB입니다. ‘ 이것이 ‘ 규칙 집의 컷오프입니다. 모호 할 여지가 없습니다.
- 훌륭한 질문입니다. 다양한 답변에서 알 수 있듯이 정의는 … 정의되지 않았습니다.
답변
나에게 (출시 예정) 관계형 데이터베이스 배경에서 볼 때) “빅 데이터”는 기본적으로 데이터 크기 (지금까지 다른 답변의 대부분)에 관한 것이 아닙니다.
“빅 데이터”및 “잘못된 데이터”는 밀접하게 관련. 관계형 데이터베이스에는 “깨끗한 데이터”가 필요합니다. 데이터가 데이터베이스에있는 경우 정확하고 깨끗하며 100 % 신뢰할 수 있습니다. 관계형 데이터베이스에는 “훌륭한 데이터”가 필요하며 데이터를 데이터베이스에로드하기 전에 데이터가 잘 준비되었는지 확인하는 데 막대한 시간, 비용 및 책임이 필요합니다. 데이터가 데이터베이스에 있으면 “복음”이며 현실에 대한 시스템 이해를 정의합니다.
“빅 데이터”는이 문제를 다른 방향에서 다룹니다. 데이터가 잘못 정의되어 있고 대부분 부정확 할 수 있으며 실제로 대부분 누락 될 수 있습니다. 데이터의 구조와 레이아웃은 관계형과 달리 선형 적입니다.
빅 데이터는 잘못된 데이터 또는 누락 된 데이터의 양이 통계적으로 중요하지 않을 수 있도록 충분한 양을 가져야합니다. 데이터의 오류가 서로를 상쇄 할 수있을 정도로 공통적 일 때, 누락 된 데이터가 무시해도 될 정도로 충분히 작으며 데이터 액세스 요구 사항 및 알고리즘이 불완전하고 부정확 한 데이터에서도 작동하는 경우 “빅 데이터”가 있습니다. .
빅 데이터는 실제로 볼륨에 관한 것이 아니라 데이터의 특성에 관한 것입니다.
댓글
- +1 빅 데이터가 크기 가 아니라 내용 (특성) 이 무엇인지에 대한 스트레스에 대해 매우 감사합니다.
- 매우 신선한 관점입니다. 나는 이것을 전에 들어 본 적이 없지만 매우 사실입니다. 이는 SQL 및 NoSQL 기술이 경쟁력이 아니라 보완 적이라는 것을 의미합니다.
- 당신은 ‘ 빅 데이터가 아니라 비정형 데이터에 대해 이야기하고 있습니다. 비정형 데이터는 일반적으로 애플리케이션에서 NoSQL 솔루션과 빅 데이터로 이어지지 만 여전히 다릅니다.
- 빅 데이터가 무엇인지에 대한 좋은 비즈니스 관점이라고 생각하지만 상당히 지적 된 특정 질문에 대한 답변은 아닙니다. ” 빅 데이터는 얼마나 큰가요? ”
답변
당신이 당연히 알고 있듯이, 요즘 “빅 데이터”는 모든 사람들이 “빅 데이터”라고 말하고 싶어하는 것이므로 사람들이 용어를 정의하는 방식이 다소 느슨합니다.하지만 일반적으로 저는 적어도 Hadoop과 같은 빅 데이터 기술로 보완하지 않고는 RDBMS와 같은 더 전통적인 기술로 더 이상 관리 할 수 없을 정도로 규모가 크다면 빅 데이터를 확실히 다루고 있습니다.
실제로 데이터가 얼마나 커야하는지는 논란의 여지가 있습니다. 다음은 5TB 미만의 데이터에 대해서는 사실이 아니라고 주장하는 (다소 도발적인) 블로그 게시물 입니다. (확실히 말하자면 “5TB 미만은 빅 데이터가 아니다”라고 주장하는 것이 아니라 “5TB 미만은 Hadoop이 필요할만큼 충분히 크지 않다”는 것입니다.
하지만 소규모 데이터 세트에서 Hadoop과 같은 빅 데이터 기술은 배치 작업에 적합하고, 구조화되지 않은 데이터 (구조가 사전에 알려지지 않았거나 변경 될 수있는 데이터)를 잘 활용하는 등의 다른 이점을 가질 수 있습니다. 기존 서버를 강화하는 대신 더 많은 노드를 추가하고 (위에 링크 된 게시물 노트의 주석 작성자 중 한 명으로) 데이터 처리를 외부 데이터 세트와 통합하는 기능 (매퍼가 생성하는 맵 축소를 생각해보십시오. 다른 서버로 호출).NoSql 데이터베이스와 같은 빅 데이터와 관련된 다른 기술은 대규모 데이터 집합을 처리하는 동시에 빠른 성능과 일관된 가용성을 강조 할뿐만 아니라 반 구조화되지 않은 데이터를 처리하고 수평 적으로 확장 할 수 있습니다.
물론 , 기존 RDBMS는 ACID 보증 (원 자성, 일관성, 격리, 내구성) 및 특정 작업에 대한 더 나은 성능을 포함하는 고유 한 장점을 가지고있을뿐만 아니라 더 표준화되고 성숙하며 (많은 사용자에게) 더 친숙합니다. 따라서 명백한 “큰”데이터의 경우에도 데이터의 적어도 일부를 기존 SQL 데이터베이스로로드하고이를 빅 데이터 기술과 함께 사용하는 것이 합리적 일 수 있습니다.
더 관대 한 정의입니다. 빅 데이터 기술이 여러분에게 부가 가치를 제공 할만큼 충분히 크면 빅 데이터를 갖게 될 것입니다.하지만 보시다시피 데이터 크기뿐만 아니라 원하는 작업 방식에 따라 달라질 수 있습니다. 유연성, 일관성 및 성능 측면에서 어떤 종류의 요구 사항이 있는지 확인합니다. 데이터를 어떻게 사용하는지가 데이터를 사용하는 목적보다 질문과 더 관련이 있습니다. (예 : 데이터 마이닝) 즉, 데이터 마이닝 및 머신 러닝과 같은 사용은 작업하기에 충분한 데이터 세트가있는 경우 유용한 결과를 얻을 가능성이 높습니다.
댓글
- 이 댓글은 거의 5 년이 지났으며 일부는 여전히 사실이지만 제가 인용 한 블로그의 5TB 임계 값은 확실히 아닙니다. 더 이상 사실이 아닙니다. 예를 들어 Microsoft는 최대 100TB의 ” hyperscale ” SQL DB를 제공합니다. docs.microsoft.com/en-us/azure/sql-database/… 물론 거대한 SQL DB를 가진 많은 조직이 또한 있다고 가정 할 수 있습니다. i> 예를 들어 다양한 워크로드를 지원하는 Spark 클러스터가 있습니다. ‘ 둘 중 하나를 선택해야하는 규칙이 없습니다.
답변
전 세계의 총 데이터 양 : 2012 년 2.8 제타 바이트, 2015 년에는 8 제타 바이트에이를 것으로 예상 ( 출처 ) 및 두 배의 시간 40 개월. 그보다 더 커질 수는 없습니다 🙂
하나의 대규모 조직의 예로서 Facebook은 하루에 500TB를 100 페타 바이트웨어 하우스로 가져와 2012 년 기준으로 하루에 7 만 개의 쿼리를 실행합니다. ( 출처 ) 현재 창고는 300 페타 바이트를 초과합니다.
빅 데이터는 아마도 Facebook 수치의 상당 부분 일 것입니다 (1 / 100은 예, 1/10000은 그렇지 않을 수 있습니다. “단일 숫자가 아닌 스펙트럼).
크기 외에도”크게 “만드는 몇 가지 기능은 다음과 같습니다.
-
저장된 것이 아니라 적극적으로 분석됩니다 ( “빅 데이터를 활용하지 않으면 빅 데이터가 아니라 데이터 더미 만있는 것입니다”라고 인용하십시오. “Jay Parikh @ Facebook)
-
데이터웨어 하우스 구축 및 운영은 주요 인프라 프로젝트입니다.
-
대폭 성장하고 있습니다.
p>
-
구조화되지 않았거나 불규칙한 구조
Gartner 정의 : “빅 데이터는 대용량, 고속, / 또는 새로운 형태의 처리가 필요한 매우 다양한 정보 자산 “(The 3Vs) 따라서 그들은 또한”거대 함 “이”전체적으로 데이터 세트의 크기에 관한 것이 아니라 속도와 구조 및 필요한 도구의 종류에 관한 것 “이라고 생각합니다.
댓글
- 전 세계의 총 데이터 양이 40 개월마다 두 배로 증가하면 다음보다 커질 수 있습니다 그. ; p
- 다른 사람들은 4V ‘의 빅 데이터 IBM 또는 5V를 설명합니다. ‘ s DAVE BEULKE 2011
- 원본 3V ‘는 Doug Laney 3D 데이터 관리 : 데이터 볼륨, 속도 및 다양성 제어 에 의해 2001 년에 설정되었습니다.
답변
나에게 빅 데이터는 기본적으로 도구에 관한 것입니다 (결국 시작된 지점). “큰”데이터 세트 기존 도구로 처리하기에는 너무 커서 특히 단일 머신이 아닌 클러스터에서 스토리지 및 처리를 요구할만큼 충분히 큰 것입니다. 이것은 기존의 RDBMS를 배제하고 새로운 처리 기술을 요구합니다. 특히 다양한 Hadoop 유사 프레임 워크를 사용하면이 계산의 형태를 제한하는 대신 클러스터에 계산을 쉽게 분산시킬 수 있습니다. 두 번째로 http://www.chrisstucchio.com/blog/2013/hadoop_hatred.html 를 참조하겠습니다. 빅 데이터 기술은 너무 큰 데이터 세트에 대한 최후의 수단입니다. 어떤 목적 으로든 데이터 세트가 충분히 크면 자격을 부여 할 수 있다고 말하고 싶습니다. 문제의 형태가 기존의 “빅 데이터”도구가 적절하지 않은 경우라면 더 좋을 것입니다. 새로운 이름을 만들었습니다.
물론 겹치는 부분이 있습니다. 내가 last.fm에서 (간단히) 일했을 때, 우리는 Hadoop을 사용하여 동일한 50TB 데이터 세트를 작업했고 상당히 우스꽝스러운 서버의 SQL 데이터베이스에서도 작업했습니다 (1TB RAM이 있었는데 이것은 몇 년 전입니다). 어떤 의미에서 당신이 어떤 작업을했는지에 따라 빅 데이터 였고 그렇지 않았 음을 의미합니다.하지만 저는 그것이 “정확한 특성화”라고 생각합니다. Hadoop 작업에 참여한 사람들은 빅 데이터 컨퍼런스와 웹 사이트를 방문하는 것이 유용하다고 생각했지만 SQL 작업에 참여한 사람들은 그렇지 않았습니다.
답변
하나의 일반용 컴퓨터 가 더 이상 보유한 데이터의 양을 처리 할 수 없을 때 데이터가 “큰”상태가됩니다. 슈퍼 컴퓨터를 구축하거나 클러스터를 사용하여 데이터를 처리하는 것에 대해 생각해야하는 시점입니다.
답변
빅 데이터가 정의됩니다. 데이터의 양에 따라 맞습니다. 빅 데이터의 특이성은 많은 의 를 저장해야한다는 것입니다. 다양한 및 때때로 구조화되지 않은 항목 항상 및 수톤의 센서 에서 일반적으로 수년 또는 10 년 동안 .
또한 확장 가능한 무언가가 필요하므로 필요하지 않습니다. 데이터를 찾는 데 반년이 걸립니다.
이제 빅 데이터가 등장했습니다. 기존 방식은 더 이상 작동하지 않습니다. SQL은 확장 가능하지 않습니다. SQL은 매우 구조화되고 연결된 데이터 (모두 기본 및 외래 키 엉망, innerjoin, 복제 된 요청 …).
기본적으로 스토리지는 더 저렴하고 저렴 해지고 데이터는 점점 더 가치가 높아 지므로 엔지니어에게 모든 것을 기록하도록 요청합니다. 이 모든 모바일, 소셜 네트워크, 내장 된 항목 등을 포함하는 수많은 새로운 센서. 따라서 고전적인 방법이 작동하지 않기 때문에 새로운 기술을 찾아야합니다 (파일에 모든 것을 json 형식, 큰 색인, 우리가 noSQL이라고 부르는 형식으로 저장).
빅 데이터는 매우 클 수 있지만 그렇게 크지는 않지만 구조화되지 않은 복잡한 데이터이거나 원시 형식으로 빠르게 저장해야하는 다양한 데이터가 될 수 있습니다. 처음에는 집중하고 저장 한 다음 모든 것을 연결하는 방법을 살펴 봅니다.
답변
저는 유전체학, 특히 de-novo 어셈블리에서 빅 데이터가 어떤 것인지 공유하겠습니다.
언제 우리는 당신의 게놈을 시퀀싱하고 (예 : 새로운 유전자를 탐지합니다) 수십억 개의 차세대 단편을 읽습니다. 아래 이미지를 참조하십시오. 여기에서 일부 읽기를 조합하려고합니다.
간단 해 보이나요? 하지만 수십억 개의 읽기가 있다면 어떨까요? 해당 읽기에 시퀀스 오류가 있으면 어떻게됩니까? RAM에 “읽기를 유지하기에 충분한 메모리가 없으면 어떻게합니까? 매우 일반적인 Alu Element 와 같은 반복적 인 DNA 영역은 어떻습니까?
De-novo 어셈블리는 De-Bruijn 그래프 를 구성하여 수행됩니다.
그래프는 중복 된 읽기를 나타내는 영리한 데이터 구조입니다. 완벽하지는 않지만 완벽하지는 않습니다. “가능한 모든 겹침을 생성하여 배열에 저장하는 것보다 낫습니다.
어셈블러가 가로 지르고 축소해야하는 경로가 상당히 많기 때문에 어셈블리 프로세스를 완료하는 데 며칠이 걸릴 수 있습니다.
유전체학에서는 다음과 같은 경우 빅 데이터가 있습니다.
- 모든 조합을 무차별 적으로 강제 할 수 없습니다.
- 컴퓨터에 물리적 메모리가 충분하지 않습니다. 데이터를 저장하려면
- 크기를 줄여야합니다 (예 : 중복 된 그래프 경로 축소).
- 무엇이든 할 수있는 일
- 데이터를 표현하려면 특별한 데이터 구조가 필요합니다.
- 데이터 세트에서 오류를 필터링해야합니다 (예 : 시퀀싱 오류)
답변
그래프 알고리즘에는 특별한 점이 있습니다. 독창적 인 질문은 데이터를 본질적으로 분할하는 능력에 관한 것입니다.
배열에서 숫자 정렬과 같은 일부 경우 데이터 구조의 문제를 더 작은 분리 조각으로 분할하는 것이 그리 어렵지 않습니다. 여기 : 병렬 인플레 이스 병합 정렬
그래프 알고리즘의 경우 주어진 그래픽 메트릭에서 선택적 분할을 찾는 것이 알려진 문제가 있습니다. $ NP-hard $가됩니다.
따라서 정렬 할 10GB 숫자는 일반 PC에서 매우 접근하기 쉬운 문제 일 수 있지만 (동적 프로그래밍을 통해 입력 할 수 있고 프로그램 흐름에 대해 매우 좋은 예측 가능성을 가질 수 있음) 10GB 그래프로 작업 데이터 구조는 이미 도전에 의해 가능합니다.
그래프의 고유 한 문제를 다소 회피하기 위해 메소드와 특수 컴퓨팅 패러다임을 사용하는 GraphX 와 같은 여러 특수 프레임 워크가 있습니다.
그러므로 간단히 질문에 답하십시오. 앞서 언급했듯이 데이터가 일반 PC의 주 메모리에 맞지 않지만 문제를 해결하기 위해 모든 데이터가 필요한 경우 데이터는 이미 다소 큽니다. 정확한 라벨링은 데이터 구조와 질문에 약간의 영향을 미친다고 생각합니다.
답변
빅 데이터는 크기 때문에 원하는 작업을 할 수없는 지점에서 시작한다고 생각합니다. 대부분의 시나리오에서 실행 가능한 것으로 간주되는 실행 시간에 제한이 있습니다. 어떤 경우에는 한 시간이고 어떤 경우에는 몇 주일 수도 있습니다. 데이터가 O (n) 알고리즘 만 실행 가능한 시간 프레임에 실행될 수있을만큼 충분히 크지 않은 한 빅 데이터에 도달하지 못했습니다.
이 정의는 볼륨과 무관하기 때문에 마음에 듭니다. 기술 수준 및 특정 알고리즘입니다. 리소스에 구애받지 않기 때문에 대학원생은 Google보다 먼저 빅 데이터 지점에 도달 할 것입니다.
데이터의 크기를 정량화 할 수 있기 위해 저는 백업에 필요한 시간을 고려하십시오. 기술이 발전함에 따라 몇 년 전에 큰 것으로 간주되었던 볼륨이 이제는 적당합니다. 학습 알고리즘의 실행 시간과 마찬가지로 기술이 향상됨에 따라 백업 시간이 향상됩니다. 더 합리적이라고 생각합니다. 데이터 세트에 대해 이야기하려면 백업하는 데 X 시간이 걸리며 Y 바이트 데이터 세트가 아닙니다.
PS.
빅 데이터 포인트에 도달 했더라도 O (n) 이상의 복잡한 알고리즘을 직접적으로 실행할 수는 없습니다. 이러한 알고리즘의 이점을 얻기 위해 할 수있는 일이 많습니다. s.
예를 들어 기능 선택은 많은 알고리즘 실행 시간이 의존하는 기능의 수를 줄일 수 있습니다. 많은 긴 꼬리 분포에서 머리의 몇 가지 항목에 초점을 맞추면 도움이 될 수 있습니다. 샘플을 사용하고 더 느린 알고리즘으로 실행할 수 있습니다.
댓글
- $ O (n) $ 장벽도 위반되었습니다. 이제 ML의 일부 도메인에서. ML을위한 하위 선형 알고리즘 워크샵은 [ grigory.us/mpc-workshop-dimacs.html] 을 참조하세요. [1] : grigory.us/mpc-workshop-dimacs.html
답변
데이터는 한 대의 고급 컴퓨터보다 두 대 이상의 상용 컴퓨터에서 분석하는 것이 더 저렴할 정도로 볼륨이 큰 경우 “빅 데이터”입니다.
이것은 본질적으로 Google의 ” BigFiles “파일 시스템이 시작되었습니다. Page와 Brin은 웹 인덱스를 저장하고 검색 할 수있는 멋진 Sun 서버를 감당할 수 없었기 때문에 여러 상용 컴퓨터를 연결했습니다.
Answer
저는 @Dan Levin이 이미 말한 것에 동의하는 경향이 있습니다. 궁극적으로 데이터를 저장하는 것보다 데이터에서 유용한 통찰력을 얻고 자하기 때문에 “ 학습 알고리즘 / 시스템의 능력 은 “빅 데이터”를 결정해야합니다. ML 시스템이 진화함에 따라 오늘날 빅 데이터는 더 이상 내일 빅 데이터가 아닙니다.
빅 데이터를 정의하는 한 가지 방법은 다음과 같습니다.
- 빅 데이터 : 일반적인 워크 스테이션에서 적당한 시간 (1 ~ 2 시간) 내에 ML 모델을 구축 할 수없는 데이터 (4GB RAM 포함)
- 비빅 데이터 : 위의 보완
이 정의를 가정하면 개별 행 (단일 데이터 포인트에 대한 모든 변수)이 차지하는 메모리가 머신 RAM을 초과하지 않는 한 비빅 데이터 에 있어야합니다. em> 정권.
참고 : Vowpal Wabbit (현재까지 가장 빠른 ML 시스템)은 개별 행 (데이터 포인트)이 < RAM (예 : 4GB)이면 모든 데이터 세트에서 학습 할 수 있습니다. . 행 수는 제한이 아닙니다. 는 다중 코어에서 SGD를 사용하기 때문입니다. 경험을 바탕으로 노트북에서 하루에 10,000 개의 기능과 1,000 만 개의 행으로 모델을 학습 할 수 있습니다.
답변
“대형 데이터 “는 말 그대로 많은 양의 데이터입니다. 무엇보다 마케팅 용어에 가깝지만 데이터를 저장하는 데 필요한 메모리 (RAM)의 양 때문에 한 번에 모든 데이터를 분석 할 수없는 데이터가 너무 많다는 의미입니다. 처리하고 분석 할 메모리가 사용 가능한 메모리 양보다 큽니다.
이것은 일반적으로 데이터의 다른 부분과 비교하기 위해 모델을 구축 할 수 있도록 데이터의 무작위 세그먼트에 대해 분석을 수행해야 함을 의미합니다.