Что же такое Big Data?

Большие данные (Big Data, биг дата) — это структурированные и неструктурированные данные огромных объемов и разнообразия, а также методы их обработки, которые позволяют распределённо анализировать информацию. Из самого определения следует, что большие данные – не технология, а явление, состоящее из большого количества данных и многих технологий их сбора, хранения и обработки. Ценность этого явления сегодня сложно переоценить: сравнивая большие данные, можно найти неочевидные закономерности. Чем больше вы знаете об объекте исследования, тем более точно вы сможете построить прогнозы о его будущем развитии и/или поведении.

С начала своего появления, большие данные обладали тремя определяющими характеристиками:

· Volume – объем как большая величина физического объема данных;

· Velocity – скорость, в смысле как скорости прироста необработанных данных, так и необходимости их высокоскоростной обработки и получения результатов анализа в реальном масштабе времени;

· Variety – разнообразие, в смысле необходимости обработки не только структурированной информации, но и неструктурированных данных всех типов: аудио, видео, изображения, текстовые файлы, а также смесь информации, полученной из различных источников.

Со временем появились и другие характеристики:

· Variability (переменчивость, изменчивость) – значение одних и тех же данных может различаться в зависимости от контекста;

· Veracity (достоверность) – информация должна быть избавлена от ошибок и неточностей в данных, которые могут привести к неправильным решениям;

· Viability (жизнеспособность) – устойчивость к условиям использования;

· Virality (виральность) – стремительность распространения среди пользователей;

· Visualization (визуализация) – возможность представления результатов анализа данных в наглядном виде;

На самом деле, очень сложно дать точное определение явлению Больших данных, но есть аспекты, которые признаны свойствами и признаками больших данных в наши дни:

· Данные:

o Объем генерируемых данных растет со скоростью более 60% в год;

o Объем накопленных данных превышает 1000 Тб;

o Два или более источника/формата данных, откуда следует:

o Неструктурированность, многообразность форматов;

· Инфраструктура:

o Анализ/обработка данных разворачиваются на динамически адаптируемой инфраструктуре, откуда следует:

o Специальные требования к технологиям обработки информации;

o Распределенная/параллельная обработка данных: используется много компьютеров, существует специальная сложная система одновременной (параллельной) обработки поступающей информации.

Стремительный рост объема данных и требования к скорости обработки сделали необходимым создание новой схемы работы с данными, разительно отличающейся от прежней:

Традиционный подход

Работа с большими данными

Бизнес задаёт вопрос (ежемесячная отчетность, анализ прибыли, анализ анкет), информационный отдел считает по заказу и структурирует данные для ответа.

Непрерывный сбор как можно большего количества данных, их первичная и более глубокая обработка и загрузка результатов в хранилище данных. После этого бизнес исследует эти данные. Вопросы (отношение к бренду, оптимизация расходов, персонализация) возникают в ходе обработки данных.

Явление требует новых методов и технологий обработки такого большого объема данных, таких как:

· Методы:

o Методы класса Data Mining – интеллектуальный анализ данных, обнаружение в данных новых практически значимых знаний, полезных для принятия решений в будущем;

o Машинное обучение – методы построения компьютерных алгоритмов, способных обучаться решению поставленной задачи;

o Предсказательная аналитика – класс методов анализа данных, концентрирующихся на прогнозировании будущего поведения объектов и субъектов с целью принятия оптимальных решений;

o Распознавание образов – ставятся задачи идентификации объекта или определения каких-либо его свойств по его изображению, аудиозаписи или другим характеристикам;

o Имитационное моделирование – метод исследования, при котором изучаемая система заменяется моделью, с достаточной точностью описывающей реальную систему, с которой проводятся эксперименты с целью получения информации об этой системе;

o Визуализация аналитических данных – представление информации в виде рисунков, диаграмм, с использованием интерактивных возможностей и анимации как для получения результатов, так и для использования в качестве исходных данных для дальнейшего анализа.

· Технологии:

o MapReduce – созданная компанией google платформа программирования и модель выполнения распределенных вычислений в компьютерных кластерах, а также её реализации, используемые для параллельной обработки больших объемов данных;

o Apach Hadoop (Apach Software Foundation) – свободно распространяемый Java фреймворк (программная платформа), предназначенный для разработки и выполнения распределенных программ, работающих на кластерах из сотен и тысяч узлов;

o NoSQL (SQL – язык структурированных запросов) – термин, обозначающий ряд подходов, направленных на реализацию систем управления базами данных, имеющих существенные отличия от моделей, используемых в традиционных реляционных СУБД с доступом к данным средствами языка SQL. К NoSQL (Not Only SQL) относятся множество разнородных систем, призванных решать проблемы масштабируемости, доступности и параллельной обработки больших объемов данных – способ работы с неструктурированными данными.

§ Базы данных следующего поколения в основном ориентированы на содержание следующих свойств: нереляционные, распределенные, с открытым кодом, горизонтально масштабируемые;

o Язык программирования R – язык программирования для статистической обработки данных и работы с графикой. Появился до возникновения больших данных, но успешно используется для работы со статистической обработкой данных. Поддерживает широкий спектр статистических и численных методов, обладает хорошей расширяемостью за счет пакетов, используется для массово-параллельной обработки данных.

1 2 3 4

Правосознание: понятие, структура, виды

Суд и судебный процесс в Законах Хаммурапи

Охрана редких и вымирающих видов

Ремонт посудомоечных машин своими руками

Показатели тесноты корреляционной связи для многофакторной корреляционно-регрессионной модели

Дифференциальное уравнение гармонических колебаний и его решение

Самый сильный аргумент, почему эволюция человека не могла быть

Малообразованному человеку очень полезно читать книги цитат. «Знакомые цитаты» Бартлетта – восхитительная книга, и я внимательно изучал ее. Запечатленные в памяти цитаты вызывают плодотворные мысли. Они также вызывают желание подробнее ознакомиться с творчеством их авторов и отыскать в нем многое другое. © Черчилль ==> читать все изречения...

8342

7989