«Большие данные» (1)
Большие данные (Big Data) – совокупность подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объемов и многообразия для получения воспринимаемых результатов, в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети.
Сформировались в конце 2000-х гг., альтернативны традиционным СУБД и решениям класса Business Intelligence.
Cоциально-экономический феномен – появление технологических возможностей анализировать огромные массивы данных в проблемных областях и вытекающих из этого трансформационных последствий.
«Большие данные» (2)
Определяющие характеристики больших данных
(«три V»):
объем (Volume) – в смысле физического объема;
скорость (Velocity) – в смысле скорости прироста и необ-ходимости высокоскоростной обработки и получения результатов);
многообразие (Variety) – в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных.
«Большие данные» (3)
С точки зрения ИТ в технологию больших данных изначально включались средства массово-параллельной обработки неопределенно структурированных данных:
СУБД NoSQL;
алгоритмы MapReduce:
реализующие их программные каркасы и библиотеки проекта Hadoop.
В дальнейшем к серии технологий больших данных стали относить разнообразные информационно-технологические решения, обеспечивающие сходные возможности по обработке сверхбольших массивов данных.
СУБД NoSQL (1)
Имеют существенные отличия от моделей, используемых в традиционных РСУБД с доступом к данным средствами языка SQL.
Применяются к БД, в которых делается попытка решить проблемы масштабируемости и доступности за счет атомарности и согласованности данных.
Изначально слово NoSQL имело смысл «отрицающий SQL». Позднее было придумано объяснение «Not Only SQL» («не только SQL»). NoSQL стал общим термином для различных баз данных и хранилищ. Он не обозначает какую-либо одну конкретную технологию или продукт.
NoSQL (2)
Использование нереляционных хранилищ началось еще во времена первых компьютеров.
Появление нереляционных СУБД нового поколения произошло из-за необходимости создания параллельных распределенных систем для высокомасштабируемых интернет-приложений (поисковые системы).
В начале 2000-х гг. Google построил свою высокомасштабируемую поисковую систему и приложения, решая проблемы масштабируемости и параллельной обработки больших объемов данных.