Что такое Big Data
Big Data: как устроены большие данные и где они сейчас применяются
С недавнего времени компании стали понимать ценность Big Data и начали вкладываться в специалистов по Data Science. В статье мы познакомим вас с темой Big Data, расскажем, где и как сейчас используются большие данные.
Что такое Big Data? Обычная база данных, только… больше?
Big Data — это термин, которым описывают наборы данных большого объёма, быстро растущие с течением времени, а также инструменты для работы с ними. Это способ собрать и обработать много информации, чтобы решить сложные прикладные задачи.
Как данные генерируются?
Большие данные берутся из самых разных источников. В качестве очевидного примера можно привести социальные и рекламные сети. Если вы не компания-гигант, которая предоставляет услуги миллионам людей, не отчаивайтесь — вы всё равно можете работать с большими данными. Их сбором можно заняться, например, с помощью веб-скрапинга. Также многие сервисы предоставляют API для доступа к своим данным. Скорее всего, вам не дадут 100% имеющихся и поступающих данных, но это тоже неплохой вариант.
Пример — Streaming API ВКонтакте, который даёт доступ к новому содержимому с указанными ключевыми словами. По умолчанию доступен лишь 1% от всех данных, но можно попробовать запросить все 100%.
Как данные хранятся и обрабатываются?
Объемы данных растут быстрыми темпами, и для того чтобы их обработать, используются распределённые хранилища и программы. С увеличением количества данных можно просто добавлять новые узлы, а не переписывать текущее решение заново. Ниже в статье будет информация об инструментах, которые используются для работы с Big Data.
Важен вопрос о безопасном хранении данных. Из-за активного развития больших данных и отсутствия устоявшихся методологий по их защите, каждая компания должна сама решить, как подойти к решению этого вопроса.
Разумным шагом будет удалить из кластера конфиденциальные данные вроде паролей и данных банковских карт, это упростит настройку доступа к нему. Далее можно применять различные административные, физические и технические меры обеспечения защиты, требования к которым можно найти в разных сборниках стандартов вроде ISO 27001. Например, можно ограничить сотрудникам доступ к данным до уровня, которого достаточно для выполнения их рабочих задач. Не будет лишним вести логи взаимодействия сотрудника с данными и исключить возможность копирования данных из хранилища. Также можно использовать анонимизацию данных.
Геотаргетинг
Различные сервисы предоставляют свои услуги пользователям в обмен на данные о их местоположении. Зная, где бывают пользователи, можно предлагать им более релевантный контент. Представим, например, что у вас установлено приложение банка. Банк знает, в каких заведениях вы чаще всего бываете и может предложить приобрести карту с кэшбеком в соответствующих заведениях.
Пример использования геотаргетинга для решения социальных проблем — платформа «МегаФон.Поиск», с помощью которой проще искать пропавших людей. Поиск свидетелей, которые с большой вероятностью видели пропавшего, начинается по запросу правоохранительных органов и происходит по заданному радиусу с учетом социальных характеристик. После этого абонентам рассылаются SMS-сообщения с детальной информацией. Рассылка может быть отправлена абонентам всех операторов, а результаты могут передаваться поисково-спасательным отрядам. Благодаря этому время сбора данных сокращается с нескольких дней до нескольких минут.
Погода и климат
Данные со спутников, запускаемых по всему миру, можно использовать в том числе для прогноза погоды, изучения глобального потепления и характера стихийных бедствий. Пример в этой области — IBM Deep Thunder, исследовательский проект IBM, целью которого является улучшение краткосрочных прогнозов с помощью Big Data и высокопроизводительных вычислений.
Медицина
Основываясь на историях болезней пациентов, можно более точно поставить диагноз и как можно раньше назначить нужное лечение или профилактику, в том числе для серьёзных генетических заболеваний. Например, на основе данных ЭЭГ современные нейротехнологии позволяют диагностировать болезнь Паркинсона. Также большие данные можно использовать для предсказания и предотвращения эпидемий.
Виртуальные помощники
Можно использовать данные, собранные от всех пользователей, чтобы давать более логичные и ожидаемые ответы. А также благодаря сравнению паттернов поведения и использованию информации из других сервисов обеспечивать более персонализированное общение с каждым пользователем.
Приведём в пример проект «Елена» — виртуальный ассистент МегаФона, использующий технологию синтеза и распознавания речи Яндекса SpeechKit. Это AI-система, которая консультирует пользователей по вопросам, связанным с информацией о счёте, услугах и тарифах компании. «Елена» интегрирована во все системы МегаФона и при обработке запроса использует персонализированные данные клиента. Она знает тариф абонента, список подключённых услуг, местонахождение (в роуминге или в домашнем регионе) и другие параметры, поэтому может, например, посоветовать взять «Обещанный платёж», если баланс приближается к порогу отключения. Согласно опросу клиентов компании, около 72% пользователей нашли ответы на свои вопросы с помощью искусственного интеллекта.
Банковская система
Много данных генерируют и банковские системы. Их можно использовать, например, для выявления кражи и неправомерного использования банковской карточки с её последующей блокировкой до выяснения обстоятельств. Или, допустим, подаёт человек заявку на кредит. Система проверяет его кредитную историю и прочие данные, сравнивает с другими клиентами и подсказывает, с какой вероятностью человек вернёт этот кредит и стоит ли вообще его предоставлять.
Транспорт
Все данные о водителях, их транспортных средствах, местоположении анализируются и используются для того, чтобы предсказать спрос, предложение, местоположение водителей и тарифы для каждой поездки.
Сфера развлечений
В зависимости от вашего поведения в сети и контента, который вы просматривали в прошлом, вам будут показывать соответствующие рекомендации, что активно используется сервисами вроде Netflix для повышения вовлечённости пользователя. Само собой, использование Big Data для персонализированных рекомендаций не ограничивается сферой развлечений и используется в том числе в интернет-магазинах, поисковых системах и не только.
С какими технологиями ассоциируется Big Data?
Технологии, применяемые при работе с большими данными, можно условно разбить на три большие группы: для анализа данных (A/B-тестирование, проверка гипотез, машинное обучение), для сбора и хранения данных («облака», базы данных) и для представления результатов (таблицы, графики и так далее). Вот примеры некоторых из них.
Анализ данных
- Apache Spark. Фреймворк с открытым исходным кодом для реализации распределённой обработки данных, входящий в экосистему Hadoop.
- Elasticsearch. Популярный открытый поисковый движок, часто используемый при работе с большими данными.
- Scikit-learn. Бесплатная библиотека машинного обучения для языка программирования Python.
Сбор и хранение
- Apache Hadoop. Фреймворк, который нельзя не упомянуть при разговоре о Big Data. Он позволяет обеспечивать работу распределённых программ на кластерах из сотен и тысяч узлов.
- Apache Ranger. Фреймворк для обеспечения безопасности данных в Hadoop.
- NoSQL базы данных. HBase, Apache Cassandra и другие базы данных, рассчитанные на создание высокомасштабируемых и надёжных хранилищ огромных массивов данных.
- Озёра данных (data lakes). Неструктурированные хранилища для большого количества «сырых» данных, не подвергающихся каким-либо изменениям перед сохранением.
- In-memory базы данных. Например, в Redis данные хранятся в оперативной памяти.
Визуализация
- Google Chart. Многофункциональный набор инструментов для визуализации данных.
- Tableau. Система интерактивной аналитики, позволяющая быстро провести анализ больших массивов информации.
Кто работает с Big Data?
С большими данными работают преимущественно два типа сотрудников:
- Инженер (Data Engineer) — строит системы по сбору и обработке данных, а также превращает собранную аналитику в готовый сервис или продукт.
- Аналитик (Data Scientist) — анализирует и ищет закономерности в данных.
Специалисты по Big Data в России получают от 70 000 до 300 000 рублей, согласно исследованию Inc.Russia.
МегаФон постоянно ищет сотрудников по этому направлению. Предлагают корпоративное обучение, ДМС для семьи, фитнес и оплату мобильной связи. Узнать больше про работу в МегаФоне и посмотреть актуальные вакансии.
B Big data
Определение Big data обычно расшифровывают довольно просто – это огромный объем информации, часто бессистемной, которая хранится на каком либо цифровом носителе. Однако массив данных с приставкой «Биг» настолько велик, что привычными средствами структурирования и аналитики «перелопатить» его невозможно. Поэтому под термином «биг дата» понимают ещё и технологии поиска, обработки и применения неструктурированной информации в больших объемах.
Экскурс в историю и статистику
Словосочетание «большие данные» появилось в 2008 году с легкой руки Клиффорда Линча. В спецвыпуске журнала Nature эксперт назвал взрывной рост потоков информации – big data. В него он отнес любые массивы неоднородных данных свыше 150 Гб в сутки.
Из статистических выкладок аналитических агентств в 2005 году мир оперировал 4-5 эксабайтами информации (4-5 миллиардов гигабайтов), через 5 лет объемы big data выросли до 0,19 зеттабайт (1 ЗБ = 1024 ЭБ). В 2012 году показатели возросли до 1,8 ЗБ, а в 2015 – до 7 ЗБ. Эксперты прогнозируют, что к 2020 году системы больших данных будут оперировать 42-45 зеттабайтов информации.
До 2011 года технологии больших данных рассматривались только в качестве научного анализа и практического выхода ни имели. Однако объемы данных росли по экспоненте и проблема огромных массивов неструктурированной и неоднородной информации стала актуальной уже в начале 2012 году. Всплеск интереса к big data хорошо виден в Google Trends.
К развитию нового направления подключились мастодонты цифрового бизнеса – Microsoft, IBM, Oracle, EMC и другие. С 2014 года большие данные изучают в университетах, внедряют в прикладные науки – инженерию, физику, социологию.
Как работает технология big data?
Чтобы массив информации обозначить приставкой «биг» он должен обладать следующими признаками:
- Объем (Volume) – данные измеряются по физической величине и занимаемому пространству на цифровом носителе. К «биг» относят массивы свыше 150 Гб в сутки.
- Скорость, обновление (Velocity) – информация регулярно обновляется и для обработки в реальном времени необходимы интеллектуальные технологии больших данных.
- Разнообразие (Variety) – информация в массивах может иметь неоднородные форматы, быть структурированной частично, полностью и скапливаться бессистемно. Например, социальные сети используют большие данные в виде текстов, видео, аудио, финансовых транзакций, картинок и прочего.
В современных системах рассматриваются два дополнительных фактора:
- Изменчивость (Variability) – потоки данных могут иметь пики и спады, сезонности, периодичность. Всплески неструктурированной информации сложны в управлении, требует мощных технологий обработки.
- Значение данных (Value) – информация может иметь разную сложность для восприятия и переработки, что затрудняет работу интеллектуальным системам. Например, массив сообщений из соцсетей – это один уровень данных, а транзакционные операции – другой. Задача машин определить степень важности поступающей информации, чтобы быстро структурировать.
Принцип работы технологии big data основан на максимальном информировании пользователя о каком-либо предмете или явлении. Задача такого ознакомления с данными – помочь взвесить все «за» и «против», чтобы принять верное решение. В интеллектуальных машинах на основе массива информации строится модель будущего, а дальше имитируются различные варианты и отслеживаются результаты.
Современные аналитические агентства запускают миллионы подобных симуляций, когда тестируют идею, предположение или решают проблему. Процесс автоматизирован.
К источникам big data относят:
- интернет – блоги, соцсети, сайты, СМИ и различные форумы;
- корпоративную информацию – архивы, транзакции, базы данных;
- показания считывающих устройств – метеорологические приборы, датчики сотовой связи и другие.
Принципы работы с массивами данных включают три основных фактора:
- Расширяемость системы. Под ней понимают обычно горизонтальную масштабируемость носителей информации. То есть выросли объемы входящих данных – увеличились мощность и количество серверов для их хранения.
- Устойчивость к отказу. Повышать количество цифровых носителей, интеллектуальных машин соразмерно объемам данных можно до бесконечности. Но это не означает, что часть машин не будет выходить из строя, устаревать. Поэтому одним из факторов стабильной работы с большими данными является отказоустойчивость серверов.
- Локализация. Отдельные массивы информации хранятся и обрабатываются в пределах одного выделенного сервера, чтобы экономить время, ресурсы, расходы на передачу данных.
Для чего используют?
Чем больше мы знаем о конкретном предмете или явлении, тем точнее постигаем суть и можем прогнозировать будущее. Снимая и обрабатывая потоки данных с датчиков, интернета, транзакционных операций, компании могут довольно точно предсказать спрос на продукцию, а службы чрезвычайных ситуаций предотвратить техногенные катастрофы. Приведем несколько примеров вне сферы бизнеса и маркетинга, как используются технологии больших данных:
- Здравоохранение. Больше знаний о болезнях, больше вариантов лечения, больше информации о лекарственных препаратах – всё это позволяет бороться с такими болезнями, которые 40-50 лет назад считались неизлечимыми.
- Предупреждение природных и техногенных катастроф. Максимально точный прогноз в этой сфере спасает тысячи жизней людей. Задача интеллектуальных машин собрать и обработать множество показаний датчиков и на их основе помочь людям определить дату и место возможного катаклизма.
- Правоохранительные органы. Большие данные используются для прогнозирования всплеска криминала в разных странах и принятия сдерживающих мер, там, где этого требует ситуация.
Методики анализа и обработки
К основным способам анализа больших массивов информации относят следующие:
- Глубинный анализ, классификация данных. Эти методики пришли из технологий работы с обычной структурированной информацией в небольших массивах. Однако в новых условиях используются усовершенствованные математические алгоритмы, основанные на достижениях в цифровой сфере.
- Краудсорсинг. В основе этой технологии возможность получать и обрабатывать потоки в миллиарды байт из множества источников. Конечное число «поставщиков» не ограничивается ничем. Разве только мощностью системы.
- Сплит-тестирование. Из массива выбираются несколько элементов, которые сравниваются между собой поочередно «до» и «после» изменения. АВ тесты помогают определить, какие факторы оказывают наибольшее влияние на элементы. Например, с помощью сплит-тестирования можно провести огромное количество итераций постепенно приближаясь к достоверному результату.
- Прогнозирование. Аналитики стараются заранее задать системе те или иные параметры и в дальнейшей проверять поведение объекта на основе поступления больших массивов информации.
- Машинное обучение. Искусственный интеллект в перспективе способен поглощать и обрабатывать большие объемы несистематизированных данных, впоследствии используя их для самостоятельного обучения.
- Анализ сетевой активности. Методики big data используются для исследования соцсетей, взаимоотношений между владельцами аккаунтов, групп, сообществами. На основе этого создаются целевые аудитории по интересам, геолокации, возрасту и прочим метрикам.
Большие данные в бизнесе и маркетинге
Стратегии развития бизнеса, маркетинговые мероприятия, реклама основаны на анализе и работе с имеющимися данными. Большие массивы позволяют «перелопатить» гигантские объемы данных и соответственно максимально точно скорректировать направление развития бренда, продукта, услуги.
Например, аукцион RTB в контекстной рекламе работают с big data, что позволяет эффективно рекламировать коммерческие предложения выделенной целевой аудитории, а не всем подряд.
Какие выгоды для бизнеса:
- Создание проектов, которые с высокой вероятностью станут востребованными у пользователей, покупателей.
- Изучение и анализ требований клиентов с существующим сервисом компании. На основе выкладки корректируется работа обслуживающего персонала.
- Выявление лояльности и неудовлетворенности клиентской базы за счет анализа разнообразной информации из блогов, соцсетей и других источников.
- Привлечение и удержание целевой аудитории благодаря аналитической работе с большими массивами информации.
Технологии используют в прогнозировании популярности продуктов, например, с помощью сервиса Google Trends и Яндекс. Вордстат (для России и СНГ).
Методики big data используют все крупные компании – IBM, Google, Facebook и финансовые корпорации – VISA, Master Card, а также министерства разных стран мира. Например, в Германии сократили выдачу пособий по безработице, высчитав, что часть граждан получают их без оснований. Так удалось вернуть в бюджет около 15 млрд. евро.
Недавний скандал с Facebook из-за утечки данных пользователей говорит о том, что объемы неструктурированной информации растут и даже мастодонты цифровой эры не всегда могут обеспечить их полную конфиденциальность.
Например, Master Card используют большие данные для предотвращения мошеннических операций со счетами клиентов. Так удается ежегодно спасти от кражи более 3 млрд. долларов США.
В игровой сфере big data позволяет проанализировать поведение игроков, выявить предпочтения активной аудитории и на основе этого прогнозировать уровень интереса к игре.
Сегодня бизнес знает о своих клиентах больше, чем мы сами знаем о себе – поэтому рекламные кампании Coca-Cola и других корпораций имеют оглушительный успех.
Перспективы развития
В 2019 году важность понимания и главное работы с массивами информации возросла в 4-5 раз по сравнению с началом десятилетия. С массовостью пришла интеграция big data в сферы малого и среднего бизнеса, стартапы:
- Облачные хранилища. Технологии хранения и работы с данными в онлайн-пространстве позволяет решить массу проблем малого и среднего бизнеса: дешевле купить облако, чем содержать дата-центр, персонал может работать удаленно, не нужен офис.
- Глубокое обучение, искусственный интеллект. Аналитические машины имитируют человеческий мозг, то есть используются искусственные нейронные сети. Обучение происходит самостоятельно на основе больших массивов информации.
- Dark Data – сбор и хранение не оцифрованных данных о компании, которые не имеют значимой роли для развития бизнеса, однако они нужны в техническом и законодательном планах.
- Блокчейн. Упрощение интернет-транзакций, снижение затрат на проведение этих операций.
- Системы самообслуживания – с 2016 года внедряются специальные платформы для малого и среднего бизнеса, где можно самостоятельно хранить и систематизировать данные.
Резюме
Мы изучили, что такое big data? Рассмотрели, как работает эта технология, для чего используются массивы информации. Познакомились с принципами и методиками работы с большими данными.
Рекомендуем к прочтению книгу Рика Смолана и Дженнифер Эрвитт «The Human Face of Big Data», а также труд «Introduction to Data Mining» Майкла Стейнбаха, Випин Кумар и Панг-Нинг Тан.
Что такое Big data: собрали всё самое важное о больших данных
Что такое Big data, как это работает и почему все носятся с данными как с писаной торбой: Rusbase объясняет на пальцах для тех, кто немного отстал от жизни.
Что такое Big data
Только ленивый не говорит о Big data, но что это такое и как это работает — понимает вряд ли. Начнём с самого простого — терминология. Говоря по-русски, Big data — это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для того, чтобы их использовать для конкретных задач и целей.
Неструктурированные данные — это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.
Термин «большие данные» ввёл редактор журнала Nature Клиффорд Линч ещё в 2008 году в спецвыпуске, посвящённом взрывному росту мировых объёмов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.
Читайте также: Как зарождалась эра Big data
Сегодня под этим простым термином скрывается всего два слова — хранение и обработка данных.
Big data — простыми словами
В современном мире Big data — социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных.
Читайте также: Мир Big data в 8 терминах
Для простоты понимания представьте супермаркет, в котором все товары лежат не в привычном вам порядке. Хлеб рядом с фруктами, томатная паста около замороженной пиццы, жидкость для розжига напротив стеллажа с тампонами, на котором помимо прочих стоит авокадо, тофу или грибы шиитаке. Big data расставляют всё по своим местам и помогают вам найти ореховое молоко, узнать стоимость и срок годности, а еще — кто, кроме вас, покупает такое молоко и чем оно лучше молока коровьего.
Кеннет Кукьер: Большие данные — лучшие данные
Технология Big data
Огромные объёмы данных обрабатываются для того, чтобы человек мог получить конкретные и нужные ему результаты для их дальнейшего эффективного применения.
Читайте также: Big data: анализ и структурирование
Фактически, Big data — это решение проблем и альтернатива традиционным системам управления данными.
Техники и методы анализа, применимые к Big data по McKinsey:
- Data Mining;
- Краудсорсинг;
- Смешение и интеграция данных;
- Машинное обучение;
- Искусственные нейронные сети;
- Распознавание образов;
- Прогнозная аналитика;
- Имитационное моделирование;
- Пространственный анализ;
- Статистический анализ;
- Визуализация аналитических данных.
Технологии:
Читайте также: Big data: семантический анализ данных и машинное обучение
Для больших данных выделяют традиционные определяющие характеристики, выработанные Meta Group ещё в 2001 году, которые называются «Три V»:
- Volume — величина физического объёма.
- Velocity — скорость прироста и необходимости быстрой обработки данных для получения результатов.
- Variety — возможность одновременно обрабатывать различные типы данных.
Big data: применение и возможности
Объёмы неоднородной и быстро поступающей цифровой информации обработать традиционными инструментами невозможно. Сам анализ данных позволяет увидеть определённые и незаметные закономерности, которые не может увидеть человек. Это позволяет оптимизировать все сферы нашей жизни — от государственного управления до производства и телекоммуникаций.
Например, некоторые компании ещё несколько лет назад защищали своих клиентов от мошенничества, а забота о деньгах клиента — забота о своих собственных деньгах.
Сюзан Этлиджер: Как быть с большими данными?
Решения на основе Big data: «Сбербанк», «Билайн» и другие компании
У «Билайна» есть огромное количество данных об абонентах, которые они используют не только для работы с ними, но и для создания аналитических продуктов, вроде внешнего консалтинга или IPTV-аналитики. «Билайн» сегментировали базу и защитили клиентов от денежных махинаций и вирусов, использовав для хранения HDFS и Apache Spark, а для обработки данных — Rapidminer и Python.
Читайте также: «Большие данные дают конкурентное преимущество, поэтому не все хотят о них рассказывать»
Или вспомним «Сбербанк» с их старым кейсом под названием АС САФИ. Это система, которая анализирует фотографии для идентификации клиентов банка и предотвращает мошенничество. Система была внедрена ещё в 2014 году, в основе системы — сравнение фотографий из базы, которые попадают туда с веб-камер на стойках благодаря компьютерному зрению. Основа системы — биометрическая платформа. Благодаря этому, случаи мошенничества уменьшились в 10 раз.
Big data в мире
По данным компании IBS, к 2003 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году — до 1,76 зеттабайта, к 2013 году — до 4,4 зеттабайта. В мае 2015 года глобальное количество данных превысило 6,5 зеттабайта (подробнее).
К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители.
Аналитики исследования считают, что данные станут жизненно-важным активом, а безопасность — критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключёнными устройствами около 4800 раз в день.
Рынок Big data в России
В 2017 году мировой доход на рынке big data должен достигнуть $150,8 млрд, что на 12,4% больше, чем в прошлом году. В мировом масштабе российский рынок услуг и технологий big data ещё очень мал. В 2014 году американская компания IDC оценивала его в $340 млн. В России технологию используют в банковской сфере, энергетике, логистике, государственном секторе, телекоме и промышленности.
Читайте также: Как устроен рынок Big data в России
Что касается рынка данных, он в России только зарождается. Внутри экосистемы RTB поставщиками данных выступают владельцы программатик-платформ управления данными (DMP) и бирж данных (data exchange). Телеком-операторы в пилотном режиме делятся с банками потребительской информацией о потенциальных заёмщиках.
Обычно большие данные поступают из трёх источников:
- Интернет (соцсети, форумы, блоги, СМИ и другие сайты);
- Корпоративные архивы документов;
- Показания датчиков, приборов и других устройств.
Big data в банках
Помимо системы, описанной выше, в стратегии «Сбербанка» на 2014-2018 гг. говорится о важности анализа супермассивов данных для качественного обслуживания клиентов, управления рисками и оптимизации затрат. Сейчас банк использует Big data для управления рисками, борьбы с мошенничеством, сегментации и оценки кредитоспособности клиентов, управления персоналом, прогнозирования очередей в отделениях, расчёта бонусов для сотрудников и других задач.
«ВТБ24» пользуется большими данными для сегментации и управления оттоком клиентов, формирования финансовой отчётности, анализа отзывов в соцсетях и на форумах. Для этого он применяет решения Teradata, SAS Visual Analytics и SAS Marketing Optimizer.
Читайте также: Кто делает Big data в России?
«Альфа-Банк» за большие данные взялся в 2013 году. Банк использует технологии для анализа соцсетей и поведения пользователей сайта, оценки кредитоспособности, прогнозирования оттока клиентов, персонализации контента и вторичных продаж. Для этого он работает с платформами хранения и обработки Oracle Exadata, Oracle Big data Appliance и фреймворком Hadoop.
«Тинькофф-банк» с помощью EMC Greenplum, SAS Visual Analytics и Hadoop управляет рисками, анализирует потребности потенциальных и существующих клиентов. Большие данные задействованы также в скоринге, маркетинге и продажах.
Big data в бизнесе
Для оптимизации расходов внедрил Big data и «Магнитогорский металлургический комбинат», который является крупным мировым производителем стали. В конце прошлого года они внедрили сервис под названием «Снайпер», который оптимизирует расход ферросплавов и других материалов при производстве. Сервис обрабатывает данные и выдаёт рекомендации для того, чтобы сэкономить деньги на производстве стали.
Читайте также: Как заставить большие данные работать на ваш бизнес
Большие данные и будущее — одна из самых острых тем для обсуждения, ведь в основе коммерческой деятельности лежит информация. Идея заключается в том, чтобы «скормить» компьютеру большой объем данных и заставить его отыскивать типовые алгоритмы, которые не способен увидеть человек, или принимать решения на основе процента вероятности в том масштабе, с которым прекрасно справляется человек, но который до сих пор не был доступен для машин, или, возможно, однажды — в таком масштабе, с которым человек не справится никогда.
Читайте также: 6 современных тенденций в финансовом секторе
Чтобы оптимизировать бизнес-процессы,«Сургутнефтегаз» воспользовался платформой данных и приложений «in-memory» под названием SAP HANA, которая помогает в ведении бизнеса в реальном времени. Платформа автоматизирует учёт продукции, расчёт цен, обеспечивает сотрудников информацией и экономит аппаратные ресурсы. Как большие данные перевернули бизнес других предприятий — вы можете прочитать здесь.
Big data в маркетинге
Благодаря Big data маркетологи получили отличный инструмент, который не только помогает в работе, но и прогнозирует результаты. Например, с помощью анализа данных можно вывести рекламу только заинтересованной в продукте аудитории, основываясь на модели RTB-аукциона.
Читайте также: Чем полезны большие данные для рекламного бизнеса?
Big data позволяет маркетологам узнать своих потребителей и привлекать новую целевую аудиторию, оценить удовлетворённость клиентов, применять новые способы увеличения лояльности клиентов и реализовывать проекты, которые будут пользоваться спросом.
Сервис Google.Trends вам в помощь, если нужен прогноз сезонной активности спроса. Всё, что надо — сопоставить сведения с данными сайта и составить план распределения рекламного бюджета.
Читайте также: Большие данные должны приносить практическую пользу бизнесу – или умереть
Биг дата изменит мир?
От технологий нам не спрятаться, не скрыться. Big data уже меняет мир, потихоньку просачиваясь в наши города, дома, квартиры и гаджеты. Как быстро технология захватит планету — сказать сложно. Одно понятно точно — держись моды или умри в отстое, как говорил Боб Келсо в сериале «Клиника».
А что вам интересно было бы узнать о больших данных? Пишите в комментариях 🙂
Источники:
http://tproger.ru/articles/big-data-explanation-megafon/
http://www.calltouch.ru/glossary/big-data/
http://rb.ru/howto/chto-takoe-big-data/