Ученые расскажут о применении больших данных

Недостаточно только получить знания; надо найти им приложение. И. Гёте

На понимание технологий и подходов к хранению, обработке и анализу информации, ныне известных как Big Data, сегодня мы решили взглянуть сквозь призму времени.

alt

Узнай стоимость своей работы

Бесплатная оценка заказа!

Оценим за полчаса!

Возможно, кому-то данный подход покажется слегка наивным, но мы уверены: ничто не ново под луной и аналоги проблем, которые стоят перед современным человеком в данной области, можно с лёгкостью найти на всех этапах развития цивилизации, а мы, подобно Гензель и Гретель, попытаемся оставить след из хлебных крошек, который выведет нас из темного леса истории к светлым лугам познания.

Ученые расскажут о применении больших данных

Всю свою историю человечество осознанно или нет сталкивалось и решало проблемы хранения и обработки информации.

Ещё 10-20 тысяч лет назад прародители современного человека использовали кости для записи остатков собранных запасов – предположительно, чтобы вести торговую активность и иметь прогнозируемый остаток на нужды собственно пропитания. Это всего лишь теория, но, если она верна – это первый пример получения и анализа информации в нашей истории.

Ученые расскажут о применении больших данных

Первые библиотеки Вавилона в 2000-х годах до нашей эры, позднее – библиотеки в Александрии – всё это пример того, как люди в тот или иной момент сталкивались с вопросами хранения большого объема информации и ее консолидации для удобства использования. Проблемы тогда, правда, сводились в основном к тому, чтобы не потерять всю накопленную мудрость при следующем вражеском набеге, как это произошло в Александрии при вторжении римлян, когда большая часть библиотеки была утрачена.

Ученые расскажут о применении больших данных

Про какой-либо серьезный анализ в привычном нам контексте в то время говорить не приходилось вплоть до середины XVII века, когда Джон Грант, известный своими работами в области демографической статистики, кроме прочего выпустил труд, описывавший теорию, в которой использование аналитики смертности позволяло предупреждать о начале эпидемии бубонной чумы.

Ученые расскажут о применении больших данных

В 1865 году профессор Ричард Миллер Девинс (Richard Millar Devens) впервые ввел в обиход термин Business Intelligence, использовав его в своей книге Cyclopedia of Commercial and Business Anecdotes, где кроме прочего рассказал Генри Фернезе, который пришёл к успеху благодаря структурированию и анализу информации о деловой активности.

alt

Узнай стоимость своей работы

Бесплатная оценка заказа!
Читайте также:  Планы на неделю с 22 по 28 мая

Оценим за полчаса!

Ученые расскажут о применении больших данных

С увеличением количества данных, которые люди стали использовать в различных сферах своей деятельности, возникало все больше проблем с их обработкой и анализом.

Так, перед переписью 1880 года американское бюро, занимавшееся переписью населения, столкнулось с трудностью и объявило, что с современными подходами к работе с данными произвести подсчет они смогут лишь за 8 лет, а при следующей переписи в 1890 году, ввиду увеличения численности населения и постоянной миграции, дать точные результаты удастся не раньше чем через 10 лет, когда они уже полностью устареют. Получалась ситуация, когда к моменту следующего сбора данных не будут еще полностью проанализированы результаты прошлой переписи, что полностью обесценивает эту информацию и ставит само существование бюро под сомнение.

На помощь пришел инженер по имени Герман Холлерит (Herman Hollerith), который в 1881 году создал устройство (табулятор), которое, оперируя перфокартами, сокращало 10-летний труд до 3 месяцев. Воодушевленный успехом Холлерит создал компанию TMC, специализирующуюся на создании табулирующих машин. Позже ее купила компания C-T-R, которая в 1924 году была переименована в IBM.

Дальнейший рост информации и проблемы, встававшие перед нашими предшественниками, всегда сводились в равной степени к вопросам хранения и скорости обработки этих данных.

Ученые расскажут о применении больших данных

Во время Второй мировой войны необходимость в быстром анализе данных послужила созданию ряда компьютеров, позволяющих дешифровать сообщения неприятеля. Так, в 1943 году британские ученые создали машину Colossus, которая ускорила расшифровку сообщений с нескольких недель до нескольких часов.

Как таковой личной памяти у «Колосса» не было, поэтому данные подавались через перфорированное колесо.

Трудно представить сейчас, сколько жизней спас этот, по нашим меркам, допотопный компьютер с производительностью около 6 мегагерц и как изменился бы ход истории, если не существовало бы проблем со скоростью обработки информации.

Но скорость анализа не единственный вопрос, которым были озадачены наши предшественники в середине XX века.

В 1944 году библиотекарь Фремонт Райдер (Fremont Rider) выпустил труд The Scholar and the Future of the Research Library, в котором он проанализировал, что с существующим ростом выпускаемых работ библиотеки должны удваивать свою вместительность каждые 16 лет. Это приведет к тому, что, к примеру, Йельская библиотека к 2040 году должна будет состоять из 6000 миль (около 10000 км) полок.

Дальше – больше. Начиная с 1950-х годов, наряду с все увеличивающейся потребностью в хранении и обработке информации, начался бурный рост технологий ее хранения, начали появляться центры обработки данных.

Люди из разных отраслей деятельности стали приходить к пониманию, что их преимущества так или иначе будут зависеть от умения хранить и анализировать информацию, а также от скорости этого анализа и полученной от него ценностью.

Ученые расскажут о применении больших данных

С началом эры Интернета, переходом на центральные хранилища данных и с лавинообразным ростом количества веб-контента (для сравнения: в 1995 году в мире существовало 23 500 веб-сайтов, а уже через год – больше 250 000) встал вопрос поиска по многообразию существующего контента.

Несмотря на существование уже нескольких созданных к тому времени поисковых систем (к слову, Yahoo не имела своей вплоть до 2002 года, а использовала сторонние разработки), первой действительно приближенной к современным была система AltaVista.

Ее уникальность была в том, что она использовала лингвистический алгоритм, разбивая поисковую фразу на слова и проводя поиск по существующим индексам для ранжирования результата. За два года количество запросов в день изменилось с 300 000 до 80 миллионов.

Все, о чем мы рассказали выше, – примеры вопросов, связанных с хранением и обработкой информации. Эту цепочку можно продолжать до бесконечности, но сам термин Big Data пришёл к нам лишь на стыке тысячелетий и кроме подходов, которые были заложены в его основу, явил миру всю совокупность проблем, с которыми сталкивался человек с начала своей истории работы с информацией.

Магия литеры V

Перед тем как вплотную подойти к вопросу о Больших Данных, технологиях и областях применения, необходимо сделать ремарку и подготовить почву для обсуждения самого вопроса.

6 февраля 2001 года Дуг Лейни (Doug Laney) из Meta Group (входит в состав Gartner) издал документ, описывающий основные проблемные зоны, связанные с повышенными требованиями к центральным хранилищам данных на фоне бурного роста e-commerce, а также делающий прогноз на изменение стратегии IT-компаний в отношении подходов к построению архитектуры решений, связанных с хранением и обработкой информации.

Было выделено три важнейших направления, на которых стоит сосредоточиться для решения вопросов управления данными: Volume, Velocity и Variety. Позже эти понятия стали основой для описательной модели Больших Данных под названием 3V (VVV).

Ученые расскажут о применении больших данных

Нужно учесть, что эти аспекты обсуждались без отсылки к понятию Больших Данных, концепцию которых начали применять чуть позже, но эти параметры как никакие другие описали основные принципы того, что мы с вами называем Big Data.

Volume

Важность правильного подхода к вопросам увеличения объемов данных заложена в самом понятии Big Data. Но как определить этот порог, который отличает обычное хранилище от Больших Данных? Ответ прост – никак.

Big Data – это не список статичных значений, при достижении которых определяется принадлежность решения, а целый набор методик и технологий получения, хранения и обработки информации, несмотря на наличие или отсутствие в ней структурированности.

Источник: https://www.computerra.ru/234239/istoriya-bolshih-dannyh-big-data-chast-1/

Почему большие данные — это непросто

Алёна Игнатьева, редактор-фрилансер, специально для блога Нетологии написала колонку о том, почему большие данные — все еще загадка для бизнеса.

У начинающих аналитиков и ученых, работающих с большими данными, часто возникает вопрос: «У меня есть набор данных. Как его расшифровать?». Если нужно решить конкретную и хорошо поставленную задачу, то, как правило, это не вызывает трудностей. Но что если конкретной задачи не стоит, и ваша цель — изучить данные и найти что-то интересное?

Офлайн-курс: «Data Scientist»

Что такое большие данные

Большие данные — термин, который описывает большие объемы информации, структурированной и неструктурированной.

Большие данные в бизнесе могут использоваться для анализа, разработки стратегий и принятия правильных решений.

Объем данных, которые созданы и хранятся на мировом уровне, продолжает расти с каждым днем. Ежедневно создается 2,5 эксабайта (1 эксабайт = миллиард гигабайт): таким образом, 90% всех данных создано в последние 2 года. Используя их, компании смогут значительно ускорить развитие. Проблема в том, что лишь малая часть этих данных подвергается анализу.

Не так важно количество данных, как то, как вы их используете.

Можно получать данные из любого источника и анализировать их, чтобы найти ответы, которые позволят сократить затраты или разработать новые продукты и приложения, понять своих покупателей.

О чем могут рассказать большие данные

Так как же найти в данных именно то, что поможет принять верное решение? Это сложный вопрос, и на него, к сожалению, нет однозначного ответа. Ученые решают эту проблему с помощью такого метода:

  • создать прогноз работы системы на основании уже имеющихся знаний (теории);
  • изучить данные и проверить, соответствуют ли они прогнозу;
  • если нет, то глубже изучить предмет и найти новую теорию;
  • сделать новый прогноз на основе этой теории;
  • повторить цикл.

Аналитики и специалисты по работе с большими данными могут действовать иначе.

  1. До того как изучать данные, составьте список того, что ты ожидаете обнаружить: распределение переменных, отношения между ними и т. д.
  2. Затем проанализируйте данные. Нарисуйте графики, схемы — всё, что необходимо, чтобы проверить, насколько данные соответствуют ожиданиям.
  3. Проверьте, есть ли что-то, что кажется странным или бессмысленным.
  4. Сфокусируйтесь на этом моменте и попробуйте понять, что именно вызывает такое расхождение с прогнозом. Этот шаг является ключевым. Благодаря ему вы получите действительно ценные находки.

Например, у вас есть данные о покупках в магазине. Известно, сколько людей совершило покупки, и сколько денег каждый из них потратил. Мы предполагаем какую-то среднюю величину чека, около которой колеблется большинство значений. Также будут значения, которые сильно отклоняются в большую или меньшую степень. В таком случае график этого распределения выглядит примерно так:

Ученые расскажут о применении больших данных

Но когда мы проанализировали данные, то увидели следующую картину:

Ученые расскажут о применении больших данных

Откуда же взялся этот непонятный пик справа?

Предположим, что это крупный магазин детских игрушек в Москве, где типичные покупатели — мамы с детьми, и данные о покупках были предоставлены за один месяц — ноябрь.

Таким образом наш подозрительный пик может иллюстрировать, что именно перед новым годом в этот магазин приехали владельцы магазинов поменьше из регионов, чтобы потом перепродать эти игрушки в своих магазинах.

Это означает, что данные покупатели не имеют отношения к постоянным клиентам магазина, и в другие месяцы такого скачка может не наблюдаться.

Читайте также:  Young d: чему и зачем учиться на пенсии

Можно анализировать эти данные и увидеть, какие конкретно игрушки пользовались наибольшим спросом, какие акции можно провести, чтобы привлечь больше таких клиентов. Это всё можно выяснить, основываясь на простом графике.

С какими проблемами сталкивается бизнес при работе с большими данными

В интернете можно найти множество историй успеха, когда компании с помощью больших данных увеличили прибыль или решили различные проблемы.

Вдохновленные этими историями, компании выделяют огромные бюджеты и нанимают специалистов по работе с большими данными. Однако, использование больших данных не всегда может привести к успеху.

Рассмотрим, какие проблемы могут встретиться при начале работы с большими данными.

1. Отсутствие бизнес-кейса

Согласно статье, опубликованной на IBM Big Data & Analytics Hub, понимание больших данных сильно затрудняется при отсутствии четко сформулированного бизнес-кейса. Правильно построенный бизнес-кейс показывает, какие проблемы необходимо решить и какие инструменты и параметры должны быть задействованы.

2. Неподготовленные данные

Компании, проигнорировавшие шаг подготовки данных перед началом работы, могут получить искаженные результаты, которые приведут к неправильным решениям.

3. Применение больших данных не по назначению

Например, попытка собрать как можно больше данных для своих исследований не всегда оправдана, так как большие объемы данных могут служить источником возникновения ложных связей.

4. Недостаточные аналитические и технические навыки

Согласно исследованию, примерно половина опрошенных говорят о недостатке аналитических или технических знаний для работы с большими данными. И хотя на рынке сейчас довольно много специалистов по большим данным, всё равно спрос превышает предложение. И в данном случае лучше сфокусироваться на обучении уже существующего персонала, чем открывать новые вакансии.

5. Надежда только на большие данные

Некоторые руководители, увидев первые результаты работы больших данных, начинают обдумывать, как сократить штат и заменить сотрудников на роботов. Но здесь не все так прозрачно.

С помощью больших данных можно обнаружить проблему и найти пути её решения, но именно люди будут решать эту проблему и настраивать работу компании. Важно правильно разделять задачи: машина анализирует, а человек прогнозирует.

Источник: https://netology.ru/blog/bolshie-dannye-eto-neprosto

Большие проблемы больших данных | Решения на РБК+

Аналитика пользовательской информации облегчит жизнь компаниям, но может стать серьезным риском утечки персональных данных потребителей.

Ученые расскажут о применении больших данных

Reuters

Еще десятилетие назад серверы IT-компаний редко хранили данные, полученные в результате поисковых запросов или любой другой деятельности пользователей на принадлежащих им сайтах.

В наше время ситуация изменилась кардинально: не только IT-индустрия, но даже обычные интернет-магазины и многочисленные сервисы собирают и тщательно анализируют данные, поступающие с устройств пользователей.

Возможности использования этой богатой информации (big data, или большие данные) весьма широки: она помогает предлагать пользователям именно те товары, которые им интересны, компаниям — увеличивать отдачу от рекламы, сокращать издержки за счет более грамотной организации производства и подбирать на работу наиболее ценных сотрудников. Эта информация настолько интересна компаниям, что сейчас формируется целый рынок исследований на ее основе. Но для самих потребителей большие данные не обязательно означают новые выгоды — порой они несут с собой новые риски.

Проблема выбора

Одно из главных направлений использования больших данных — персонализация предложений товаров. Авторы исследования, опубликованного Tibco Jaspersoft в 2015 году, подсчитали, что почти половина (48%) аналитики пользовательской информации, которую выполняют компании, служит для исследования поведения потребителей.

«Сейчас потребитель тонет в огромном выборе товаров, — говорит эксперт по большим данным компании «1С-Битрикс» Александр Сербул. — Ему не хватает знаний о каждом конкретном товаре. Суть персонализации — облегчить покупателю выбор товара. Ну и, конечно, повысить продажи самого магазина».

В основу алгоритмов обработки big data положена персональная последовательность получения информации, которую для каждого пользователя интернет-магазина можно рассчитать математически.

Сервис персональных рекомендаций, встроенный в «1С-Битрикс», например, формирует облако интересов для каждого пользователя и генерирует рекомендации предложений, когда человек приходит на сайт конкретного магазина.

Подобранные под конкретного пользователя предложения незаметно для него подмешиваются в поисковую выдачу. Любопытно, что алгоритмы, позволяющие определить вкусы пользователя при выборе одежды, помогают вычислять даже такие, казалось бы, тонкие материи, как его художественные вкусы.

Этим уже не первый год пользуются крупные видеосайты и онлайн-кинотеатры. «Вычислить, какие фильмы нравятся человеку, можно по жанру, актерам, стране производства и много чему еще.

Машина знает, какие фильмы он уже посмотрел, и может рекомендовать такие, которые ему, скорее всего, понравятся», — говорит Александр Сербул.

Возможность понять интересы каждого пользователя — прямой путь к более качественной нативной рекламе. Большие данные помогают «исполнять желания» пользователей, фактически они уже стали основой для маркетинга любой компании.

«С их помощью можно не только адаптировать контент в рекламе и на сайте, но идти дальше — менять сам продукт, делать каждое предложение уникальным. Пользователи перестанут переплачивать за ненужные им опции, станут лояльнее», — говорит руководитель отдела веб-аналитики performance-агентства Adventum Андрей Зайко.

Анализируя предыдущие покупки пользователя и его поисковые запросы, интернет-магазины могут и оценивать его покупательную способность, не только подбирая под него конкретные предложения, но и позволяя компании менять собственную ценовую политику.

Согласно подсчетам McKinsey, из всех связанных с ценообразованием решений, которые средняя компания принимает в течение года, около 30% являются ошибочными. «Тонкая настройка» в ценообразовании, которую позволяют осуществлять большие данные, дает бизнесу возможность существенно увеличить выручку.

Вкалывают роботы

Возможность обработки big data навсегда изменила мир бизнеса: обратная связь, которую производители будут получать от своих смартфонов, автомобилей, бытовой техники, позволит обнаруживать возможности для улучшения продукции точнее, чем любые, самые тщательные изучения рынка, считают авторы монографии «Большие данные: Революция, которая изменит то, как мы живем, работаем и мыслим» — профессор управления и регулирования интернета в Оксфордском университете Виктор Майер-Шенбергер и редактор раздела данных журнала The Economist Кеннет Кукьер.

«На заводах, в лабораториях или агропромышленных отраслях начинает набирать обороты использование технологических возможностей big data, — говорит веб-аналитик Agima Артем Кулбасов. — Их ценность будет крайне высокой как с точки зрения увеличения производственных мощностей за счет автоматизации и машинного обучения, так и с точки зрения закупки расходных материалов».

Обработка big data позволяет революционизировать даже такие консервативные области, как, например, рекрутинг, где человеческий фактор неизбежно играет главную роль.

«Резюме соискателей и вакансии работодателей, а также все их истории изменений и взаимодействий друг с другом за много лет — это терабайты хорошо структурированной и пригодной для обработки информации, на которой мы обучаем свой искусственный интеллект, делая работу математических моделей точнее по мере появления новых данных», — рассказывает директор по развитию компании HeadHunter Борис Вольфсон. По его словам, таким образом удается, например, оптимизировать ранжирование откликов в кабинете работодателя на основе машинного обучения и рекомендации вакансий соискателям, а «умный» поиск учится понимать даже при неточном запросе, какую работу ищет человек. За счет автоматизации рекрутинговым компаниям удается добиваться большей эффективности подбора персонала, а заодно — высвободить время сотрудников, которое они могли потратить на более сложные задачи.

Чересчур прозрачно

В эпоху больших данных людям приходится прощаться с неприкосновенностью частной жизни: любой из нас превращается для корпораций в бактерию на предметном стекле, жизнь которой видна как под микроскопом.

В 2014 году пять бывших сотрудников Uber рассказали, что работники компании отслеживают поездки пользователей сервиса без их ведома: с помощью доступного внутри компании «режима бога» следят за перемещениями бывших супругов и партнеров, знакомых и даже знаменитостей — таких как Бейонсе. Несмотря на скандал, который вызвали эти откровения, технической возможности проверить, имела ли в действительности место подобная слежка, у правоохранительных органов нет. А значит, никакое законодательное регулирование не позволит надежно отгородиться от компаний, решивших собирать информацию о конкретных людях.

Выгоды использования больших данных для потребителя не столь очевидны, как для компаний. Для бизнеса это поступление денег «из воздуха», сокращение расходов на маркетинг или прогноз спроса на новые продукты.

Но если подойти с точки зрения клиента, то он просто видит очередную эсэмэску с предложением перейти на новый тарифный план или получает не очень аргументированный отказ банка, у которого хочет взять кредит. «Никто не может гарантировать, что big data — это что-то хорошее для клиента, мы можем лишь научить эту машину делать благие вещи.

Например, можем уведомить авиапассажира о высокой цене страхового полиса, вычислив, что вероятность благополучно вернуться из страны, куда он летит, снизилась из-за назревшего там политического кризиса», — говорит Артем Кулбасов.

Источник: https://plus.rbc.ru/news/595ad6647a8aa9147f3f62b5

Ученые рассказали о новейших технологиях анализа данных в медицине

Ученые расскажут о применении больших данныхИсследователи Института персонализированной медицины Сеченовского Университета проследили, как применяется машинное обучение и анализ больших данных в персонализированной медицине, в особенности в онкологии. Они указали на способ повышения гибкости алгоритмов и предложили собственный метод обработки данных. Работа опубликована в журнале Frontiers in Oncology.

Хотя принципы и основы алгоритмов машинного обучения были сформулированы более полувека назад, более или менее широкое­ распространение в медицине они получили только в последние 20 лет.

До этого алгоритмы изменили способ принятия решений в некоторых областях проектирования и разработки, банковской сфере, сельском хозяйстве, работе служб безопасности.

Переломный для сферы здравоохранения момент произошел, когда появились способы получения больших объемов медицинских данных, сведений о ДНК (геном), белках (протеом), РНК (транскриптом) и соединениях, обеспечивающих обмен веществ в клетке (метаболом).

Работа алгоритмов машинного обучения основана на создании математической модели и ее корректировке на основе «тренировочного» массива данных (например, сведений о состоянии пациента, проведенном лечении и, главное, результатах терапии). Получившуюся модель используют для предсказания исхода в новых случаях («тестовый» массив).

В медицине такие алгоритмы внедряются медленно из-за сложности и часто недостаточности данных – к примеру, современные методы секвенирования ДНК и РНК позволяют выделить намного больше признаков (мутаций отдельных генов), чем было обследовано пациентов, и для построения прогнозов требуется значительная обработка данных и сведение массивов из разных источников.

В области персонализированной медицины для предсказания результата той или иной стратегии лечения используются два типа данных: во-первых, сведения о поле, возрасте пациента, истории болезни, факторах риска, результатах обследований и лабораторных тестов, во-вторых, омиксные данные (состав и строение ДНК, РНК, белков, продуктов обмена веществ). Вторую группу данных можно сравнивать с выводами исследований, проведенных в клеточной культуре – с тем, как меняется активность (экспрессия) генов в ответ на применение лекарства.

Работа с алгоритмами машинного обучения состоит из трех основных этапов. Первый из которых — подготовка данных и составление «тренировочного» датасета. Здесь исследователь сталкивается с той же недостаточностью данных (признаков больше, чем обследованных пациентов), и должен отбирать наиболее важные для анализа характеристики.

Это могут быть гены, кодирующие конкретный фермент, или мутации, с наибольшей точностью выделяющие разные группы пациентов. Следующий этап это — применение алгоритма. Ученые могут либо выбрать подходящий метод из набора алгоритмов классификации и кластеризации, либо использовать сочетание нескольких из них.

И в финале — обработка «тестового» массива данных и оценка результата.

Исследователи лаборатории клинической и геномной биоинформатики Сеченовского Университета предложили способ отбора наиболее важных признаков для построения классификатора на основе методов машинного обучения. Новый алгоритм обеспечивает гибкий набор характеристик, «подстраивающийся» под каждый конкретный набор данных.

Он позволяет значительно повысить точность уже существующих методов машинного обучения и позволяет начать применять их даже на небольших наборах медико-биологических данных.

Это внушает надежду на скорую разработку десятков молекулярно-диагностических тестов, способных предсказывать эффективность разных видов онкотерапии для индивидуальных больных прежде всего исходя из молекулярных характеристик опухоли.

Исследование проводилось совместно со специалистами ИБХ РАН и компании OmicsWay Corporation (США).

Работа исследователей была представлена в рамках визита в Сеченовский Университет членов Совета по повышению конкурентоспособности ведущих университетов Российской Федерации среди ведущих мировых научно-образовательных центров (Совет Проекта 5-100) 24 октября 2019 года, где состоялась презентация передовых научных разработок и проектов, созданных в университете в рамках «дорожной карты» Проекта 5-100. Проведение данного исследования осуществлялось за счет субсидии программы.

Источник: https://www.sechenov.ru/pressroom/news/uchenye-rasskazali-o-noveyshikh-tekhnologiyakh-analiza-dannykh-v-meditsine/

Ещё больше данных: 7 историй о том, зачем нам Big Data — Bird In Flight

Массивы цифровых данных стали и подарком, и головной болью для человечества. Информация накапливается повсюду: покупки, чекины, поведение в соцсетях, фотографии, видео, геолокация. Огромное количество этих данных находится в открытом доступе — нам остаётся только научиться с ними работать.

Какой день недели самый популярный для расставаний

Дэвид МакКэндлесс, журналист и автор книги Information is Beautiful, делает упор на визуализации данных — по его мнению, если она не упрощает восприятие большого объёма информации и не помогает выявлять неочевидные связи, это просто красивая картинка.

На момент своего выступления Дэвид всего год занимался журналистикой данных, однако в поисках интересных тенденций успел сравнить, на что в мире тратится больше всего денег, составил карту человеческих страхов и график расставаний по дням недели на основе статусов в фейсбуке.

Как статистика может понизить уровень преступности

Заняв должность генпрокурора Нью-Джерси, Энн Милгрэм обнаружила, что в системе уголовного судопроизводства США не используются статистические данные и при вынесении приговора судьи вынуждены опираться на личный опыт.

Так, например, судья не знает, какова вероятность попадания его подсудимого в тюрьму ещё раз. Однако с помощью статистики такую вероятность вполне можно рассчитать на основе подробностей дела, а также возраста и места проживания подсудимого.

Милгрэм занялась созданием единой криминальной базы, которая, как она надеется, в корне поменяет систему вынесения приговоров.

Как найти самый одинокий штат

На примере своих девяти проектов в области больших данных Р.Люк Дюбуа показывает, что исходным материалом для исследования может быть что угодно: музыкальные файлы, фильмы, получившие награду Киноакадемии, собственная переписка по электронной почте.

В какой-то момент, посчитав, что данные переписи американцев недостаточно интересны, Дюбуа решил обратиться к гораздо более мощному источнику персональных данных: сайтам знакомств.

В 2010 году он завёл от лица гетеро- и гомосексуальных мужчин и женщин анкеты на 21 сайте знакомств и скачал около 19 млн профилей пользователей в Америке, что сопоставимо с 20% взрослого населения США.

Отсортировав данные по индексам штатов, Дюбуа смог создать карты Америки по количеству одиноких людей или использующих в своих профилях слово «пикантный».

Деб Рой, исследователь Массачусетского технологического института, решил разобраться в том, как его сын учится говорить.

Для этого с рождения ребёнка на потолке каждой комнаты Рой установил камеры, которые задокументировали 90 тысяч часов жизни семьи.

С помощью видеомассива Рой и его коллеги смогли проследить, что влияло на появление новых слов в словаре ребёнка и как «га-а-а» превращается в «вода».

Как собирать медицинскую информацию в Африке

Работа с данными в сфере здравоохранения всё ещё затруднительна. В развивающихся странах врачи вынуждены ездить по деревням, стучаться в дома, записывать ответы на вопросы на бумаге.

Часто от получения данных до их ввода и обработки проходит слишком много времени, и информация устаревает ещё до того, как до неё доберутся аналитики.

Читайте также:  Как повысить конкурентоспособность вузов на мировом рынке образования

Врач Джоэл Селаникио рассказывает, как менялся сбор данных в развивающихся странах за последние 20 лет, начиная с того, как данные стали при сборе заносить в карманные компьютеры, и заканчивая использованием облачных сервисов.

Как встретить идеального мужа

Журналистка Эми Вебб искала партнёра на сайте знакомств, когда после серии неудачных свиданий решила применить к поиску исследовательский подход.

Она составила список из 72 необходимых качеств партнёра и, пользуясь сайтами знакомств как базами данных, начала выводить свой алгоритм поиска.

Эми вычислила, сколько существует мужчин, подходящих под её требования, и на какие женские профили чаще реагируют мужчины. В итоге она нашла мужа и написала книгу о своём проекте.

Как прогнозировать поведение людей с помощью социальных сетей

Пользователи социальных сетей генерируют огромные массивы персональных данных.

Специалист по сетевому анализу Дженнифер Голбек разработала алгоритмы, позволяющие на основе лайков и репостов в фейсбуке достаточно точно предсказать политические предпочтения людей, личностные характеристики, сексуальную ориентацию, религию, возраст, интеллект, степень доверия к другим людям и многое другое.

Голбек подчёркивает, что учёные занимаются таким анализом в научных целях, но в подобных прогнозах также могут быть заинтересованы, к примеру, работодатели, что в очередной раз поднимает вопрос об этике использования массивов персональных данных.

(Изображение на обложке: informationisbeautiful.net.)

Источник: https://birdinflight.com/ru/mir/20160823-7-lectures-ted-on-big-data.html

Что такое Big data: собрали всё самое важное о больших данных | Rusbase

Что такое Big data, как это работает и почему все носятся с данными как с писаной торбой: Rusbase объясняет на пальцах для тех, кто немного отстал от жизни.

Что такое Big data: собрали всё самое важное о больших данных Алиса Беркана

Только ленивый не говорит о Big data, но что это такое и как это работает — понимает вряд ли. Начнём с самого простого — терминология. Говоря по-русски, Big data — это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для того, чтобы их использовать для конкретных задач и целей.

Неструктурированные данные — это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.

Термин «большие данные» ввёл редактор журнала Nature Клиффорд Линч ещё в 2008 году в спецвыпуске, посвящённом взрывному росту мировых объёмов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.

 Как зарождалась эра Big data

Сегодня под этим простым термином скрывается всего два слова — хранение и обработка данных.

Big data — простыми словами

В современном мире Big data — социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных.

 Мир Big data в 8 терминах 

Для простоты понимания представьте супермаркет, в котором все товары лежат не в привычном вам порядке.

Хлеб рядом с фруктами, томатная паста около замороженной пиццы, жидкость для розжига напротив стеллажа с тампонами, на котором помимо прочих стоит авокадо, тофу или грибы шиитаке.

Big data расставляют всё по своим местам и помогают вам найти ореховое молоко, узнать стоимость и срок годности, а еще — кто, кроме вас, покупает такое молоко и чем оно лучше молока коровьего.

Кеннет Кукьер: Большие данные — лучшие данные

Технология Big data

Огромные объёмы данных обрабатываются для того, чтобы человек мог получить конкретные и нужные ему результаты для их дальнейшего эффективного применения.

 Big data: анализ и структурирование

Фактически, Big data — это решение проблем и альтернатива традиционным системам управления данными.

Техники и методы анализа, применимые к Big data по McKinsey:

  • Data Mining;
  • Краудсорсинг;
  • Смешение и интеграция данных;
  • Машинное обучение;
  • Искусственные нейронные сети;
  • Распознавание образов;
  • Прогнозная аналитика;
  • Имитационное моделирование;
  • Пространственный анализ;
  • Статистический анализ;
  • Визуализация аналитических данных.

Горизонтальная масштабируемость, которая обеспечивает обработку данных — базовый принцип обработки больших данных. Данные распределены на вычислительные узлы, а обработка происходит без деградации производительности. McKinsey включил в контекст применимости также реляционные системы управления и Business Intelligence.

Технологии:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • R;
  • Аппаратные решения.

 Big data: семантический анализ данных и машинное обучение

Для больших данных выделяют традиционные определяющие характеристики, выработанные Meta Group ещё в 2001 году, которые называются «Три V»:

  1. Volume — величина физического объёма.
  2. Velocity — скорость прироста и необходимости быстрой обработки данных для получения результатов.
  3. Variety — возможность одновременно обрабатывать различные типы данных.

Big data: применение и возможности

Объёмы неоднородной и быстро поступающей цифровой информации обработать традиционными инструментами невозможно. Сам анализ данных позволяет увидеть определённые и незаметные закономерности, которые не может увидеть человек. Это позволяет оптимизировать все сферы нашей жизни — от государственного управления до производства и телекоммуникаций.

  • Например, некоторые компании ещё несколько лет назад защищали своих клиентов от мошенничества, а забота о деньгах клиента — забота о своих собственных деньгах.
  • Сюзан Этлиджер: Как быть с большими данными?

Решения на основе Big data: «Сбербанк», «Билайн» и другие компании

У «Билайна» есть огромное количество данных об абонентах, которые они используют не только для работы с ними, но и для создания аналитических продуктов, вроде внешнего консалтинга или IPTV-аналитики. «Билайн» сегментировали базу и защитили клиентов от денежных махинаций и вирусов, использовав для хранения HDFS и Apache Spark, а для обработки данных — Rapidminer и Python.

 «Большие данные дают конкурентное преимущество, поэтому не все хотят о них рассказывать»

Или вспомним «Сбербанк» с их старым кейсом под названием АС САФИ. Это система, которая анализирует фотографии для идентификации клиентов банка и предотвращает мошенничество.

Система была внедрена ещё в 2014 году, в основе системы — сравнение фотографий из базы, которые попадают туда с веб-камер на стойках благодаря компьютерному зрению. Основа системы — биометрическая платформа.

Благодаря этому, случаи мошенничества уменьшились в 10 раз.

Big data в мире

По данным компании IBS, к 2003 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году — до 1,76 зеттабайта, к 2013 году — до 4,4 зеттабайта. В мае 2015 года глобальное количество данных превысило 6,5 зеттабайта (подробнее).

К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители.

Аналитики исследования считают, что данные станут жизненно-важным активом, а безопасность — критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключёнными устройствами около 4800 раз в день. 

В 2017 году мировой доход на рынке big data должен достигнуть $150,8 млрд, что на 12,4% больше, чем в прошлом году. В мировом масштабе российский рынок услуг и технологий big data ещё очень мал. В 2014 году американская компания IDC оценивала его в $340 млн. В России технологию используют в банковской сфере, энергетике, логистике, государственном секторе, телекоме и промышленности.

 Как устроен рынок Big data в России

Что касается рынка данных, он в России только зарождается. Внутри экосистемы RTB поставщиками данных выступают владельцы программатик-платформ управления данными (DMP) и бирж данных (data exchange). Телеком-операторы в пилотном режиме делятся с банками потребительской информацией о потенциальных заёмщиках.

15 сентября в Москве состоится конференция по большим данным Big Data Conference. В программе — бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области. Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе.
Следите за Big Data Conference в Telegram,

Источник: https://rb.ru/howto/chto-takoe-big-data/

Как большие данные изменят медицину для врача и пациента

Ученые давно не представляют научных прорывов без применения анализа больших данных. Алгоритмы учатся быстрее врачей и уже меняют подходы в лабораторной и инструментальной диагностики. Теперь специалисты рассказали, что будет дальше.

На прошлой неделе в Стэнфордском университете собрались эксперты и ученые из разных отраслей, чтобы обсудить ближайшее будущее больших данных (big data) в системе здравоохранения.

Врачу инструменты big data сегодня, в первую очередь, облегчают рутинные активности, например — интерпретацию электронных медицинских записей.

Для пациента анализ больших данных означает разработку более быстрых и эффективных диагностических инструментов, а также новый уровень понимания индивидуальных особенностей для здоровья.

Например, уже разработали методы ИИ, которые диагностируют рак простаты и легких на уровне специалистов или даже лучше них. Но есть и другие направления развития.

Альтернативы и новые лекарства

С помощью анализа больших данных ученые изучают особенности определенных групп пациентов, которые не реагируют на стандартное лечение. Вig data поможет заранее оценивать предрасположенность человека к лечению и предоставлять альтернативные меры для пациентов с особенностями. Кроме того, учет личных данных поможет в разработке и тестировании новых лекарств.

Личные данные для профилактики

Сегодня в крупнейшем биобанке в Великобритании хранятся медицинские сведения о более чем 500 тысячах человек, которые регулярно используются многими учеными в рамках научных исследований. Эти данные анализируются с целью выявления определенных закономерностей, которые затем связывают с риском развития конкретных болезней.

Пациенту эта информация дает повод лучше следить за здоровьем в случае предрасположенности к диабету, сердечно-сосудистым заболеваниям, нарушениям метаболизма и другим проблемам.

Ценность генетических данных для оценки рисков многих заболеваний сегодня сложно переоценить. Не раз массовое генетическое тестирование — главный шаг к персонализированной медицине.

ДНК-тестирование полезно и для профилактики, и для пациентов с уже развивающимися заболеваниями — для определения категории и дозы препарата, который точно сработает, исходя из особенностей организма.

Нужно больше данных

Несмотря на успехи ученых во многих областях медицины, сегодня науке нужно больше персональных данных для изучения старения, расстройств сна, нейродегенеративных, онкологических и других заболеваний.

Проблема в том, что лишь ограниченный набор медицинских учреждений может гарантировать такую защиту, в связи с чем в обществе сложилось устойчивое мнение о вреде предоставления личных данных для граждан.

Так, из-за опасений конфиденциальности люди отказываются от бесплатного генетического тестирования. Есть и другие случаи, когда компании добровольно предоставляют данные государству для снижения преступности, однако такие ситуации лишь настраивают людей против благих целей ученых.

Источник: https://hightech.plus/2019/05/27/kak-bolshie-dannie-izmenyat-medicinu-dlya-vracha-i-pacienta

Технологии Big Data: как использовать большие данные в маркетинге

  • Что такое Big Data
  • Большие данные (Big Data, биг дата)

 — это структурированные и неструктурированные данные огромных объемов и разнообразия, а также методы их обработки, которые позволяют распределенно анализировать информацию.

Термин Big Data появился в 2008 году. Впервые его употребил редактор журнала Nature — Клиффорд Линч. Он рассказывал про взрывной рост объемов мировой информации и отмечал, что освоить их помогут новые инструменты и более развитые технологии.

Если говорить простыми словами, большие данные — это общее название для больших массивов данных и методов их обработки. Такие данные эффективно обрабатываются с помощью масштабируемых программных инструментов, которые появились в конце 2000-х годов и стали альтернативой традиционным базам данных и решениям Business Intelligence. Анализ больших данных проводят для того, чтобы получить новую, ранее неизвестную информацию. Подобные открытия называют инсайтом, что означает озарение, догадку, внезапное понимание.

Традиционная аналитика;Big data аналитика

Постепенный анализ небольших пакетов данных;Обработка сразу всего массива доступных данных Редакция и сортировка данных перед обработкой;Данные обрабатываются в их исходном виде Старт с гипотезы и ее тестирования относительно данных;Поиск корреляций по всем данным до получения искомой информации Данные собираются, обрабатываются, хранятся и лишь затем анализируются;Анализ и обработка больших данных в реальном времени, по мере поступления

Когда говорят о Big Data, упоминают правило VVV — три признака или свойства, которыми большие данные должны обладать:

Volume — объем (данные измеряются по величине физического объема документов).

Velocity — данные регулярно обновляются, что требует их постоянной обработки.

Variety — разнообразные данные могут иметь неоднородные форматы, быть неструктурированными или структурированными частично.

В России под Big Data подразумевают также технологии обработки, а в мире — лишь сам объект исследования.

Функция;Задача

Big Data — собственно массивы необработанных данных;Хранение и управление большими объемами постоянно обновляющейся информации Data mining — процесс обработки и структуризации данных, этап аналитики для выявления закономерностей;Структурирование разнообразных сведений, поиск скрытых и неочевидных связей для приведения к единому знаменателю Machine learning — процесс машинного обучения на основе обнаруженных связей в процессе анализа;Аналитика и прогнозирование на основе обработанной и структурированной информации

В 2007 году стал популярен новый тип машинного обучения — Deep learning (Глубокое обучение). Он позволил усовершенствовать нейронные сети до уровня ограниченного искусственного интеллекта. При обычном машинном обучении компьютер извлекал опыт через примеры программиста, а при Deep Learning система уже сама создает многоуровневые вычисления и делает выводы.

К источникам больших данных относят:

  • Интернет — соцсети, блоги, СМИ, форумы, сайты, интернет вещей (IoT).
  • Корпоративные данные — транзакционная деловая информация, архивы, базы данных.
  • Показания устройств — датчиков, приборов, а также метеорологические данные, данные сотовой связи и т.д.

При этом нельзя сказать, что есть отдельные виды больших данных — суть метода в том, что он объединяет самые различные типы данных и извлекает из них новую, ранее недоступную информацию. Для корректного функционирования система больших данных должна быть основана на определенных принципах:

  • Горизонтальная масштабируемость — любая система, которая обрабатывает большие данные должна быть расширяемой. Если объем данных вырастет в 2 раза, то количество серверов в кластере также должно быть увеличено в 2 раза.
  • Отказоустойчивость — необходимое условие при большом количестве машин, которые неизбежно будут выходить из строя.
  • Локальность данных — для снижения издержек данные необходимо обрабатывать на том же сервере, где они хранятся.

Активнее всего большие данные используют в финансовой и медицинской отраслях, высокотехнологичных и интернет-компаниях, а также в государственном секторе.

Всех, кто имеет дело с большими данным, можно условно разделить на несколько групп:

  • Поставщики инфраструктуры — решают задачи хранения и предобработки данных. Например: IBM, Microsoft, Oracle, Sap и другие.
  • Датамайнеры — разработчики алгоритмов, которые помогают заказчикам извлекать ценные сведения. Среди них: Yandex Data Factory, «Алгомост», Glowbyte Consulting, CleverData и др.
  • Системные интеграторы — компании, которые внедряют системы анализа больших данных на стороне клиента. К примеру: «Форс», «Крок» и др.
  • Потребители — компании, которые покупают программно-аппаратные комплексы и заказывают алгоритмы у консультантов. Это «Сбербанк», «Газпром», «МТС», «Мегафон» и другие компании из отраслей финансов, телекоммуникаций, ритейла.
  • Разработчики готовых сервисов — предлагают готовые решения на основе доступа к большим данным. Они открывают возможности Big Data для широкого круга пользователей.

Основные поставщики больших данных в России — поисковые системы. Они имеют доступ к массивам данных, а кроме того, обладают достаточной технологической базой для создания новых сервисов.

Источник: https://www.uplab.ru/blog/big-data-technologies/

Ссылка на основную публикацию