Data Science. Инструкция для шпиона и премьера
В старом фильме Сидни Поллака «Три дня Кондора» по книге Джеймса Грэйди герой, персонаж Роберта Редфорда, занимался анализом бульварной литературы и детективов для ЦРУ. Сейчас это называют «разведывательным анализом», даже если он производится в интересах не разведки, а небольшой торговой сети, строительной или финансовой корпорации, GOOGLE или министерства экономики целой страны.
Мир - это машина, непрерывно генерирующая «большие данные», говорят авторы книги «Data Science. Инсайдерская информация для новичков. Включая язык R» (Doing Data Science: Straight Talk from the Frontline). Она основана на курсах, которые Кэти О'Нил и Рейчел Шатт ведут в Колумбийском университете. Эту работу называют базовой для входа в аналитику данных, при том, что в ней предлагаются и самые актуальные подходы и методы.
Начав с описания предмета Data Science и его связи с Big Data, статистикой, теорией вероятности, математическими методами и программированием, авторы описывают алгоритмы анализа данных, реализованные в R, приводят конкретные кейсы (в том числе по борьбе со спамом и фильтрацией фейка). Отдельные главы посвящены обнаружению мошенничеств, анализу соцсетей и дата-журналистике, прогнозу эпидемий и будущего самой Data Science.
Книгу для студентов, аналитиков, программистов и просто интересующихся выпустило издательство «Питер» в серии «Библиотека программиста».