Бизнес-аналитика: от данных к знаниям (+CD). Учебное пособие. 2-е издание

Н. Б. Паклин В. И. Орешков

Обложка:




Оглавление
Предисловие авторов 8
Об авторах 10
От издательства 11
Вступительное слово .12
Введение .14
Современная бизнес-аналитика .14
Часть I. Теория бизнес-анализа
Глава 1. Технологии анализа данных .20
1.1. Введение в анализ данных 20
1.2. Принципы анализа данных .25
1.3. Структурированные данные 30
1.4. Подготовка данных к анализу .34
1.5. Технологии KDD и Data Mining 40
1.6. Аналитические платформы .47
1.7. Введение в алгоритмы Data Mining 51
Глава 2. Консолидация данных .61
2.1. Задача консолидации .61
2.2. Введение в хранилища данных .65
2.3. Основные концепции хранилищ данных 71
2.4. Многомерные хранилища данных 76
2.5. Реляционные хранилища данных 82
2.6. Гибридные хранилища данных 86
2.7. Виртуальные хранилища данных .91
2.8. Нечеткие срезы 94
2.9. Введение в ETL .100
2.10. Извлечение данных в ETL .103
2.11. Очистка данных в ETL .108
2.12. Преобразование данных в ETL 113
2.13. Загрузка данных в хранилище .119
2.14. Загрузка данных из локальных источников 123
2.15. Обогащение данных 131
Глава 3. Трансформация данных 138
3.1. Введение в трансформацию данных 138
3.2. Трансформация упорядоченных данных 142
3.3. Группировка данных .151
3.4. Слияние данных .154
3.5. Квантование .160
3.6. Нормализация и кодирование данных .166
Глава 4. Визуализация данных 173
4.1. Введение в визуализацию .173
4.2. Визуализаторы общего назначения .177
4.3. OLAP-анализ .184
4.4. Визуализаторы для оценки качества моделей .192
4.5. Визуализаторы, применяемые для интерпретации результатов анализа 202
Глава 5. Очистка и предобработка данных 211
5.1. Оценка качества данных .211
5.2. Технологии и методы оценки качества данных 217
5.3. Очистка и предобработка .224
5.4. Фильтрация данных 232
5.5. Обработка дубликатов и противоречий .234
5.6. Выявление аномальных значений .240
5.7. Восстановление пропущенных значений 247
5.8. Введение в сокращение размерности 253
5.9. Сокращение числа признаков .258
5.10. Сокращение числа значений признаков и записей .270
5.11. Сэмплинг 273
Глава 6. Data Mining: задача ассоциации .281
6.1. Ассоциативные правила 281
6.2. Алгоритм Apriori 287
6.3. Иерархические ассоциативные правила 292
6.4. Последовательные шаблоны .299
Глава 7. Data Mining: кластеризация 308
7.1. Введение в кластеризацию .308
7.2. Алгоритм кластеризации k-means 311
7.3. Сети Кохонена 322
7.4. Карты Кохонена 330
7.5. Проблемы алгоритмов кластеризации .337
Глава 8. Data Mining: классификация и регрессия. Статистические методы 342
8.1. Введение в классификацию и регрессию .342
8.2. Простая линейная регрессия .351
8.3. Оценка соответствия простой линейной регрессии реальным данным .356
8.4. Простая регрессионная модель .363
8.5. Множественная линейная регрессия .370
8.6. Модель множественной линейной регрессии .376
8.7. Регрессия с категориальными входными переменными 380
8.8. Методы отбора переменных в регрессионные модели .387
8.9. Ограничения применимости регрессионных моделей 396
8.10. Основы логистической регрессии 403
8.11. Интерпретация модели логистической регрессии 411
8.12. Множественная логистическая регрессия 421
8.13. Простой байесовский классификатор 423
Глава 9. Data Mining: классификация и регрессия. Машинное обучение .428
9.1. Введение в деревья решений 428
9.2. Алгоритмы построения деревьев решений 437
9.3. Алгоритмы ID3 и С4.5 .444
9.4. Алгоритм CART .459
9.5. Упрощение деревьев решений 465
9.6. Введение в нейронные сети 472
9.7. Искусственный нейрон 478
9.8. Принципы построения нейронных сетей 484
9.9. Процесс обучения нейронной сети 490
9.10. Алгоритмы обучения нейронных сетей 498
9.11. Алгоритм обратного распространения ошибки .507
Глава 10. Анализ и прогнозирование временных рядов 514
10.1. Введение в прогнозирование 514
10.2. Временной ряд и его компоненты 516
10.3. Модели прогнозирования 532
10.4. Прогнозирование в торговле и логистике 540
Глава 11. Ансамбли моделей .543
11.1. Введение в ансамбли моделей 543
11.2. Бэггинг .548
11.3. Бустинг .553
11.4. Альтернативные методы построения ансамблей 557
Глава 12. Сравнение моделей 563
12.1. Оценка эффективности и сравнение моделей 563
12.2. Оценка ошибки модели .567
12.3. Издержки ошибочной классификации .572
12.4. Lift- и Profit-кривые .576
12.5. ROC-анализ 586
12.6.Обучение в условиях несбалансированности классов 593
Часть II. Бизнес-анализ в Deductor
Глава 13. Аналитическая платформа Deductor 600
Глава 14. Консолидация данных и аналитическая отчетность аптечной сети 606
Глава 15. Ассоциативные правила в стимулировании розничных продаж 635
Глава 16. Сегментация клиентов телекоммуникационной компании .643
Глава 17. Скоринговые модели для оценки кредитоспособности заемщиков .657
Глава 18. Прогнозирование продаж товаров в оптовой компании .676
Глава 19. Повышение эффективности массовой рассылки клиентам 682
Заключение .689
Литература .690
Aлфавитный указатель .693