Перейти к содержанию

Статья про Data Mining в конкурентной разведке, и


Рекомендуемые сообщения

Гипотез не измышляю

(Data mining в конкурентной разведке, и не только)

Ю. П. ВОРОНОВ,

кандидат экономических наук,

вице-президент Новосибирской торгово-промышленной палаты,

генеральный директор консультационной фирмы «Корпус»,

Новосибирск

Мне очень нравится время от времени слушать казахское радио, когда из малопонятного потока красиво переливающейся тюркской речи удается выделить знакомые слова — «трактор», «президент Буш» или «аралас товарлары». Последнее означает всего лишь «смешанные товары».

 

И точно так же, как слово «трактор» не переводится на казахский язык, на русский непереводим оборот «data mining» («дэйта майнинг»). «Майнинг» отдельно перевести можно — это «добыча (полезных ископаемых)» от «mine» — шахта, рудник. «Data» — это данные, информация. Но «data mining» вместе — это не добыча информации, а скорее «раскопки», которые ведет исследователь внутри уже собранной информации.

 

Что это такое?

Приведем сначала несколько определений «data mining» из разных источников.

 

Выделение из данных неявной и неструктурированной информации, представление ее в удобном виде.

 

Анализ и представление детализированных данных для решения проблем бизнеса.

 

Обработка больших объемов данных для выделения структур (patterns).

 

Обнаружение новых значимых корреляций и тенденций в данных большого объема.

 

Процесс, цель которого — обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образов плюс применение статистических и математических методов.

 

Автоматическое выделение эффективной информации из больших баз данных.

 

Анализ информации в базе данных с целью отыскания аномалий и трендов без выявления смыслового значения записей.

 

Процесс обнаружения в «сырых» данных ранее не известных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

 

Информационный инструмент управления, с помощью которого возможно вскрывать структуры, способные приводить к решениям в условиях неопределенности.

 

Есть и более лаконичное, хотя и шутливое определение: «Вы мучаете информацию, пока она не признается». Все эти определения верны, каждое по-своему. Но они не объясняют сути метода.

 

Иногда data mining приравнивают к «обнаружению знаний» (knowledge discovery), под которым понимается нахождение скрытых структур, регулярностей (patterns), преобразующих информацию в знания.

 

Теперь попробуем описать, что же такое data mining по существу. Общеизвестный статистический анализ состоит в том, что сначала исследователь выдвигает гипотезу о связи или независимости признаков, которую затем проверяют на статистическую значимость. «Добыча эффективной информации» (data mining), в отличие от статистического анализа, представляет некоторую стандартную цепь процедур, практически не оставляющую возможностей для творческого подхода в рамках собственно математической статистики.

 

Что же ограничивает творчество? Прежде всего, data mining направлен на практическое применение результатов анализа, а не на принципиальное исследование структуры анализируемых явлений или субъектов деятельности. Иными словами, если на основании выявленной закономерности нельзя принять никакого решения, то эта закономерность для data mining не существует.

 

Новый оптимальный раскрой

Против одного из наших клиентов работали восемь конкурентов. Положение было настолько тяжелым, что он понял: «В одиночку не выжить». Но с кем из конкурентов целесообразно договариваться о сотрудничестве? Ведь перебор будущих партнеров — недопустим. Информация и слухи о первых же переговорах потекут рекой. К каждому следующему кандидату придется идти, соглашаясь на все более тяжелые условия сотрудничества.

 

Были набраны разные характеристики конкурентов, около сорока показателей — от численности персонала до родственных связей с представителями власти. Затем проведено «разрезание» этой группы на максимально отличающиеся друг от друга части. В одну группу попали два конкурента, в другую — шесть. Мы подробно описали отличия этих групп и то, какие ходы могут быть сделаны, чтобы склонить к сотрудничеству членов каждой группы.

 

Наш заказчик внимательно ознакомился с предложениями и решил, что выбирать нужно из той группы, где два конкурента. Мы получили новое задание: еще более подробно описать отличия этих двух конкурентов. В конце концов выбор был сделан, и переговоры оказались на редкость удачными. Характерный и, к сожалению, типичный побочный результат этой работы — убежденность нашего клиента в том, что успех был обеспечен его талантом переговорщика, а не малопонятной «суетой вокруг цифири».

 

Из всех процедур data mining выделю одну, как из-за ее малой распространенности, так и явной пользы, получаемой от ее использования, — так называемый слайсинг. Итак, в системе data mining чаще всего процедуры анализа начинаются с «разрезания» исследуемой совокупности, т. е. со слайсинга (slicing, от слова to slice — разрезать). При этом используется принцип «полного отрыва от содержания». То есть статистическая совокупность рассматривается просто как набор точек в многомерном пространстве. Точки расположены неравномерно: в одних местах — густо, в других — редко, есть и совершенно пустые зоны. Расстояния между точками разные, различны и распределения их проекций на оси признаков.

 

Вместо того чтобы делить совокупность на содержательно обоснованные группы (что чаще всего и делается), при слайсинге сначала ее разделяют по формальным критериям, а только потом пытаются согласовать полученное разделение с некоторыми содержательными, объясняющими критериями. Такая «вывернутая» последовательность несколько необычна для многих, привыкших работать на основании содержательных критериев. Однако спустя совсем малое время, «единожды согрешивши», такие специалисты с увлечением разгадывают загадки, которые преподносит им формально работающий алгоритм слайсинга.

 

Поясним его суть на конкретном примере. На графике результаты слайсинга напоминает обращенное кроной вниз дерево, в этом он чем-то похож на гроздь (кластер). По этой причине слайсинг иногда путают с кластеризацией, то есть с выделением групп объектов по всем признакам сразу. Но нужно помнить, что кластеризация — это анализ структуры объектов, а с помощью слайсинга анализируют структуру признаков. По нашему опыту, слайсинг более удачен для аналитики конкурентной разведки, чем кластеризация. О причинах позже, сейчас разберем пример (рисунок).

 

 

Представим, что приведенная схема получилась в результате анализа номенклатуры товаров, которые производит ваш конкурент. А информацию о продажах вы получили каким-то утомительным способом, вроде постоянного наблюдения за его торговыми точками, либо менее целомудренно, заполучив ее через подкупленного программиста.

 

Итак, у вас есть информация с кассовых аппаратов конкурента, что же теперь с ней делать? У тех, кто видел эту информацию, сразу пропадет охота выдвигать какие-либо гипотезы. Это все равно что, приехав из села, наблюдать за жизнью города. Вместо предположений о зависимостях и взаимосвязях одни вопросы: «Ой, а что это такое? А что же здесь происходит?». Какие уж тут гипотезы измышлять...

 

И вот мы начинаем процедуру слайсинга. Процедура выявляет первый признак, по которому совокупность товаров разделяется на два первых нода. Такой термин принят в анализе для обозначения выделенных групп объектов. Оказывается, это цена. Дорогие товары (нод 1 на схеме) отделились от прочих (нод 2). В свою очередь, нод 1 разделился надвое по тому же признаку цены. При этом нод самых дорогих товаров (нод 3) дальше не делится. Это означает, что конкурент выбрал какую-то подозрительно однородную группу очень дорогих товаров. Берем на заметку, идем дальше.

 

Нод 4, в который вошли дорогие, но не очень, товары, разделился по признаку «день недели». В нод 7 вошли товары, которые продаются только по выходным, в нод 8 — в будние дни.

 

Нод прочих (недорогих) товаров (нод 2) разделился по признаку «количество товаров в чеке» (т. е. в одной покупке). В нод 5 попали товары, которые покупаются десятками, в нод 6 — приобретаемые в количестве не более десятка. Таким образом, разделение между пятым и шестым нодами прошло по признаку «количество товаров в чеке». Нод 5, в свою очередь, разделился на нод 9 и нод 10 по признаку «время покупки», а нод 6 — на ноды 11 и 12, «производитель (поставщик) товара». Последнее разделение выделило в отдельную группу товар (назовем его Х), который, как выяснилось после дополнительного анализа, составлял значительную долю общего оборота товаров от данного производителя.

 

Последнее деление оказалось наиболее существенным для последующих шагов в отношении конкурента. Ведь, проводя анализ с использованием схемы data mining, мы не располагали информацией относительно долей, какие каждый товар занимает в товарном потоке от того или иного производителя.

 

Но то, что какой-то товар «вывалился» при очередном «разрезании», наводит на мысль, что здесь что-то неладно. После нескольких специальных мероприятий мы выяснили действительную роль товара Х в обороте конкурента. По собранным признакам, этот товар «вел себя» нестандартно, и нами была получена дополнительная информация, чрезвычайно важная для борьбы с конкурентом. А именно: если мы «подкосим» его бизнес по товару Х, то и в целом с поставками от производителя у него будет неважно. Стратегия работы против конкурента свелась к тому, что был выбран товар А другого производителя, конкурирующий с товаром Х, и продажи товара А были организованы с минимальной торговой наценкой. В конце концов продажи товара Х у конкурента упали, он разорвал связи с поставщиком этого и довольно значительной группы других товаров от того же производителя. Теперь можно было увеличивать наценку на товар А.

 

Кроме того, разделение нода 2 на ноды 5 и 6 («количество товаров в чеке»), а также последующее разделение нода 5 на ноды 9 и 10 («время покупки») навели на мысль о том, что в магазин конкурента захаживают мелкие розничные торговцы. Причем делают они это вне «часов пик». На основании этой информации было установлено наблюдение за розничными торговцами, приходящими в магазин, и с ними проведены соблазняющие беседы. В итоге магазин лишился значительной доли выручки.

 

Практический результат, приведенный в условном примере, несколько упрощен. Но сейчас моя задача состоит в том, чтобы на не слишком сложном примере объяснить суть и практическую пользу слайсинга.

 

Итак, с помощью слайсинга выясняются те скрытые элементы информации, которые вряд ли могут быть выявлены другими методами. Предшественник слайсинга в математической статистике — дискриминационный анализ. Отношения между ними такие же, как между техническим анализом курсов ценных бумаг и академическим анализом тенденций рынка.

 

Еще более близкая аналогия может быть извлечена из истории самой математической статистики. Когда появились первые работы по планированию эксперимента, то в приличных статистических журналах их не печатали. Как же так? Без проверки близости эмпирического распределения к нормальному, да еще на основании малой выборки что-то там считать? Это ненаучно! Прошло два или три десятилетия, пока противники новых методов успокоились.

 

Так и продолжают сосуществовать две линии: высоконаучная (анализ трендов, проверка на соответствие нормальному распределению, дискриминантный анализ) и прикладная (технический анализ, планирование эксперимента, а вот теперь и слайсинг).

 

Помимо слайсинга

Было бы неправильно видеть в системе data mining некоторую единую методику. Здесь, как, впрочем, и под «кибернетикой», понимается набор разрозненных математикостатистических методов, к числу которых относится ассоциирование, то есть объединение в группы сходных объектов. Упомянутая кластеризация представляет собой частный случай и наиболее развитую процедуру ассоциирования. Объединение объектов в рамках кластеризации — иерархическое, мелкие группы объектов оказываются вложенными в более крупные. В последнее время в пакеты программ data mining включаются и новомодные методы: нечеткая логика, размытые множества, генетические алгоритмы, фрактальные преобразования, нейронные сети. Общий принцип таков: неважно, какие методы, главное — решение поставленной задачи.

 

Существует несколько специализированных программных пакетов, содержащих набор процедур data mining. Но в нашей практике мы обычно пользуемся модулем Data Miner, который включен в известную статистическую программу STATISTICA.

 

Его основу составляет программа слайсинга General Slicer/Dicer Explorer. Результаты ее работы показаны выше. Кроме этого, в составе модуля есть программа классификации General Classifier. Она включает в себя блоки построения регрессионных моделей, классификации по образцам и дискриминантного анализа. Специализированная программа General Modeler/Multivariate Explorer содержит набор методов множественной регрессии и факторного анализа. Программа позволяет составлять произвольные структурные уравнения. Программа General Forecaster, еще один компонент модуля Data Miner, предоставляет широкий выбор традиционных методов прогнозирования: распределенные лаги, выделение сезонных колебаний, экспоненциальное сглаживание. И завершает набор элементов модуля программа нейронных сетей.

 

В современных системах мониторинга и конкурентной разведки data mining начинают не только использовать стандартные схемы, но и встраивают их в системы ввода информации. Каждая новая порция информации подвергается анализу сразу же по поступлении. Такие процедуры называются «аналитический процесс он-лайн» (On-Line Analytic Processing, сокращенно OLAP) или «быстрый анализ распределенной многомерной информации» (Fast Analysis of Shared Multidimensional Information, или FASMI).

 

Оперативные технологии позволяют генерировать из баз данных оперативные описательные или сравнительные справки. Несмотря на название (он-лайн), OLAP на практике не работает в реальном времени; анализ все-таки делается периодически, по мере появления потребности в нем. Иногда OLAP или FASMI запускаются автоматически спустя определенное время. По мере работы с одним и тем же увеличивающимся массивом эти системы постепенно «привыкают» к стандартным схемам анализа, типичным для исследователя, занимающегося данной проблемой.

 

Почему data mining хорош для конкурентной разведки?

Как говорилось выше, в традиционной обработке данных предполагается, что первоначально должна быть выдвинута гипотеза о связи переменных или их комплексов, но за этим стоит и неформальная, содержательная гипотеза. Аналитика в конкурентной разведке похожа на полную сюрпризов работу сапера. Вот встретилось нечто неожиданное, и это нужно изучить тщательно, определить безошибочно. Последствия могут и не быть такими трагичными, как у сапера. Но как знать...

 

Не будет преувеличением сказать, что сначала сформировались профессиональные способности интерпретировать неожиданные результаты, и только потом появилась (стала возможной) система data mining.

 

Вкратце легенда о появлении таких профессионалов звучит так. Несмотря на вполне понятное увлечение Зорге и Штирлицами, ни у СССР, ни у его союзников не было достаточного числа шпионов в нацистской Германии и Японии. Основная разведывательная информация приходила из разрозненных, случайно захваченных документов, из допросов военнопленных, радиоперехватов и снимков самолетов-разведчиков. Даже обработка личных писем противника с фронта и на фронт была поставлена на поток. Собирать вместе все части такой головоломки до войны никто не умел, специалисты постепенно обучались складывать разрозненные сведения в логичную интерпретацию, способную обосновать какое-либо важное решение.

 

Тогда со всей остротой встала кадровая проблема. В ходе перебора сотен (а если по всем странам — то тысяч) потенциальных кандидатов в аналитики выяснилось, что Шерлоки Холмсы на такую работу не годятся. Лучшие аналитики, интерпретаторы разрозненных сведений находятся среди тех, кто может мыслить не только логически, но и образно. Лучшие кандидаты не всегда рассуждают последовательно. Иногда они попросту раздражают, перескакивая с одного на другое без видимой связи между темами. Их описание реальности или будущих событий в чем-то напоминает сновидение, в котором ты то летишь в небе, то оказываешься в подземелье. Причем все это не кажется тебе неестественным и необычным. Внешняя информация витиевато переплетается с поставленной задачей, а общая задача неожиданно превращается в частную.

 

Найти таких людей непросто. Например, ЦРУ стремится набирать аналитиков из лучших выпускников колледжей. Их инструктируют и полгода «натаскивают» на сборе некоторой условной, придуманной разведывательной информации, иногда относящейся к реальному прошлому. После стажировки новичок защищает перед комиссией свою первую интерпретацию данных. Прошедших экзамен еще год-два заставляют извлекать объяснения из неточных данных, интерпретировать их без оговорок.

 

Для аналитической работы в конкурентной разведке непригодны люди, которые работали в других сферах, в особенности там, где человек должен нести ответственность за свои суждения. В особенности безнадежны те, кто за свою ошибку был наказан, уволен, понижен в должности.

 

Но тот, кто ошибся в аналитической оценке по ходу непростой работы по интерпретации разрозненных сведений, достоин не осуждения, а лишь того, чтобы его ошибку включили в неизбежные издержки обучения нового специалиста. В противном случае и этого человека можно испортить.

 

Одна из особенностей и типовых ошибок конкурентной разведки состоит в том, что выявленные закономерности и их интерпретацию трудно увязать во времени. Именно из-за этого аналитики часто ошибаются, когда оценивают сроки. В ЦРУ заранее знали, что экономика Советского Союза развалится. Но было неизвестно, когда. И распад СССР стал неожиданным даже для тех, кто сделал этот верный прогноз.

 

Еще один прием, связанный с интерпретацией результатов. Любой вариант интерпретации можно проверить, преподнеся его знающим людям (не обязательно начальству) в некотором сослагательном, предположительном варианте. По ходу дела нужно внимательно следить за реакцией собеседника, и если он начинает приводить дополнительные аргументы в пользу предлагаемой вами интерпретации событий, нужно быстро уходить от темы, прерывать разговор или переводить его на другое. А если появятся возражения, беседу следует продолжать до тех пор, пока не будет выдвинуто альтернативное объяснение выявленной закономерности.

 

Такая проверка теоретических построений аналитика не связана непосредственно с реальной жизнью. Это лишь попытка выйти на совпадение мнений, и совсем не исключено, что оба мнения окажутся ошибочными. Только вероятность ошибки немного уменьшилась.

 

Помимо конкурентной разведки data mining используется везде, где сложно выдвинуть предварительные гипотезы из-за слабого знания изучаемой предметной области. В розничной торговле это — выявление товаров, которые стоит продвигать совместно, выбор местоположения товара в магазине (выкладка); в маркетинге — поиск рыночных сегментов, тенденций покупательского поведения; в финансах — выявление правил экспертных систем для андеррайтинга, классификация дебиторских задолженностей по возможностям взыскания, прогноз изменений на валютных рынках; в хозяйственно-юридической практике — анализ контрактов. Этот список далеко не полон, и его можно очень долго продолжать.

 

Приведу несколько примеров, близких к конкурентной разведке, но непосредственно к ней не относящихся.

 

Пример из области общей договорной практики: «Кто из ваших партнеров в наименьшей степени захочет отозваться на ваше новое предложение?». При этом следует отдавать себе отчет в том, что напрямую на этот вопрос никто не ответит.

 

Из сферы оптовой торговли в data mining может прийти такой вопрос: «Через какой канал и кому следует предлагать поступившие новые товары?».

 

В розничной торговле с помощью его решается, в частности, такая проблема: «Какие товары следует продвигать со скидками, чтобы это привело к общему росту продаж?».

 

Самодеятельная песня

Жизнь как-то давным-давно свела меня с блестящим социологом и бардом С. В. Чесноковым. В те годы он сочинял красивые песни и работал пожарником в Театре на Таганке. Талантливые люди могут себе позволить и не такое занятие, ведь внутренний мир у них заметно богаче внешнего. Мы сидели в тесной подсобке, у меня «горел» билет на самолет в Новосибирск, но прервать беседу было невозможно. Познакомившись спустя десять с лишком лет с системой data mining, я много раз вспоминал тогдашнюю беседу.

 

Потом, уже спустя пару лет, С. В. Чесноков издал книгу о методике, которую он назвал «детерминационным анализом»[*]. Книга вышла только потому, что за нее вступился лауреат Нобелевской премии по экономике академик Л. В. Канторович.

 

Задачи, которые решает детерминационный анализ, на удивление близки к тем, которые ставит перед собой и data mining:

 

находить правила, скрытые в данных;

 

вычислять критические границы числовых факторов;

 

находить и анализировать качественные факторы;

 

строить новые признаки и использовать их при поиске правил;

 

вычислять связи между признаками в несвязанных массивах данных.

 

Основная идея детерминационного анализа всегда излагалась его автором как нечто универсальное и высоконаучное. Кто не верит, может обратиться к статье С. В. Чеснокова в журнале «Социологические исследования» и насладиться «на полную катушку».

 

А вот сейчас вас ждет неполное наслаждение. Приводимая ниже цитата взята с сайта аналитической компании «Контекст», которую С. В. Чесноков основал в 1989 г. и возглавляет до сих пор.

 

«Правило как детерминация — это условное суждение вида.

 

Если А, то В

 

вместе с двумя своими характеристиками: точностью и полнотой.

 

Признак A называется объясняющим.

 

Признак B называется объясняемым.

 

Точность правила — это доля случаев, когда правило подтверждается среди всех случаев его применения (доля случаев B среди случаев A).

 

Точность правила {Если A, то B} = N(A,B)/N(A) = P(B|A).

 

Полнота правила — это доля случаев, когда правило подтверждается среди всех случаев, когда имеет место объясняемый признак (доля случаев A среди случаев B).

 

Полнота правила {Если A, то B} = N(A,B)/N(B) = P(A|B).

 

С математической точки зрения, условное суждение вида «Если A, то B» есть упорядоченная пара (A, B). Правила могут иметь какие угодно сочетания значений точности и полноты. Исключение составляет лишь один случай: если точность равна нулю, то равна нулю и полнота (и наоборот).

 

При перемене местами объясняемого и объясняющего признаков (т. е. при переходе к обратному правилу) точность и полнота меняются местами.

 

Точность правила {Если A, то B} = Полнота правила {Если B, то A}

 

Полнота правила {Если A, то B} = Точность правила {Если B, то A}».

 

Ну, а теперь к делу. Допустим, мы согласны с высказыванием: «Все мои конкуренты мне противны». И добавляем к нему частное высказывание «Женя Б. — мой конкурент». Из этого следует вывод: «Женя Б. мне противен». Но если пойти дальше и «перевернуть» логику рассуждений следующим образом: «Этот человек (некоторый произвольный, не обязательно Женя Б.) мне противен»? Можно ли из этого сделать вывод, что этот человек — мой конкурент?

 

Перечитаем вновь цитату о правилах детерминационного анализа. Конкурентность — объясняющий признак, противность — объясняемый. Точность правила «Если конкурент, то противный», определяется долей противных людей среди моих конкурентов. Точность обратного правила «Если противный — то конкурент» определяется вероятностью того, что, увидев противного человека, я потом узнаю: да, он действительно мой конкурент. Полнота первого правила состоит в том, что противность — не единственный (неполный) признак, определяющий конкурента, нужно добавить еще какие-то. Полнота второго правила состоит в том, что противность человека еще не дает права относить его к конкурентам. Хотя потом, когда мы узнаем, что он тоже бизнесмен и работает на том же рынке товаров или услуг, то набор признаков («к тому же еще и противный!») задает новый критерий — С. И высказывание, казавшееся маловероятным, становится более достоверным в форме «если С, то А».

 

Теперь перейдем к примерам и покажем, каковы могут быть направления совершенствования метода. Стартовый пример, собственно, к детерминантному анализу не относится, а взят из одного моего давнего исследования, когда казалось, что мир анализа информации пуст и все придется придумывать самому. Велось исследование результатов одной из советских хозяйственных реформ. Проводился опрос директоров промышленных предприятий Сибири и Дальнего Востока. Директора отвечали на 20 вопросов о реформе. Их ответы обрабатывались, в результате ЭВМ выдавала следующие похожие друг на друга тексты по отраслям сибирской и дальневосточной промышленности (пробелы заполнялись вычисленными значениями):

 

«Были опрошены A директоров предприятий (отрасли) промышленности Сибири и Дальнего Востока, что составляет B % от всего числа директоров этой отрасли в данном регионе страны.

 

Из них C человек, то есть D% опрошенных, придерживаются единого мнения относительно проведенной реформы. Это единое мнение состоит в том, что на вопрос

 

1) (содержание вопроса) они отвечают (содержание ответа, например, да),

 

на вопрос

 

2) (содержание вопроса) они отвечают (содержание ответа, например, нет), и так далее...»

 

Вопросов было меньше двадцати по той причине, что по некоторым из вопросов общего списка у директоров не было единого мнения.

 

Нетрудно догадаться, как строились эти тексты. Сама форма была стандартной; машина находила самую заполненную клеточку в многомерной матрице, учитывающей все переменные, то есть вопросы. Это и было стартовое, действительно единое мнение. Если клеточка была слабо заполнена, скажем, в ней оказывалось всего 10% опрошенных, находился тот вопрос, при исключении которого группа с единым мнением значительно увеличивалась. И вопросы исключались один за одним до тех пор, пока группа с единым мнением не превышала двух третей от общей совокупности опрошенных.

 

В такой методике два недостатка. Последовательное исключение вопросов не ведет к единственному решению, то есть можно найти другую последовательность исключения признаков и другое их сочетание, где группа с единым мнением будет не меньше. Можно, конечно, заставить компьютер перебирать все сочетания вопросов, хотя это и унизительно. И второй недостаток — произвол. Почему две трети? Да просто так.

 

И вот теперь даю краткую характеристику возможностей (достоинств) детерминационного анализа. Он при решении подобной задачи позволяет обойтись без упоминавшихся выше перебора и произвола. То есть детерминационный анализ упорядочивает правила выделения наборов ячеек в таблице (или многомерной матрице). С помощью выделенных наборов можно установить связи между одиночными или комбинированными признаками. В прикладном отношении детерминационный анализ делает для качественных признаков то же, что факторный анализ делает для признаков количественных.

 

Почему data mining и детерминационный анализ мало известны?

В заключение обсудим важную проблему — слабую распространенность описанных методов в практической работе, не только в конкурентной разведке, но и в маркетинге, да и в аналитике вообще. Первая причина состоит в том, что в результате кризиса российского образования пострадали в первую очередь именно те учебные дисциплины, которые наиболее необходимы в рыночной экономике. К ним относится и математическая статистика.

 

Data mining представляет собой следующий этап обработки эмпирических данных по отношению к классическим методам, базирующимся на математической статистике, которая, в свою очередь, опирается на теорию вероятностей.

 

Что касается детерминационного анализа, то в отношении его распространения действуют три ингибитора. Метод опирается не только на математическую статистику, но и на развитие раздела логики (силлогистику Аристотеля), который известен немногим. Это раз. Он придуман человеком, находившимся долгое время за пределами официальной науки, — это два. И наконец, после нескольких попыток внедрить этот метод в практику работы с социально-экономической информацией автор и его коллеги ушли в обработку медицинской информации по государственным заказам. Это три.

 

Остановлюсь только на первом тормозе, так как он имеет непосредственное отношение к методам конкурентной разведки. Начну со случая, происшедшего очень давно, значительно раньше встречи с С. В. Чесноковым. Молодой преподаватель Московского института народного хозяйства имени Г. В. Плеханова Л. И. Абалкин предложил мне организовать по вечерам лекции по курсу «Логика для экономистов». Тогда Л. И. Абалкин, успевший затем поработать даже премьер-министром России, курировал научную работу студентов общеэкономического факультета. Когда я рассказал заместителю директора Института философии Академии наук СССР о такой инициативе экономистов (студентов, аспирантов и преподавателей), он порекомендовал мне А. А. Зиновьева. Сам при этом странно улыбнулся.

 

Только потом я понял, как мне нечаянно повезло. Свои конспекты лекций будущего диссидента, а ныне мюнхенского профессора, всемирно известного ученого-логика А. А. Зиновьева я перечитывал потом неоднократно, удивляясь каждый раз, как много он сказал, и как мало я тогда понял.

 

Основная идея, проводившаяся им на лекциях, была проста донельзя. Любая структура, которая имеет установленные строгие правила вывода одного термина из другого, называется «логикой». Вместо булевой алгебры А. А. Зиновьев показывал стройные системы вычисления терминов, которые сложились у разных народов для описания родственных связей. Выяснилась правомерность сосуществования разных схем. Например, столь естественное порождение слова «теща» от слов «мать» и «жена» в других системах родства выглядит более сложным, и у других народов «тещу» нельзя определить столь простым способом. Но вместо этого можно просто определить двоюродного племянника по линии матери мужа. И то, и другое А. А. Зиновьев называл «физической логикой» для того, чтобы отличать эти типовые схемы реальности от логики математической.

 

Работа аналитика с системой data mining состоит в том, чтобы породить некоторую новую систему взаимосвязей между терминами, ранее не существовавшую. Классические методы обработки информации предполагают исходные гипотезы (предположения) относительно содержательных взаимосвязей между переменными, равно как и между объектами. Data mining заставляет выдумывать то, что не предполагалось, после того, как компьютер выдаст очередную загадку. В физической логике А. А. Зиновьева содержатся примеры порождения таких связей.

 

Надо сказать, что спустя сорок лет никто так и не написал «Логику для экономистов», тема эта остается экзотической не только для отечественной, но и для мировой науки. Поэтому и детерминационный анализ известен мало, и все еще редки практические приложения системы data mining.

 

Проблемы интерпретации результатов

Поскольку в системе data mining сама компьютерная программа задает вопросы, не всегда на них можно ответить «с маху», без подготовки. Приходится длительное время обдумывать то, что получилось. Помочь в таком обдумывании могут некоторые стандартные приемы. Так, если вы оцениваете рыночную позицию конкурента относительно вашей, то интерпретацию и исходные данные принято делить на четыре категории.

 

Первая категория — фоновая. Она связывает интерпретацию выявленных элементов позиции конкурента с развитием отрасли и территории, тенденциями локального и общероссийского рынков. Если у конкурента дела идут неважно, когда рынок на подъеме — это одно направление интерпретаций его конкурентной позиции. Если же фирма «загибается» вместе с рынком — это совсем другое, тогда интерпретация может касаться только частностей, особенностей его нынешнего тяжелого положения. Отправным для рассуждений здесь оказывается фон, а интерпретирующей частью оказывается место конкурента на этом фоне.

 

Вторая категория касается собственно конкурента, ассортимента его товаров и услуг, планов производства и строительства. Эта интерпретация касается модели поведения конкурента самого по себе, исходя из его динамики и истории развития, а также, если удастся узнать, из планов и намерений. Отправным для интерпретации здесь оказывается некоторая идеальная модель поведения, а интерпретации подлежат отклонения в поведении конкурента от этой выстроенной модели.

 

Третья категория касается параметрических сравнений конкурентов между собой. Выясняются, например, их доли на рынке, технологические уровни и прочее, а также мнения потребителей и поставщиков относительно этих параметров. В данном случае исходными для рассуждения являются значения параметров по отдельным конкурентам, а интерпретации подлежат некоторые интегральные оценки позиции конкурента. С выделением того, какой параметр для интегральной оценки наиболее или наименее важен, нужно быть крайне осторожным.

 

Наконец, четвертая категория , или четвертый режим интерпретации, когда стартовым является интегральный рейтинг конкурентов, а объясняющая часть касается отдельных признаков. Вот в этом случае требуется более подробно порассуждать о причинах, по которым тот или иной признак сильно повлиял на рейтинговую оценку конкурента. При этом не следует забывать «волшебные слова» аналитика: «вполне возможно, что» и «кажется весьма вероятным следующее».

 

* * *

 

Высказывание, ставшее названием данной статьи, принадлежит И. Ньютону. Он не «измышлял гипотез» из принципа. Те, кто работает в современной конкурентной разведке, не делают этого вынужденно по трем причинам. Гипотезу невозможно выдвинуть сразу при огромной и разнородной информации. Гипотезу опасно выдвигать, когда между версиями есть только небольшие нюансы. Наконец, если ты ее выдвигаешь, это означает, что какой-то информации ты придаешь большее значение, чем другой.

 

А когда тебе очередную загадку задает компьютер, хорошо полностью избавиться от предвзятости. Впрочем, отказавшись от выдвижения гипотез, исследователь взваливает на себя существенно более тяжелую ношу. Он должен уметь не просто объяснять отдельные загадки, преподносимые ему компьютером, но и увязывать свои разгадки в стройную, логичную систему.

 

 

--------------------------------------------------------------------------------

 

[*] Чесноков С. В. Детерминационный анализ социально-экономических данных. М.: Наука, 1982. Более поздняя книга, покруче, вышла за океаном: Чесноков С. В. Физика Логоса. Нью-Йорк: Телекс, 1991. Более доступна большая по объему статья: Чесноков С. В. Метаматрицы в логике натуральных текстов// Социологический журнал. 2003. № 2. С. 46—89.

 

Источник: http://econom.nsc.ru/ECO/arhiv/ReadStatiy/..._10/Voronov.htm

Ссылка на комментарий
Поделиться на другие сайты

ИМХО:

PR акция ребят, продающих себя под маркой Data mining.

Тем более, что для абсолютного большинства населения это "вещь в себе".

Я собеседывал выпускников ВУЗа по специальности Информационные технологии в экономике, так они слов таких не знали.

 

Статью можно долго коментировать на тему, типа что располагая "информацией с кассовых аппаратов конкурента" можно провести стандартный анализ и получить такой же результат. Лень... style_emoticons/default/smile3.gif

 

И нет ни слова о том, при каких исходных данных Data mining работать не будет.

Есть личный опыт.

Желающие "продвинуться в теме" могут найти работы В.Дюка. Он на этом специализировался.

 

Странно, что рассказывая об идеологии ДА-системы, ее не упоминают.

Штучка своеобразная, но (опять ИМХО) хороша только для прокачки социологии.

 

Самые встречающиеся слова в статье - 100 раз "конкурентов", по 99 "Конкурентной", "Слайсинг" и "Экономике". 53 "Отрасли"

Шаманизм, однако! Интересно было бы узнать, что скажет ВААЛ? style_emoticons/default/smile3.gif

 

 

 

 

 

 

 

Ссылка на комментарий
Поделиться на другие сайты

Продукты для анализа данных (Data mining)

 

ВНИМАНИЕ! Под линком есть самореклама производителя, скачивание демо-версий требует регистрации. Я предупредил.

Ссылка на комментарий
Поделиться на другие сайты

Заархивировано

Эта тема находится в архиве и закрыта для дальнейших ответов.

×
×
  • Создать...