Data Mining
Ежегодный прирост объемов хранимой информации в каждый год составляет на текущий момент 60%. То есть в среднем каждые полтора года объем хранимой информации удваивается. Однако,
не вся информация одинаково полезна. Растущие объемы информации породили необходимость создания методов сокращения ее избыточности.
Также важно то, как информация преподносится: один график, диаграмма, рисунок могут заменить не одну страницу текста и сэкономить ваше время. Развитие информационных систем сбора и хранения данных привело к такому росту их объемов, что ручная их обработка стала невозможной. Data mining (англ. – добыча данных) можно охарактеризовать, как работу с большими массивами информации с целью извлечения нужных данных и знаний.
Инструментарий Data mining составляют известные математические методы и алгоритмы, среди которых можно выделить: линейная регрессия, корреляционно-регрессионный анализ; иерархические и неиерархические методы кластерного анализа, нейронные и нейронечеткие сети, бинарные деревья решений, методы решающих правил, эволюционное программирование и генетические алгоритмы.
Опыт и квалификация специалистов компании «Мунерман и партнеры» позволяет решать Data mining задачи самого различного профиля и сложности. Это подтверждается успешно выполненными проектами, в которых активно использовались технологии Data mining. Реализация массовой оценки недвижимости, построение систем скоринга и рэнкинга, а также систем on-line мониторинга подразумевают работу с большими объемами данных, как структурированными, так и нет. Следовательно, важным звеном данных проектов является Data mining.
Data mining – неотъемлемая часть работы при оценке любого крупного бизнеса. Необходим поиск и анализ данных, касающихся текущего состояния отрасли, самой компании, показателей отечественных и зарубежных предприятий-аналогов, ключевых детерминант для построения модели денежных потоков, модели оценки месторождений компании или ее нематериальных активов, а также большого объема прочей информации. Навыки сбора и анализа данных, как отечественных, так и международных источников, необходимых для оценки бизнеса, относятся к ключевым преимуществам экспертов и специалистов МиП и ИУС.
Если говорить о массовой оценке недвижимости или системах on-line мониторинга залогового имущества, то одной из проблем здесь становится неформализованность и недостоверность используемых данных – объявлений о продаже, данных о сделках и т.п. Данные содержат большое количество ошибок и опечаток. Например, офис класса «А» не может характеризоваться стихийной парковкой, а земельный участок особо охраняемых природных территорий не может продаваться под строительство складского комплекса. Для решения данной проблемы специалистами МиП и ИУС разработан действенный инструментарий верификации факторного пространства, включающий в себя такие методы, как: семантические анализаторы, матрицы граничных значений, наборы решающих правил, тестовые и валидационные выборки, а также, в силу ограниченных возможностей математического аппарата в данном случае, проверку данных с использованием call-центра. Работа над проектами в данной сфере ведется с использованием развитой сети региональных корреспондентов, что позволяет получать достоверную информацию не только по Москве и крупным городам, но и практически по всей территории РФ. Инструментарий МиП по верификации баз данных универсале и успешно применялся не только при работе над российскими проектами, но и за рубежом, в частности при массовой оценке земельных участков в Китае.
Для реализации проектов Укрупненных показателей стоимости строительства (УПС), также был разработан свой пакет алгоритмов и методов Data mining. Основной задачей здесь была необходимость анализа больших объемов тендерной документации по сложным техническим проектам, как в России, так и за рубежом. Результатом являются выявленные зависимости между ключевыми техническими характеристиками, особенностями местоположения, условиями возведения и стоимостью строительства сложных объектов энергетической, коммунальной и прочей инфраструктуры. Низкий уровень погрешности говорит о детальной проработке и практической применимости использованного инструментария.
Проекты построения Скорингов и Рэнкингов для компаний являются фактически исключительно проектами области Data mining. Вся работа над проектом состоит в отборе и верификации данных, их анализе и выявлении закономерностей и взаимообусловленностей и дальнейшего выведения результата, будь то кредитный рейтинг, индекс должной осмотрительности или иной показатель. Среди проектов МиП и ИУС по построению скоринговых моделей следует выделить: Fraud Score (Индекс должной осмотрительности), Failure Score, а также Интегрированный индекс состояния компании. в рамках данных скорингов реализуется ряд уникальных технологий, в частности учет вынесенных судебных решений в отношении той или иной компании при построении индекса.