Главная Франшиза магазинов Методы классификации и прогнозирования. Метод опорных векторов. Метод "ближайшего соседа". Байесовская классификация. Наивный байесовский классификатор документов в Excel Статистика о том на какие

Методы классификации и прогнозирования. Метод опорных векторов. Метод "ближайшего соседа". Байесовская классификация. Наивный байесовский классификатор документов в Excel Статистика о том на какие

В современном обществе важную роль в механизме управления экономикой играет статистика. Она осуществляет сбор, научную обработку, обобщение и анализ информации, характеризующей развитие экономики страны, уровня жизни населения и других общественных явлений и процессов.

Статистика как наука

Статистика — это ряды цифр, которые характеризуют различные стороны жизни государства.

Статистика — это род практической деятельности людей цель которой сбор, обработка и анализ информации.

Статистика — это наука, разрабатывающая статистическую методологию т.е. набор приемов и способов сбора, обработки и анализа информации.

Таким образом, с татистика — это общетеоретическая наука (комплекс научных дисциплин), которая изучает количественную сторону качественно определенных массовых социально-экономических явлений и процессов, иэ состав, распределение, размещение в пространстве, движение во времени выявляя действующие взаимозависимости и закономерности в конкретных условиях места и времени.

Объектом изучения статистики является общество , протекающие в нём процессы и закономерности развития.

Статистика как наука представляет собой целостную систему научных дисциплин:

Общая теория статистики — разрабатывает теорию статистического исследования, являющуюся методологической основой остальных отраслей статистики.
(Макроэкономическая статистика). Использует методы общей теории статистики, изучает количественную сторону социально-экономических явлений и процессов на уровне национальной экономики.
Математическая статистика и теория вероятности. Изучает случайные величины, законы их распределени.
Международная статистика. Предетом международной статистики является количественная сторона явлений и процессов зарубежных стран и международных организаций.
Отраслевые статистики. Предетом изучения является количественная сторона деятельности различных отраслей экономики (Статистика промышленности, сельского хозяйства).

Общая теория статистики открывает курс изучения статистических дисциплин. Она является основополагающей дисциплиной для изучения отраслевых стастик, создаёт фундамент для усвоения и применения статистических методов анализа.

Общая теория статистики является наукой о наиболее общих принципах и методах социально-экономических явлений и решает другие общественные вопросы. Она разрабатывает систему категорий, рассматривает , статистических данных.

Общая теория статистики — методологическая основа всех отраслевых статистик.

При изложении основ теории статистики предполагается изучить следующие вопросы:

предмет, методы и задачи статистики и ее связь с и некоторыми другими смежными дисциплинами;
система статистических показателей и классификаций, используемых в экономической статистике, их содержание и область применения, взаимосвязи между показателями и классификациями статистики;
наиболее важные направления статистического анализа, основанного на данных экономики и финансов;
основные источники первичных данных и основы формирования статистической базы.

Предмет статистики — размеры и количественные соотношения качественно определенных социально-экономических явлений, закономерности их связи и развития в конкретных условиях места и времени.

Предмет статистики (статистика изучает):

Массовые общественные явления и их динамику при помощи статистических показателей. Требование массовости обусловлено действием закона больших чисел — при большом количестве наблюдений, действия случайных признаков взаимопогашаются. (численность населения, количество произведенной продукции)
Количественные и качественные явления (Цифровое освещение событий общества).
Количественную сторону общественных явлений в неразрывной связи с их качественным содержанием, наблюдает процесс перехода количественных изменений в качественные (закономерности).
Развитие явления во времени (динамику)

«Есть три вида лжи: ложь,
наглая ложь и статистика».
Марк Твен

Статистика - это не заумные формулы и абстрактные выводы, это то, что имеет непосредственное отношение к реальной жизни и помогает принимать важные решения. Статистика вездесуща, начиная с вероятности выиграть в лотерею заканчивая прогнозной полицией. Хол Вариан, главный экономист компании Google, в интервью Нью-Йорк Таймс сказал, что в следующем десятилетии работа со статистическими данными станет the sexy job.

Если измерять ваши продвижения в футах, то соответствующую последовательность можно описать как 1 + ½ + ¼ + ⅛ … Сколько бы вы ни продвигались таким способом к стене (а вы будете делать это до бесконечности), совокупное расстояние, пройденное вами, не может превышать 2 метров, то есть вашего исходного расстояния от стены. С математической точки зрения, совокупное расстояние, пройденное вами, можно приравнять к 2 метрам, что весьма удобно в плане вычислений. Математик сказал бы, что сумма бесконечного ряда 1 метр+ ½ метра+ ¼ метра + ⅛ метра… сходится к 2 метрам, то есть именно то, что пытался объяснить преподаватель.

Теперь, исходя из собственного опыта вы можете утверждать, что благодаря интуиции математика и другие технические детали становятся гораздо понятнее.

В фильме 2002 года Minority Report Том Круз играет детектива, предотвращающего преступления. Его герой является сотрудником некоего бюро, которое использует определенную технологию для прогнозирования преступлений еще до того, как они будут совершены. И это уже не фантастика. В 2011 году в газете The New York Times вышла статья под заголовком: «Полиция прибывает на место до совершения преступления». В ней рассказывалось, что специальная компьютерная программа предсказала высокую вероятность совершения краж из автомобилей в этот день на подземной парковке, расположенной в деловом районе города Санта-Круз. Когда туда приехали детективы, они обнаружили двух женщин, слишком уж пристально всматривающихся в окна автомобилей. Одна из них уже неоднократно задерживалась за воровство, а у другой нашли запрещенные наркотики.

Система, использовавшаяся в Санта-Круз, была разработана двумя математиками, антропологом и криминалистом. Отдел полиции в Чикаго создал у себя целое подразделение аналитиков-прогнозистов. Частично его формирование объяснялось тем, что банды, терроризировавшие город, действовали по определенным шаблонам.

Корреляция измеряет степень связи между двумя явлениями. Например, существует корреляция между летними температурами и продажей мороженого. Когда повышается температура, растут объемы продажи мороженого. Две переменные положительно коррелированы, если изменение одной переменной вызывает изменение другой в том же направлении, то есть в направлении увеличения или уменьшения (например, взаимосвязь между ростом и весом человека). У более высоких людей больший вес (в среднем); низкорослые люди весят меньше. Корреляция отрицательна, если положительное изменение одной переменной обусловливает отрицательное изменение другой (например, связь между регулярным выполнением физических упражнений и весом человека).

Важным моментом в этом обсуждении является то, что корреляция не предполагает причинно-следственной связи: положительная или отрицательная корреляция между двумя переменными вовсе не обязательно означает, что изменения одной переменной вызывают изменения другой. Статистическая зависимость между A и B не доказывает, что A является причиной B. Вообще говоря, не исключено, что B - это причина A.

Допустим, согласно проводимому вами исследованию, регионы, которые тратят больше денег на школьное образование, демонстрируют более высокие темпы экономического роста, чем регионы, вкладывающие в школьное образование меньше денег. Наличие положительной и значимой зависимости между этими двумя переменными ничего нам не говорит о направлении этой зависимости. Инвестиции в программу школьного образования могут вызывать экономический рост. С другой стороны, регионы, демонстрирующие более высокие темпы экономического роста, могут себе позволить больше инвестировать в школьное образование; стало быть, сильная экономика может быть причиной увеличения расходов на образование.

Другой вариант: дополнительные траты на школьное образование могут стимулировать экономический рост, что позволяет вкладывать больше средств в образование, то есть причинно-следственные связи могут носить двусторонний характер. Следовательно, мы не должны использовать объясняющие переменные, зависящие от исхода, который мы пытаемся объяснить, - в противном случае результаты могут оказаться безнадежно запутанными.

Концепция вероятности понятным языком

В определенных случаях концепцию вероятности можно использовать для поимки мошенников. Фирма Caveon Test Security специализируется на так называемой экспертизе данных, позволяющей выявить некие закономерности, которые предполагают обман. Например, эта компания обратит внимание общественности на результаты экзаменов в том или ином учебном заведении или каком-либо другом месте их проведения, если обнаруженное количество идентичных неправильных ответов окажется крайне маловероятным (обычно речь идет о картине, которая складывается реже чем один раз на миллион).

При этом она руководствуется следующей математической логикой: когда большая группа учащихся правильно отвечает на какой-то вопрос, из этого нельзя сделать однозначный вывод. Здесь возможны два варианта: либо они дружно списали правильный ответ у кого-то из своих товарищей, либо все как один очень умные ребята. Но когда большая группа учащихся отвечает на какой-то вопрос неправильно, это настораживает: все не могут ответить одинаково неправильно - по крайней мере вероятность такого сценария чрезвычайно мала. Это говорит о том, что они списали неправильный ответ у кого-то из одноклассников.

Кроме того, Caveon Test Security выявляет экзамены, в ходе которых экзаменуемые отвечают на сложные вопросы значительно лучше, чем на простые (в таком случае предполагается, что ответы им были известны заранее), или количество исправлений неправильного ответа на правильный существенно превышает количество исправлений правильного ответа на неправильный (в таком случае предполагается, что после экзамена преподаватель или экзаменатор подменил листы с ответами).

Разумеется, нетрудно заметить ограничения, присущие использованию вероятностей. Достаточно большая группа экзаменуемых может абсолютно случайно дать одинаково неправильные ответы на какой-то вопрос; к тому же чем больше учебных заведений будет проверяться, тем выше вероятность натолкнуться на подобную картину. Однако никакая статистическая аномалия не опровергает принципиальную правильность предлагаемого подхода.

В книге «Голая статистика» автор постарался по возможности избегать употребления математических формул, уравнений и графиков. Статистика может быть действительно интересной и по большей части не так сложна, как кажется поначалу.

Фото обложки поста - .

P.S. Понравилось? Подписывайтесь на нашу рассылку. Раз в две недели мы будем присылать вам 10 лучших материалов из блога.

Кросс-проверка - известный метод получения оценок неизвестных параметров модели. Основная идея метода - разделение выборки данных на v "складки". V "складки" здесь случайным образом выделенные изолированные подвыборки.

По фиксированному значению k строится модель k-ближайших соседей для получения предсказаний на v-м сегменте (остальные сегменты при этом используются как примеры) и оценивается ошибка классификации. Для регрессионных задач наиболее часто в качестве оценки ошибки выступает сумма квадратов, а для классификационных задач удобней рассматривать точность ( процент корректно классифицированных наблюдений).

Далее процесс последовательно повторяется для всех возможных вариантов выбора v. По исчерпании v "складок" (циклов), вычисленные ошибки усредняются и используются в качестве меры устойчивости модели (т.е. меры качества предсказания в точках запроса). Вышеописанные действия повторяются для различных k, и значение , соответствующее наименьшей ошибке (или наибольшей классификационной точности), принимается как оптимальное (оптимальное в смысле метода кросс-проверки ).

Следует учитывать, что кросс-проверка - вычислительно емкая процедура, и необходимо предоставить время для работы алгоритма, особенно если объем выборки достаточно велик.

Второй вариант выбора значения параметра k - самостоятельно задать его значение . Однако этот способ следует использовать, если имеются обоснованные предположения относительно возможного значения параметра, например, предыдущие исследования сходных наборов данных.

Метод k-ближайших соседей показывает достаточно неплохие результаты в самых разнообразных задачах.

Примером реального использования описанного выше метода является программное обеспечение центра технической поддержки компании Dell, разработанное компанией Inference . Эта система помогает сотрудникам центра отвечать на большее число запросов, сразу предлагая ответы на распространенные вопросы и позволяя обращаться к базе во время разговора по телефону с пользователем. Сотрудники центра технической поддержки, благодаря реализации этого метода, могут отвечать одновременно на значительное число звонков. Программное обеспечение CBR сейчас развернуто в сети Intranet компании Dell.

Инструментов Data Mining , реализующих метод k-ближайших соседей и CBR -метод, не слишком много. Среди наиболее известных: CBR Express и Case Point ( Inference Corp.), Apriori ( Answer Systems), DP Umbrella (VYCOR Corp.), KATE tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США), а также некоторые статистические пакеты, например, Statistica.

Байесовская классификация

Альтернативные названия: байесовское моделирование , байесовская статистика , метод байесовских сетей.

Ознакомиться детально с байесовской классификацией можно в . Изначально байесовская классификация использовалась для формализации знаний экспертов в экспертных системах , сейчас байесовская классификация также применяется в качестве одного из методов Data Mining .

Так называемая наивная классификация или наивно-байесовский подход (naive- bayes approach ) является наиболее простым вариантом метода, использующего байесовские сети. При этом подходе решаются задачи классификации, результатом работы метода являются так называемые "прозрачные" модели.

"Наивная" классификация - достаточно прозрачный и понятный метод классификации. "Наивной" она называется потому, что исходит из предположения о взаимной независимости признаков.

Свойства наивной классификации:

Использование всех переменных и определение всех зависимостей между ними.
Наличие двух предположений относительно переменных:
- все переменные являются одинаково важными;
- все переменные являются статистически независимыми, т.е. значение одной переменной ничего не говорит о значении другой.

Большинство других методов классификации предполагают, что перед началом классификации вероятность того, что объект принадлежит тому или иному классу, одинакова; но это не всегда верно.

Допустим, известно, что определенный процент данных принадлежит конкретному классу. Возникает вопрос, можем ли мы использовать эту информацию при построении модели классификации? Существует множество реальных примеров использования этих априорных знаний, помогающих классифицировать объекты. Типичный пример из медицинской практики. Если доктор отправляет результаты анализов пациента на дополнительное исследование, он относит пациента к какому-то определенному классу. Каким образом можно применить эту информацию? Мы можем использовать ее в качестве дополнительных данных при построении классификационной модели.

Отмечают такие достоинства байесовских сетей как метода Data Mining :

в модели определяются зависимости между всеми переменными, это позволяет легко обрабатывать ситуации, в которых значения некоторых переменных неизвестны;
байесовские сети достаточно просто интерпретируются и позволяют на этапе прогностического моделирования легко проводить анализ по сценарию "что, если";
байесовский метод позволяет естественным образом совмещать закономерности, выведенные из данных, и, например, экспертные знания, полученные в явном виде;
использование байесовских сетей позволяет избежать проблемы переучивания (overfitting), то есть избыточного усложнения модели, что является слабой стороной многих методов (например, деревьев решений и нейронных сетей).

Наивно-байесовский подход имеет следующие недостатки:

перемножать условные вероятности корректно только тогда, когда все входные переменные действительно статистически независимы; хотя часто данный метод показывает достаточно хорошие результаты при несоблюдении условия статистической независимости, но теоретически такая ситуация должна обрабатываться более сложными методами, основанными на обучении байесовских сетей ;
невозможна непосредственная обработка непрерывных переменных - требуется их преобразование к интервальной шкале, чтобы атрибуты были дискретными; однако такие преобразования иногда могут приводить к потере значимых закономерностей ;
на результат классификации в наивно-байесовском подходе влияют только индивидуальные значения входных переменных, комбинированное влияние пар или троек значений разных атрибутов здесь не учитывается . Это могло бы улучшить качество классификационной модели с точки зрения ее прогнозирующей точности, однако,увеличило бы количество проверяемых вариантов.

Байесовская классификация нашла широкое применение на практике.

Байесовская фильтрация по словам

Не так давно байесовская классификация была предложена для персональной фильтрации спама. Первый фильтр был разработан Полем Грахемом (Paul Graham). Для работы алгоритма требуется выполнение двух требований.

Первое требование - необходимо, чтобы у классифицируемого объекта присутствовало достаточное количество признаков. Этому идеально удовлетворяют все слова писем пользователя, за исключением совсем коротких и очень редко встречающихся.

Второе требование - постоянное переобучение и пополнение набора "спам - не спам". Такие условия очень хорошо работают в локальных почтовых клиентах, так как поток "не спама" у конечного клиента достаточно постоянен, а если изменяется, то не быстро.

Однако для всех клиентов сервера точно определить поток "не спама" довольно сложно, поскольку одно и то же письмо , являющееся для одного клиента спамом, для другого спамом не является. Словарь получается слишком большим, не существует четкого разделения на спам и "не спам", в результате качество классификации, в данном случае решение задачи фильтрации писем, значительно снижается.