Основе данных наблюдений классификации с использованием граничных

РЕЗЮМЕ

Классификация часто критически важной задачей для руководителей предприятий в процессе принятия решений. Как правило, сложнее схемы классификации производить точные результаты, когда входной областей различных классов выходе совпадают, в некоторой степени, друг с другом. В попытке решить эту проблему, в данной статье данными алгоритм, который определяет область совпадения или дублирования, для 2-группа проблемы классификации эмпирически определения выпуклой границы для каждой группы. Результаты увеличен до многогруппового классификации. Принадлежность к классу нового наблюдения, то определяется его относительное положение по отношению к каждой из этих границ. Благодаря минимальным требованиям для хранения данных, эта граница точки классификации метод может адаптироваться к изменяющимся условиям гораздо легче, чем другие подходы. Результаты испытаний показывают, что новая методика классификации аналогичные показатели для сети обратного распространения нейронных в статических условиях и значительно превосходит сети обратного распространения нейронных в динамических условиях.

Предметные области: классификация, поддержки принятия решений, и эвристики.

ВВЕДЕНИЕ

Многие подходы в настоящее время в литературе для классификации наблюдений в точности один из двух возможных различных групп или классов. Точная оценка продукции класса может быть очень трудно, однако, когда входной области для 1 класса совпадает, хотя бы частично, с другой (см. рис 1). В этой статье рассматриваются новые данные классификации подход, который может помочь решить эту проблему путем выявления эмпирически не только доменное имя каждого класса замечания, но и такие области совпадения или дублирования.

Новый метод, называемый пограничный пункт классификации (БКК) подход, определяет принадлежность к классу за счет размещения относительное положение нового наблюдения в отношении существующих границ класса. Если такие наблюдения содержится в точности один из этих границ, то это однозначно классифицировать как результат выхода класс, соответствующий этой границы. Для сравнения, наблюдения, которая входит в область перекрытия может потребоваться сбор дополнительной информации и / или специальной обработке для того, чтобы оценить его принадлежность к классу. Таким образом, точное определение этой области перекрытия дает возможность повысить точность классификации.

Поскольку процесс BPC классификация основана на эмпирических данных и использует сравнительно небольшое подмножество наблюдений для выявления вмещающих границы, эти границы могут быть обновлены очень легко и эффективно, как дополнительные данные, собранные за время. Это позволяет подход, адаптироваться к изменяющимся условиям и сохранить точность его классификации, когда процесс изменения условий, таким образом предлагая явное преимущество над неадаптивных методов классификации.

Мы начнем наш разговор о технике BPC с краткого обзора существующей классификации процедур в литературе. Затем мы обсудим мотивы развития новой техники и дать подробный обзор и начальных поколение классовых границ и связанных с классификацией техники. Для того, чтобы продемонстрировать свою способность определить области перекрытия, BPC подход является первым применяться к простой динамический процесс с двумя фиксированными классами продукции, и ее классификация производительность по сравнению против этой нейронной сети схема классификации. Затем мы обсудим динамические обновления классификации границы и рассмотреть вопрос о способности к технике функционировать в динамичной среде. В конце статьи рассматривается ряд соображений, связанных с внедрением подхода и замечания по несколько связанных с ним методы альтернативы.

ОБЗОР

Классификация методов

Классификация наблюдений в одной из двух групп является важнейшей задачей для многих бизнес-процессов и является одним из основных методика, используемая в принятии деловых решений. Примеры решений о классификации многочисленны и включают сделал по отношению к кредиту вероятность оплаты, оценка риска задолженности, управление портфелем, качество продукции уровне, так и глобальный риск инвестирования (Рагсдейл

Различные статистические методы были применены к классификации проблем, и Есть много хороших ресурсов, которые описывают использование таких методов (ручные, 1981; Кендалл, 1983; Митчи и др.., 1994). Есть также много непараметрических эвристические подходы к классификации в литературе, таких, как математическое программирование, нейронные сети, аргументация, базирующаяся и индуктивного логического программирования. Хорошие описания таких эвристических методов предоставляются Фрид и Гловер (1981); Joachimsthaler и Stam (1988); Келер и Erenguc (1990); Вайс и Kulikowski (1991); Salchenberger, Cinar и ресниц (1992); Арчер и Ван (1993); Patuwo, Ху и Хун (1993); Лэнгли и Симон (1995); Маркхам и Рагсдейл (1995) и бозе-и Махапатра (2001).

Мотивация

Есть много областей применения, для которых он является полезным для оценки классификации наблюдения основаны на набор связанных замечания ввода. В бизнес-процессов, таких как кредитный скоринг, различные значения параметров процесса могут быть собраны в последовательных временных интервалах с целью классификации кредитоспособности лица как ни приемлемыми или неприемлемыми. Кроме того, производство значений параметров процесса регулярно собираются на различные промежутки времени, пытаясь классифицировать ожидаемого уровня качества готовой продукции.

BPC подход представлен в данной статье, была разработана в целях устранения недостатков в две существующие методы классификации: снижение точности при ввода доменов различных классов выхода перекрываются (как показано на рисунке 1) и трудности в адаптации к изменениям в этих областях над входной время.

Определение области перекрытия

Предыдущие исследования показали, что замечания, скорее всего, будет ошибочным в точности те, которые попадают внутрь области перекрытия (Цобель, Кука,

Во многих ситуациях, классификации новых наблюдений как принадлежащие к области перекрытия бы указывают на необходимость проведения дополнительных испытаний (или эксперта решения). Это может потребовать привлечении дополнительных параметров в ходе анализа дальнейшего различия между выходом классов. Например, неубедительными классификации кредитоспособности на основе классификации занятости и доходов может свидетельствовать о том, что дополнительную информацию, такую, как количество пропущенных платежей и контрольно-состояние счета, должны быть включены в классификацию анализа, с тем, что решение может быть достигнута. Определяя области перекрытия, техника БКК снижает вероятность первоначально misclassifying данные о производительности и обеспечивает, принимающему решение, с указанием, что необходимо просить дополнительные меры.

Адаптация к изменяющимся условиям

Наряду с трудностями при обработке области перекрытия, существующие методы классификации также не хватает способности быстро адаптироваться к изменениям в распределении входных параметров. Цзян (2003) оценка различных методов классификации и определены нейронных сетей, как превосходную технику для таких динамических приложений классификации. Для нейронных сетей, которые будут эффективны в динамической классификации, однако, разумной подготовки данных, представляющего весь спектр возможных входных и выходных значений не требуется. На практике это подготовка данных часто бывает трудно, а иногда и невозможно, получить, особенно, если процесс тенденции с течением времени.

В силу своей разработки и реализации, подход BPC предлагает адаптивных возможностей классификации, которая обеспечивает хорошую производительность классификации в условиях, когда продолжается моделей (например, тенденции), являются типичными. Кроме того, новая технология позволяет сделать классификации решений без больших объемов данных обучающего множества, и из-за адаптивного характера алгоритм такой подготовки набора данных не нужно представлять весь спектр данных.

МЕТОДОЛОГИЯ

Классификация подход

Этот подход предполагает BPC 2 этапа: фазы инициализации и классификации этапа. Инициализации этапа требуется набор учебных замечания, каждая из которых связана именно с одним из двух возможных классов продукции. Подмножество точек, которые служат в качестве вершин выпуклого многогранника маленький, который охватывает все замечания определяется для каждого класса наблюдений. Эти вершины (или граничных точек) затем используется в классификации фазы для классификации новых наблюдений на основе их относительное положение в связи с границами.

Мы начнем с подробным описанием подхода BPC посредством описания ее фазы инициализации и предоставления сведений о алгоритм границы поколения.

Инициализация

Рассмотрим набор данных, S, состоящая из многомерных наблюдений, с ^ к югу J = (х ^ ^ 1 к югу югу J ^ ^, х ^ ^ 2 югу югу J ^ ^,..., Х ^ п ^ к югу югу J ^ ^) Для каждого из этих классов существует единственный выпуклый многогранник в [реального] ^ п ^ SUP, которая содержит все замечания в S, принадлежащие к этому классу, и чьи классовые границы определяется подмножество наблюдений, которые формируют его вершин. Целью фазы инициализации подхода BPC состоит в определении множества вершин для каждого такого класса наблюдений.

Без ограничения общности, пусть S ^ 1 ^ к югу представляют собой подмножество наблюдений из S, которые связаны с выходом класса, и пусть S ^ 2 ^ к югу представляют собой подмножество соответствующих замечаний связано с выходом класса B. Кроме того, как я = 1 и г = 2, пусть S ^ SUP V ^ ^ ^ я к югу и S ^ SUP I ^ ^ ^ я к югу представляют собой подмножества вершин и внутренних точках S югу ^ ^ я, соответственно, так что S ^ SUP V ^ ^ ^ к югу я Для любого S * = S ^ к югу я ^ \ * з).

Потому что все замечания, содержащиеся внутри выпуклого многогранника можно представить в виде выпуклой комбинации из вершин многогранника, что любой ы * ^ ^ я к югу. Если S * к югу я ^, в которой она может быть представлена. Именно это различие между двумя типами наблюдений (вершин и внутренних точек), что позволяет нам выявлять членов S ^ SUP V ^ ^ к югу я ^ следующим образом:

Пограничного алгоритм генерации

Классификация

2 множества вершин порожденных инициализации алгоритма могут быть объединены в четыре различных определения новых классов вывод: класс, представляющий замечания, которые лежат только в многогранника связаны с S ^ 1 к югу ^, класс B, что составляет замечания лежать только в рамках соответствующих многогранника S ^ 2 югу ^; класса C, новый подкласс перекрытия замечания, лежащих внутри и многогранников одновременно и класса D, новый подкласс представляет замечания, которые лежат за пределами как многогранники.

Класса членства новых наблюдаемых данных точки могут быть определены путем определения ее относительное положение в связи с только члены S ^ SUP V ^ ^ 1 к югу ^ и S ^ SUP V ^ ^ ^ 2 к югу. Следующая процедура классификация отражает инициализации подход, описанный выше, но использует это сокращение данные, чтобы сделать сам процесс классификации новых наблюдений более эффективным:

Номер класса D замечания видели в той или иной пример во многом зависит от классовых границ и, в частности, от количества и типа данных тренировки выбрали для их подготовки. Поскольку схема классификации опирается на эти первоначальные замечания подготовки эмпирически определить диапазон для каждого класса, необходимо использовать набор обучающих данных, что включает в себя достаточное количество и диапазон примеров.

В зависимости от потребностей лица, принимающего решение, и класса С и класса D-типа замечания могут рассматриваться в качестве эквивалента безрезультатного наблюдения. Тем не менее, два типа наблюдений представляют собой очень разные ситуации. Как указывалось выше, наблюдение класса D представляет собой вклад значение, более экстремальные, по крайней мере один из аспектов, чем наблюдалось ранее примеров. Это может быть значение не только тем, что потенциально дает дополнительную информацию о вход-выход отношения, чем это было ранее известных, но и в том, что это может свидетельствовать о том, что вход-выход отношений меняется. Если истинный класс наблюдений может быть определена, BPC границы могут быть обновлены до включить эту информацию.

Следующий алгоритм обеспечивает подход к прогнозированию принадлежность к классу такого класса D-типа наблюдений. Как и в предыдущих алгоритмов, она работает путем определения относительного расположения наблюдения в отношении нынешних членов S ^ SUP V ^ ^ 1 к югу ^ и S ^ SUP V ^ ^ ^ 2 к югу. В этом случае, однако, мы используем относительные евклидово расстояние от наблюдения к каждому из двух классов границы определить, к какому классу он принадлежит, скорее всего.

Тестирование и анализ

Цзян (2003) предоставляет сравнительные оценки различных типов классификации методов. Хотя ни один из методов, которые она сравнивает доминирует другие в любом случае, некоторые из них, по крайней мере эффективным, как каждый из других под различные сценарии, которые, по ее мнению. Среди них более эффективные методы стандартный корм вперед обратного распространения нейронной сети. В частности, Цзян (2003) определили нейронных сетей, поскольку преимущественный метод классификации, когда основной процесс динамично меняется. Именно потому, что этой эффективности, что мы выбрали такое нейронные сети, классификация методика, по которой можно сравнивать эффективность подхода BPC.

Мы начинаем наши тестирования, изучая эффективность такого подхода BPC по ряду проблем, связанных с различными количествами перекрытие между двумя классами продукции. Нейронные сети классификатор затем применяется тот же набор проблем и сравнение результатов. Это первоначальное тестирование следует краткое обсуждение возможности техники БПЦ адаптироваться к меняющимся условиям.

В дополнение к возможным циклические изменения, поведение многих бизнес-процессов, часто также включает в себя компонент тенденцию с течением времени. Следовательно, параметр Для того, чтобы изучить эффективность подхода BPC в разных условиях, 5 различных уровней были рассмотрены тенденции: нет тренда ( %.

На каждом уровне тенденции, 500 пар последовательных наблюдений были получены в учебных целях: T ^ югу tr = ((у ^ ^ к югу 0, у ^ 1 ^ к югу), (у ^ 1 ^ к югу, у ^ 2 ^ к югу) . . . (У ^ ^ 499 к югу, у ^ ^ к югу 500)). Весь этот набор обучающих наблюдений проходят через алгоритм BPC границы поколения, что привело к созданию эмпирические границы для каждого из двух классов продукции. Подход был испытан для каждого значения параметра тенденция с применением алгоритма BPC классификации 10 новых повторений того же набора 500 пар наблюдений.

Для того, чтобы судить о сравнительной эффективности техники BPC, нейронная сеть классификации подход был применен тот же набор тестовых задач. NeuralWorks ® Предсказать (TM) (2001), автоматизированный инструмент, который генерирует обратного распространения сетей нейронных, была выбрана для разработки сетей для классификации. Каждая сеть состоит из устройств ввода с двумя узлами, мощность слоя с одного узла, а один скрытый слой, в котором число узлов в скрытом слое определяется Предсказать (TM) программного обеспечения. Программное обеспечение использует собственные нелинейные кормить вперед конструктивные алгоритмы и никакая переменная выбор был использован (NeuralWorks ® Предсказать (TM), 2001). Нейронные сети были предоставлены те же данные обучение (500 пар наблюдений) и тестирование данных (10 повторений дополнительные 500 пар наблюдений), а подход BPC. Результаты, приведенные в таблицах 1 и 2 отражают среднюю производительность техники БКК и нейронные сети метод классификации на эти 10 тестирования репликаций. Для точек, которые входят в класс D, точность классификации измеряется по отношению к производительности в ближайшей границей алгоритм которых говорилось выше.

Важно отметить ряд вопросов, касающихся результатов этого первоначального набора тестов. Для Следовательно, не перекрываются области создан алгоритм границы поколения и, следовательно, нет класса C-типа классификации (в обе границы) встречаются ни в одном из испытаний идет. Есть, однако, в среднем, около 20 класса D-типа наблюдений (за пределами обеих границах) в 500 замечаний, поскольку подготовка данных как правило, не обеспечивают исчерпывающее освещение необходимо гарантировать, что все последующие наблюдения будет находиться в 1 генерируемых границ. В ходе испытаний результаты, ближайшей границей алгоритм был использован, чтобы назначить основной класс продукции (класса А или класса B) для этих классов D-типа наблюдений.

Поскольку объем тенденция увеличивается, есть соответствующее увеличение степени перекрывают друг друга две истинные классы продукции. Таким образом, происходит уменьшение числа замечаний, которые алгоритм непосредственно ни в одну классификацию класса А или класса B. Потому что есть более тесного взаимодействия между этими двумя классами фактического выхода, есть больше возможностей для ошибочной классификации среди класса А и класса B замечания. Это также отражено в результатах тестирования. Даже при таком уменьшении точности классификации, однако. Таблица 1 показывает, что первоначальной классификации алгоритм классификации границы постоянно превосходит последующей классификации класса D замечания по ближайшей границей схемы классификации.

Для того, чтобы обеспечить окончательное классификации класса C-типа наблюдения в любой класса А или класса B, простой дискриминанта 2-групповой анализ был применен к каждому наблюдению изначально определены как принадлежащие к этому множество точек. Результаты приведены в таблице 1 отражают дискриминанта оценка для каждого наблюдения, которая была рассчитана только на основании определили набор классов C замечания. Это свидетельствует о той поддержке, которую обеспечивает подход BPC для сосредоточения классификации усилия непосредственно на множество замечаний неубедительными. Использовать простую схему классификации на перекрытия предусматривает, в некотором смысле, нижняя граница по классификации способность подход BPC. Если более эффективные методы могут быть определены для этой области перекрытия, то общий уровень классификации для всего набора данных улучшится.

Есть несколько важных выводов, которые могут быть взяты из результатов, приведенных в таблицах 1 и 2. Во-первых, классификация производительность техники BPC эквивалентно нейронной сети не только по отношению к классам А и B, а также тогда, когда класс D замечания включены для рассмотрения. Точность результатов дискриминантного анализа класса C перекрытия также статистически эквивалентной нейронных сетей на том же множестве наблюдений. Потому что Цзян (2003) считает, что нейронных сетей является одним из наиболее эффективных классификации, это означает, что подход BPC должны быть не хуже других методов в литературе. Во-вторых, относительной эффективности обоих методов на замечания класса C, по сравнению с их производительность на трех других классов, в пользу гипотезы, что именно эти перекрытия замечания, которые несут основную ответственность за неточность классификации.

Есть несколько других характеристик подход BPC, которые обеспечивают его конкурентное преимущество по сравнению таких методов, как нейронные сети. Во-первых, новый подход может обеспечить визуальный или концептуальные иллюстрации классификации границ (рис. 2), что позволяет пользователю возможность развить интуитивное понимание влияния входных параметров классификации. Для сравнения, критики основных нейронных сетей является то, что они представляют собой "черный ящик" представление выходных не существует простой способ определить влияние различных значений входных параметров в процессе классификации.

Второе преимущество новой технологии заключается в простоте ее использования. В целях подготовки или подход BPC или нейронной сети, разработчик должен выбрать входные параметры известны воздействия определение класса, а затем собирать данные, представляющие несколько экземпляров пар вход-выход. В дополнение к этим требованиям, однако, нейронная сеть также должна иметь указание типа сети, алгоритм обучения, количество скрытых слоев и скрытых узлов, изучение курсов, и так далее. BPC подход требует ни одна из этой дополнительной информации для того, чтобы быть реализованы.

Улучшение ближайшей границей реклассификации техники, или выбрать более с учетом техники в области перекрытия, помогут улучшить работоспособность подхода BPC. Число misclassifications могут быть сокращены, однако, путем включения в технике возможность изменять размер и охват границ в качестве дополнительного классифицированных замечания становятся доступными. В следующем разделе рассматривается процесс включения такой корректировки границ в существующий подход БКК и краткий анализ исполнения в результате динамической схемы классификации.

Сравнительное тестирование с помощью динамического ввода распределений

Классификация подходов, которые основаны на первоначальной представитель наборов данных, таких, как считается в предыдущем разделе, как правило, страдают от ограничений, что, если характеристики базовой системы начнет меняться, то классификация модель может становиться все менее точными (Шумуэй, 2001 ; Sakiyama

Такие методы, как сети обратного распространения нейронных не должны выполнять особенно хорошо классификации таких динамических процессов, если весь ожидаемый диапазон изменения могут быть зафиксированы в подготовке данных. К сожалению, для большинства бизнес-процессов, изменения с течением времени, сбор такой подготовки набора данных будет очень трудно, если не невозможно, потому что будущее поведение процесса остается неопределенным. Хотя периодической переподготовки сети обратного распространения возможно, с использованием самых последних данных, для которых фактические результаты, как известно, переподготовки процесс, как правило, времени и усилий интенсивно.

Одним из наиболее важных характеристик подход BPC является ее способность решить эту проблему. В отличие от методов, которые требуют всего обучающего множества для захвата новых отношений ввода-вывода, BPC подход может быть переподготовку и обновляется постепенно по мере поступления новых данных. Так как фактический алгоритм классификации зависит только от очень малой частью наблюдениям, процесс обновления может быть реализован быстрее и эффективнее.

В целях обеспечения активного границы отражает современные знания о сфере наблюдения, может оказаться необходимым рассмотреть вопрос об исключении взрослыми замечания по истечении заданного периода времени прошло. С учетом изменений в поведении базовой системы, это может помочь уменьшить воздействие устаревших замечания по классификации результатов. В отличие от процесса добавления новых замечаний к базовым набором данных, однако, осуществление процесса удаления взрослыми замечаний может возникнуть необходимость хранения всего набора данных. Это потому, что устранение границы наблюдения может вызвать один или несколько существующих внутренних наблюдений, чтобы стать граничные точки.

Представления в качестве решения средства: асимметричное воздействие слов и цифр на аудиторов присущие решений риска

Группа поддержки системы, власть и влияние в организации: полевое исследование

Роль автоматизации и труда при определении потребительской удовлетворенности в телефонной процесс восстановления,

Появление гипертекста и решения проблем: экспериментальные исследования и использования информации от линейных против нелинейных систем,

Моделирование метамодели временем отклика планирования

Media целесообразности: Влияние опыта на выбор средств массовой информации

Анимация в пользовательские интерфейсы предназначены для систем поддержки принятия решений: эффекты изображения абстракции, переходный период, и интерактивность по решению качества

Развития и оценки действительности документ задачи технологии, пригодный для оценки пользователей информационных систем

Понимание сложности модели процесса разработки: анализ протокола подход

Пересматриваются модели для оценки успеха информационного центра на основе структурного подхода моделирования уравнения

Hosted by uCoz