Вейвлет подход к заповедник конфиденциальности классификации горно *

РЕЗЮМЕ

Несмотря на коммерческий успех интеллектуального анализа данных, основным недостатком была признана всей академической, промышленности и государственного сектора, а именно, вопрос о нарушении неприкосновенности частной жизни людей. Предложен метод преобразования данных на основе всплесков, чтобы скрыть личные данные при сохранении первоначальной структуры классификации. Вейвлет-преобразования широко используется в обработке сигналов для обработки данных, кратномасштабный анализ и устранение шума от данных. В нашей реализации 2 широко используется вейвлет, Хаара и Дааб-4 преобразований, были проверены на модели и сохранение конфиденциальности в задачах классификации горных работ. Эмпирические данные подтверждают, что Хаара и Дааб-4 преобразований сохранить классификация моделей и сохранения конфиденциальности для реальных важных данных.

Предметные области: классификация, Data Mining, обмена данными, обмена информацией о конфиденциальности, Положение, сигнал, и всплески.

ВВЕДЕНИЕ

Интеллектуального анализа данных все более широко используется в частном и государственном секторах в целях выявления тенденций, шаблонов и исключений. Примеры функциональных возможностей интеллектуального анализа данных включают установление причинной связи и корреляции через ассоциативные правила, контролируемые и неконтролируемые машинного обучения путем классификации и кластерного анализа, анализа редких событий посредством обнаружения выбросов, а также анализ тенденций для последовательного и временных рядов. Несмотря на коммерческий успех интеллектуального анализа данных, основным недостатком была признана всей академической, промышленности и государственного сектора, а именно, вопрос о нарушении неприкосновенности частной жизни людей. Потенциальные угрозы для личной жизни может возникнуть, когда данные передаются между организациями. Вопрос о нарушении неприкосновенности частной жизни, когда общие данные могут быть заминированы возникает во многих параметров: государственного и частного сектора информационных потоков, межфирменных информационного потока, потока внутрифирменной информации, и даже в nonbusiness настройки. Мы обсудим примеры по каждому из этих параметров.

По данным Исследовательской службы Конгресса доклад о данных, добыча (Зейферта, 2004), конфиденциальность является одним из 4 основных сдерживающих факторов, которые влияют на успех интеллектуального анализа данных проектов. Например, пассажир профилирования автоматизированного досмотра пассажиров программа была отменена из-за протестов со стороны групп гражданского свободы в отношении обмена личными данными пассажиров с правительственными учреждениями и другими подрядчиками анализа данных (Пасторе, 2004). В последнее время Агентством национальной безопасности (NSA) стремились вызовом моделей лиц для анализа данных целей, и по крайней мере одна телекоммуникационная компания отказалась выполнить просьбу (Wilson, 2006). Запрос НГБ может быть незаконным, поскольку оно нарушает Раздел 222 раздела 47 в отношении защиты конфиденциальности частной информации (Центр развития демократии и технологий, 2006).

Предприятия все чаще требуется выполнить несколько юрисдикций, различные законы и распределенный характер информационных потоков. Кароль (2001) приводит пример, в котором "Канадский использует кредитную карту с агентом США поездок на книжные круиз из Франции в Грецию на норвежский корабль. Агентство США путешествия, что хотел бы данные мои каникулы необходимость проведения трансграничной оценки воздействия, которые могут в свою очередь, требуют разного уровня, начиная от изменения существенных изменений в существующие программы для бизнес-процесса реорганизации. Для транснациональных корпораций, Perkins и Маркел (2004) утверждают, что защита частной жизни важнее, чем доходы от добычи нескольких юрисдикции данных.

Проблемы конфиденциальности информации выходят за рамки бизнес-операций. Например, в области генома человека, эпидемиологии и использует статистические данные по добыче, чтобы найти методы молекулярной основы для общих человеческих болезней с использованием образцов ДНК. Конфиденциальность имеет особо важное значение в области генома человека, эпидемиологии, поскольку генетическая информация примерно одинаковым во всех членов семьи (Остин, 2002). Исследователи охватывающих 20 стран в консорциуме MalariaGEN использовании методов статистики и классификации горных, чтобы найти лекарство от малярии. Ряд решений, политика, которая будет осуществляться в целях разработки такой крупной и сложной системы консорциума (Chokshi, Паркер,

Одна из целей личной жизни, сохранение интеллектуального анализа данных является преобразование данных, с тем оригинальной модели остаются нетронутыми а искусственные данные не представил. Вейвлет широко используется в обработке сигналов для обработки данных, кратномасштабного анализа, а также данные удаления шума. Преобразование комплекса на общую функцию, объединяющую данные, основанные на масштабировании и вейвлет-коэффициентов. Вейвлет были применены для кластеризации, классификации, регрессии и других задач, анализа данных, а также для анализа данных первичной обработки шаги (Li, Li, Чжу,

В этой статье мы сначала предоставить информацию о конфиденциальности, сохранения интеллектуального анализа данных и классификации, а затем обсудим вейвлет свойств и структуры сохранения жизни и конфиденциальности, сохранение свойств, которые используются для классификации горных работ. В экспериментальной части мы приводим результаты экспериментов по сохранению структуры, а также неприкосновенность частной жизни. Мы пришли к выводу, обсуждая вопросы управления и ограничения предлагаемого подхода.

Связанные работы

Богатые тела работы по сохранению конфиденциальности, добыча существует. В зависимости от типа данных, конфиденциальности рассматриваемых проблем, эти исследования могут быть разделены на две категории: те, которые пытаются спрятаться значений данных, когда данные передаются третьим лицам для анализа (Agrawal

На сегодняшний день существующая литература о сохранении анализа данных моделей фокусируется на случайных возмущений подходов, что добавить или умножить случайных шумов на данные, например, что отдельные значения данных, искажаются, а лежащие в основе распределения могут быть реконструированы с достаточной степенью точности (Agrawal

Хотя Есть несколько функциональных возможностей анализа данных, как описано в разделе Введение и сохранения конфиденциальности, добыча была применена для многих из них мы акцент здесь конкретно о классификации горных работ. Классификация рассматривается метод подготовки, в котором классификатор учил использовать исторические обучающих выборок с известными значениями класса, который затем может быть использована для классификации лиц, чей класс значение неизвестно. Распространенных методов классификации полагаться на информацию, усилением вычислений, таких как деревья решений на основе ID3/C4.5 алгоритмов. Некоторые исследователи прикладных математических подходов к программированию с классификацией задачи с помощью дискриминантного анализа (Фред

Предлагаемый алгоритм, основанный на вейвлет, имеет несколько интересных свойств, как описано в следующем разделе. Предложенный алгоритм изменения данных алгоритм, позволяющий моделей быть раскрыта без исходных данных разглашаются. Атрибут семантику данных не потерял, и поэтому подход служит утилита для приватизированных обмена данными в открытых средах. В отличие от возмущения подходы, наши усилия направлены на предотвращение нарушений на данных, которые можно было идентифицировать.

Метрики для конфиденциальности, сохраняющих классификации горных

Показатели для измерения успеха в личной жизни, сохраняющих алгоритмы классификации горных должен отвечать двум целям: (I) точности классификации приватизированных данные должны быть похожи на исходных данных и (II), противник не должен иметь возможность нарушения приватизированных данных . Первая метрика, точности классификации, может быть вычислена доля приватизированных дел, которые были неправильно классифицированы или как сравнение логики закодированной в приватизированных деревьев решение с оригинальным деревьев.

Агравал и Srikant (2000) предложить метрических частной жизни на основе интервала размера, который будет содержать оригинальное значение при заданном уровне доверия. Тем не менее, показали Агравал и Aggarwal (2001), этот показатель завышает секретность, потому что она не использует границы знания значений. Для достижения цели сохранения распределения возмущений подходов, Агравал и Aggarwal (2001) предлагают энтропии основе метрики.

Мы считаем, что личную жизнь со списком издатель / распространитель данных будет преобразовывать все реальные ценности, биннинга них. Кроме того, категорическим данных, по самому своему определению, также должны быть дискретными. Таким образом, соответствующие показатели для личной жизни следует сосредоточить внимание на способности нарушение алгоритмов бен приватизированных данных в том же бен качестве исходных данных. Мы предлагаем нормированные-binned среднеквадратическая ошибка, как один метрических за нарушение трудности и следующий обеспечить обоснование. Когда ведро размер 2, каждая реальная стоимость должен быть помещен в один из этих двух лотков. Если приватизированные бинарных значение положить в мусорное ведро, в котором он не принадлежит, то нарушение ошибка должна быть 100%, и если он правильно binned, нарушение ошибка должна быть 0%. Нормированные-биннинга ошибки, таким образом, вычисляется как (Расстояние в ящики между оригиналом и реконструированным данным) / (Количество бункеров - 1). Нормированные-binned среднеквадратическая ошибка наказание весьма неточные биннинга, и это отражает степень ошибки реконструкции binned данных с максимальным значением 1.

Хотя предыдущим показателем является полезным датчик для измерения нарушение точности, он не решает идентификации частного лица с утилитой точки зрения. Поэтому мы предлагаем вторую метрикой: процент записей, которые были binned правильно. Этот показатель приведет к снижению точности при нарушении дополнительные атрибуты должны быть нарушены, но он его использует для идентификации лица нарушены.

МЕТОДОЛОГИЯ

Всплески для преобразования данных

Вообще говоря, вейвлет-преобразование является инструментом, который делит данных, функций и операторов в различных частотных составляющих, а затем исследования каждого компонента с разрешением соответствует по своим масштабам (Добеши, 1992). Дискретное вейвлет-преобразования (DWTs) разделить входной сигнал на две компоненты на каждом уровне. Эти компоненты называются приближения и деталей и представляют собой низкочастотные и высокочастотные subsignals исходного сигнала, соответственно. Эти коэффициенты отражают тенденции и колебания сигнала. Приближении коэффициент может быть рекурсивно разложить на более высоком уровне и subsignals низкого уровня резолюции, что позволило анализа на несколько резолюций. Исходный сигнал может быть полностью реконструирован с любого уровня, если приближенными коэффициентами на этом уровне и подробные коэффициенты, что и все предыдущие уровни сохраняются. Однако, если только коэффициенты приближении сохраняется, исходный сигнал может быть только приблизительно. Это похоже на оригинал деления сигнала на несколько одинаковой длины сегментов, где каждый сегмент равна среднему значению исходного сигнала, которая входит в этом сегменте (Shasha

Всплески распознавания и сохранения конфиденциальности

Поскольку большая часть энергии (сумма квадратов значений сигнала) в сигнал (серии) в эту тенденцию, всплесков, которые не имеют всех флуктуационных сигналов могут быть использованы для сокращения размерности. В нашем случае мы используем только ту часть, которая генерирует вейвлет направление сигнала. Это строки ортонормированной матрицы называется расширения матрицы. Пример расширения матрицы для вейвлет Хаара, представленным ниже. Такое масштабирование матрицы используется для преобразования 8 значения атрибута 4 значений матриц.

Например, если предположить, что покупки, уровень доходов и достоинство кредита для клиентов 8 определяется из следующих значений: ((3 [радикальных] 2,6 [радикальных] 2K, Y); (7 [радикальных] 2,12 [ радикальные] 2K, Y); (4 [радикальных] 2,8 [радикальных] 2K, Y); (20 [радикальных] 2,20 [радикальных] 2K, Y); (20 [радикальных], 2,24 [радикальных ] 2K, Y); (8 [радикальных] 2,4 [радикальных] 2K, Y); (12 [радикальных] 2,7 [радикальных] 2K, N); (6 [радикальных] 2,3 [радикальных 2K] , N)), приватизированных ценностям путем умножения масштабирования Хаара матрицы первая два значения атрибута приведет следующий набор из четырех значений ((10,18 K, Y) (24,28 K, Y); (28, 28K, Y) (18,10 K, N)). Нормированная версия этого множества ((5,9 K, Y) (12,14 K, Y) (14,14 K, Y); (9,5 K, N)) может быть распространен на другие организации, которые могут мои данные для целей классификации. Наш подход с использованием только расширения матрицы уменьшает ряд аспектов данных в два раза, по сравнению с подходом, Лю, Kargupta, и Райан (2006), что уменьшает размеры атрибут. Наша методология тем самым сохраняет атрибут семантики в приватизированных данных. Распределение приватизированных ценностей одинаковой средней, как распространение исходных значений, но с более низким уровнем отклонения из-за агрегации эффект вейвлет преобразований.

Покажем, что восстановление исходных данных, с помощью вейвлет преобразования приведут к бесконечным числом возможных решений для вещественного типа наборов данных и, следовательно, неприкосновенность частной жизни не может быть нарушено. Предположим, что т общественного значения для п атрибутов определяется следующим набором (. . . ), Где х ^ ^ т к югу есть значение атрибута JTH-го лица (далее этой матрицы называется X). Сохранение конфиденциальности первого уровня вейвлет алгоритма приведет к созданию приватизированных преобразуется матрица P ^ югу м / с 2, п ^ = S ^ к югу м / с 2, м ^ X ^ югу т, п ^, где S ^ м к югу / 2, т ^ является 1-го уровня масштабирования преобразования. Го уровня преобразования процесса преобразования рекурсивных го после сортировки коэффициентов аппроксимации на суррогат энергии сигнала. Реконструкции подход требует определения матрицы X данного P, множество приватизированных ценностей.

Алгоритм распознавания и сохранения конфиденциальности

Алгоритма вейвлет-преобразования типа классификации горных приведена на рис 1 наряду с методикой тестирования, а также формальные подробная информация приводится следующее. Мы считаем, 1-го уровня вейвлет для создания приватизированных данных с помощью расширения матрицы. Пусть исходный набор данных будут представлены в виде матрицы D [C |], где с вектор-столбец атрибута, используемого для классификации, а матрица nonclassification атрибутов. В первом шаге алгоритма, D горизонтально разделена на А наборы для набора данных с к классам, где каждый имеет множество членов, которые относятся только к той классификации значение. Пусть ^ югу J ^-матрица nonclassification атрибуты JTH горизонтальной раздела. Предложенный алгоритм сохранения конфиденциальности применяется идентичный первому уровня масштабирования преобразование каждой югу ^ J ^ при / = 1. . . , К. Два часто используемых вейвлет преобразований Хаара и Дааб-4 преобразования, описанные выше. Приватизированных набор данных (P), полученные от используется для обучения классификаторов. Для проверки точности классификатора, каждый ^ ^ т к югу должны быть нормированы путем умножения каждого ^ ^ т к югу по [квадратный корень] 2 для тестирования набор данных (T).

Потому что вейвлет преобразований бежать за линейное время, приватизации алгоритма имеет порядок О (п, т *) временной сложности, в котором т четное количество записей, а п по ряду признаков. Хотя зависимость существует последовательность в порядке, в котором приватизированных рассчитываются значения, цель приватизации состоит в минимизации конфиденциальности выводы, и поэтому ожидается, что приватизатор будет сортировать данные случайно перед запуском вейвлет когда последовательность зависимости ожидается .

Обычно в реальных наборов данных сталкиваются с переменными, которые не являются интервально-масштабируется. Потому что вейвлет могут быть выполнены только на отрезке масштабных данных, мы превращаем значений бинарных, именные, и порядковые переменные в соответствующем интервале масштабного значения (Хан

Нарушение Алгоритмы

Нарушение алгоритмы могут использовать знания о распределении приватизированы или исходные данные для того, чтобы угадать соответствующие значения для исходных данных. Хуан, Ду и Chen (2005) попытались реконструировать личной информации для аддитивных случайно возмущенными конфиденциальности механизмов несколькими способами: с помощью приватизированных стоимость нарушил значение: с помощью ожидаемых ценность, основанная на одномерное распределение каждого атрибута данных и, используя нормальной аппроксимации для каждого атрибута, что использование теоретических байесовской основе оценки подхода.

Хотя эти подходы реконструкции подходят для аддитивных алгоритмы, где это понятие, чтобы удалить гауссовских термин "ошибка", который был добавлен в значение атрибута, на основе вейвлет-преобразований требует предположений 2 (Хаара) или более (Дааб-4) значения для каждого приватизированного значение . Мы предлагаем две категории в нарушении алгоритмы последовательности независимых и зависимых нарушение последовательности. В независимой последовательности нарушение, не два приватизированных значения создаются путем обмена оригинальные значение ". В зависимости нарушение последовательности, все приватизированные значения создаются за счет повторного использования исходных значений данных. Разница между этими двумя категориями нарушение показан на рисунке 2. За нарушение независимой последовательности, приватизированных данные должны быть разбиты на две компоненты, которые привели к его созданию (например, с учетом приватизированного покупную стоимость $ 10, противник должен прибыть на оригинал неразделенной значения 3 [квадратный корень] 2 и 7 [квадратный корень] 2). Однако, для зависимой последовательности нарушения, подмножество исходных значений следует регенерации два или более приватизированных значений данных. В этом примере значения 4 [квадратный корень] 2 и 20 [квадратный корень] 2 используется дважды для создания двух приватизированных значения, $ 10,07 и $ 34,11.

Последовательностью нарушение алгоритмы описаны далее на основе консервативных ключевых предположении, что противник знает типа вейвлет-преобразования, которые осуществляются, и, следовательно, противник может использовать определенные категории алгоритм последовательности-нарушение. Оба предлагаемых алгоритмов Монте-Карло на основе байесовского реконструкции по опытным путем кумулятивного распределения вероятностей (КОР) для приватизированных наборов данных.

Из приватизированных значение (р югу т ^) представляет собой совокупность двух или более исходных величин, одна из этих исходных значений должно быть меньше, чем р ^ ^ т к югу, а другая (ы) может быть и больше. Пусть интегральная вероятность возникновения этого подпункта р т ^ ^ по электронной югу т ^ (см. Рисунок 3). Таким образом, совокупная вероятность одного из этих исходных значений должно быть меньше, чем е ^ т ^ к югу, и другие могут быть и больше. Мы используем для создания эвристических оценки (х \ к югу (2г) J ^) одного из исходных значений. Это оценочная стоимость является одним из восстановленных значений.

Для реконструкции Хаара, если е ^ т ^ к югу 0,5, случайным образом выбрать из равномерного распределения е ^ к югу (2г) J ^, большую, чем 0,5. Применяя обратной функции на кумулятивное распределение вероятностей, соответствующих реконструированная значение (х \ к югу (2г) J ^) получается при е ^ к югу (2г) J ^. Мы первые найти х ^ к югу (2г) J ^ и использования, что наряду с подпунктами р т ^ значение, чтобы найти х ^ к югу (2г-1) J ^.

Характер зависимостей при перекрытии исходные значения создает ряд проблем для противника, потому что небольшие ошибки в догадках пропаганды и увеличить в следующей последовательности. В нашем подходе к Дааб-4, противник догадки х ^ к югу (2г) J ^ значения, так же, как приватизированных значение, потому что второй срок Дааб-4 масштабирования последовательность имеет наибольший вес 0,837. Таким образом, можно предположить, что приватизированные данных была сформирована с помощью соответствующей второму значению. Первое значение (х \ к югу 1j ^) для любого атрибута угадал случайно. Все остальные значения могут быть вычислены.

Для категориальных данных, в зависимости последовательных алгоритмов нарушение может быть нарушено, основанной на знаниях прикладных всплесков. Как, например, двоичные данные, только 16 (2 ^ ^ SUP 4) возможных комбинаций для Дааб-4 последовательностей. Из этих 16 комбинаций, только две комбинации ((1 0 1 0), (0 +1 +0 +1)) приводит к идентичным преобразуется значение. Это позволяет устранить один из этих комбинаций, изучая следующий набор последовательных значений. Все другие комбинации приводят к уникальной приватизированных значения и, следовательно, это просто приехать в исходной последовательности. Таким образом, можно легко восстановить двоичные данные атрибуты, приватизированные Дааб-4. Используя тот же принцип, то потенциально можно восстановить категориальных данных, последовательно проверяя все возможные комбинации, которые привели к образованию этого значения.

алгоритмов Независимых последовательности нарушения представляют собой жесткий вызов к противнику для категориальных данных. Для двоичных данных, злоумышленник может легко предположить, что присутствие 1 (0) в приватизированных значение означает, что данные были преобразованы все из них (нулей). Наличие 0,5 можно отнести к комбинации 1 и 0, однако, в простейшем случае Хаара, противник не знает, является ли значение 1 или 0, был первым в последовательности. Кроме того, для порядковых данных, только крайние значения приватизированных данных может быть объяснено с высокой степенью доверия к последовательности, любые промежуточные значения является результатом различных комбинаций, и эти комбинации в свою очередь могут быть отнесены к одной верхней или нижней части последовательности.

Информационные системы адаптации и успешное внедрение новейших технологий производства

Основой для изучения взаимосвязи между операциями и информационных систем: их значение для исследования в новом тысячелетии

Межучрежденческие совместные прогнозирования и пополнения системы и последствия цепочки поставок

Показатели деятельности за повторное использование программного обеспечения проектов

Обработки информации альтернатив для борьбы с производственной среде сложности

Интегративных рамках процесса разработки информационных систем

Контингент зрения качества управления - влияние международного конкурса по качеству

Структурного анализа эффективности стратегии покупки компаний для улучшения эффективности работы поставщиков

Замечание о SERVQUAL надежность и достоверность информации в системе измерения качества обслуживания

Многопериодной расширение производственных мощностей в регионах глобально распределенными

Hosted by uCoz