Описание набора данных и извлечение признаков

Мы создали инструмент ведения журнала на базе операционной системы Windows [33], который непрерывно фиксирует данные нажатия клавиш и мыши. Данные журнала хранятся локально в файле CSV или могут передаваться на сервер по защищенному каналу. Конфиденциальность пользователей и конфиденциальность конфиденциальных данных учитываются во время разработки инструмента. Наше программное обеспечение в основном предназначено для исследований биометрических поведенческих исследований, но данные, которые мы можем собирать, также могут быть полезны для активной криминалистики и обнаружения вторжений.Журналированиетакже может захватывать дополнительную информацию, связанную с программным обеспечением, используемым во время действия, и информацией об оборудовании системы. Вся эта дополнительная информация может быть полезна для создания пользовательских шаблонов приложений для анализа. Поскольку мы использовали шаблон контекстно-зависимого пользователя, мы не использовали эту информацию для этого исследования.

5.2. События мыши

Формат данных для событий мыши показан в таблице 6. Последовательность (т. Е. Seq.) Представляет собой последовательное появление событий. Евт. Тип всегда «M» (т. Е. События, связанные с мышью). События мыши могут иметь четыре типа действий, перемещение мыши («М»), использование колесика мыши («W»), нажатие кнопки мыши («D») и отпускание кнопки мыши («U»). Поле Value содержит координаты указателя мыши xy, объединенные символом подчеркивания '_'. В случае использования колесика мыши значение - соответствующее значение дельта, указывающее, сколько прокручивалось колесо; положительные значения - свитки вверх, отрицательные - нисходящие свитки. Метка времени была записана в миллисекундах, когда произошло событие, с интервалом выборки 16 мс. Атрибут отношения содержит соответствующий порядковый номер предыдущего события. Флаг - это целое число, указывающее, какая кнопка мыши была нажата / отпущена. Дополнительные поля указывают активную область прямоугольника для нажатия кнопки мыши и события разблокировки.

Таблица 6

Структура данных для событий мыши.

Таблица 7

Пример данных, полученных с помощью нашего программного обеспечения для ведения журнала.

5.3. Пример журнала

Образцы данных, собранные с помощью нашего программного обеспечения для регистрации, записаны в Таблице 7, показывая ввод NISlab в приложении к блокноту. События в журнале можно интерпретировать следующим образом: от seq. 5-54 показывают действие перемещения мыши, где поле отношения в seq. 5 равно 0, что указывает на начало действия перемещения мыши. Seq. 55 (кнопка мыши вниз) и 59 (кнопка мыши вверх) указывают действие мыши одним щелчком мыши, где поле отношения в seq. 59 - 55, что указывает на событие, связанное с кнопкой мыши, которое произошло в секундах. 59 связано с событием мыши, которое произошло в seq. 55. В последующем. 58 фокус программного обеспечения изменяется на notepad.exe, что указывает на открытие программного обеспечения блокнота. Из следующего. От 60 до 63 нажата клавиша «Левый сдвиг», в результате чего буква «N» станет столицей. Использование клавиши shift также указывает в поле флага (от 60 до 62), которое показывает номер 4. Использование обратного пространства для удаления «i» было указано в следующем разделе. 66 и 67. После. От 68 до 79 мы видим, что пользователь продолжает вводить текст для завершения ISlab для завершения NISlab. Мы можем собрать дополнительную информацию, относящуюся к настройкам компьютера пользователя, так как этот пользователь имеет два экрана (3 и 4) с разрешением этих экранов, а также мы можем понять, что эти события произошли на экране 1 по seq. 57.

Таблица 8

Сравнение данных с предыдущими исследованиями

Сбор данных

Несмотря на высокую степень конфиденциальности, у нас все еще есть 53 добровольца для участия в нашем эксперименте. Волонтеры установили наше программное обеспечение для регистрации данных и непрерывно собирали данные в течение 5-7 дней. Все участники этого процесса сбора данных - это студенты и сотрудники университетов, и они являются постоянными пользователями компьютеров. Мы следовали закону о защите данных и конфиденциальности в соответствии с рекомендациями Норвежского органа по защите данных. 3. Программное обеспечение для сбора данных для эксперимента полностью совместимо с этими рекомендациями.

Из различных предыдущих исследований мы узнали, что сбор экспериментальных данных в контролируемой обстановке с конкретной задачей на конкретном компьютере имеет серьезные недостатки. В этом случае пользователь будет больше сосредоточен на выполнении задачи, и их поведение не будет представлять собой их нормальное поведение [11,35]. По этой причине невозможно легко увеличить результаты экспериментов в контролируемой обстановке до прогнозируемых результатов в неконтролируемой или реальной обстановке. Мы собрали данные в следующих условиях для решения этой проблемы:

1. Не было никакой инструкции или какая-либо конкретная задача была задана пользователю;

2. Непрерывный сбор данных проводился в полной неконтролируемой среде, чтобы представлять поведение пользователей на естественном компьютере;

3. Все наши участники установили программное обеспечение в своей собственной системе, чтобы удалить потенциальные эффекты изменения аппаратного обеспечения по естественному поведенческому шаблону.

В таблице 8 показано количественное и качественное сравнение наших собранных данных и данных, собранных в ходе предыдущих исследований CA. Этот набор данных был собран в течение 5-7 дней, поэтому в этом наборе данных не будет обнаружен биометрический эффект старения.

Из-за полностью неконтролируемого процесса сбора данных, который был проведен в этом исследовании, существуют большие различия в количестве данных, собранных от разных участников. Мы избегали предоставления какой-либо задачи или какой-либо конкретной инструкции, предоставляемой участникам, поскольку это может привести к тому, что участники будут более сосредоточены на выполнении этой задачи или последуют этим инструкциям, вместо того, чтобы демонстрировать свое естественное поведение использования компьютеров. Мы собрали в среднем по 7 × 105 событий от каждого участника. В пределах этого, в среднем 12,4% (± 7,7%) являются событиями нажатия клавиш, а 83,3% (± 8,2%) являются событиями, связанными с мышью для каждого из участников. Оставшиеся 4,3% события - это события, связанные с программным и аппаратным обеспечением, которые в нашем анализе игнорируются.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: