Исследователи показали, как обмануть лучшие из существующих детекторов дипфейков
Группа ученых из Калифорнийского университета в Сан-Диего продемонстрировала, что даже самые продвинутые системы обнаружения дипфейков можно обмануть. Для этого достаточно внедрить входные данные или состязательные примеры в каждый видеокадр дипфейка.
Состязательные примеры представляют собой слегка измененные входные данные, которые заставляют системы искусственного интеллекта допускать ошибку. Причем, данный метод работает даже после сжатия видео.
«Наша работа показывает, что атаки на детекторы дипфейков могут быть реальной угрозой», — отмечает соавтор работы Шехзин Хуссейн. По его словам, можно создавать дипфейки, даже не понимая ничего в работе модели машинного обучения, используемой детектором.
Типичные детекторы дипфейков фокусируются на лицах в видеороликах: сначала отслеживают их, а затем передают данные лица в нейронную сеть, которая определяет, настоящее оно или поддельное. Например, дипфейки не могут воспроизводить моргание, и детекторы фокусируются на движениях глаз.
Если же злоумышленники имеют некоторое представление о работе детекторов, то они могут разработать входные данные для их нацеливания на слепые зоны.