Можно ли услышать изображения? Исследование визуального микрофона 📸 0:00
Дерек Мюллер, автор популярного научного канала Veritasium, задается необычным вопросом: можно ли восстановить звук, используя только видеозапись объекта, который этот звук издавал? Хотя на первый взгляд кажется, что достаточно просто отслеживать колебания предметов в кадре, на практике этот процесс требует сложной обработки сигналов и высокоскоростной съемки. В данном эксперименте Мюллер пытается превратить обычную видеокамеру в своего рода «визуальный микрофон», чтобы доказать, что физический мир буквально вибрирует в такт звуковым волнам.
Физика звука в видеопотоке 🔊 1:05
Принцип работы «визуального микрофона» основан на том, что звук — это вибрации воздуха. Когда эти звуковые волны ударяются о какой-либо объект, они заставляют его совершать микроскопические движения.
- Масштаб проблемы: Звуковые вибрации невероятно малы, они сдвигают предметы всего на один микрометр. Даже при сильном приближении это перемещение составляет лишь сотые или тысячные доли пикселя.
- Визуальные изменения: Камера не «видит» движение объекта как таковое. Вместо этого фиксируется изменение яркости пикселей: одна область становится чуть светлее, другая — чуть темнее.
- Идеальные объекты: Лучше всего для таких экспериментов подходят легкие предметы с высокой степенью демпфирования (поглощения энергии), например, обычная пачка чипсов или смятый комок фольги.
Для извлечения звука Мюллер и его коллега используют алгоритм, который анализирует края объектов в кадре. Суммируя изменения яркости на границах (якобы становящихся светлее или темнее), программа строит график смещения объекта во времени.
Ограничения частоты кадров ⏱️ 4:39
Главным препятствием для качественного воспроизведения звука является частота кадров (FPS). Человеческий слух воспринимает звуки в диапазоне от 20 до 20 000 Гц. Большинство потребительских камер снимают с частотой 30 кадров в секунду, что фатально для аудиозаписи.
- Теорема Котельникова: Чтобы зафиксировать частоту звука, нужно делать выборки как минимум в два раза чаще, чем сама частота.
- Проблема «мертвой точки»: При съемке 30-герцового звука 30-кадровой камерой объект всегда будет попадать в кадр в одной и той же фазе колебания. В результате будет казаться, что предмет неподвижен.
Чтобы добиться хотя бы минимальной разборчивости звука, команда Veritasium использует высокоскоростную камеру, способную снимать до 1000 кадров в секунду.
Успешный эксперимент с фольгой 🎞️ 6:11
В ходе эксперимента с фольгой, помещенной на динамик, команда столкнулась с техническими сложностями: обработка видео в 1000 FPS требовала огромных вычислительных мощностей, поэтому видео пришлось обрезать.
После первичной обработки записи возникли опасения насчет подтверждения предвзятости (confirmation bias) — когда исследователь видит то, что ожидает увидеть. Однако при воспроизведении обработанного сигнала через колонки отчетливо прозвучала мелодия «Shave and a Haircut». Это стало доказательством того, что «визуальный микрофон» работает.
Безопасность и угрозы приватности 🔐 9:46
Мюллер отмечает, что этот «базовый» эксперимент — лишь верхушка айсберга. Более совершенное оборудование позволяет восстанавливать человеческую речь, даже если камера находится снаружи за звукоизолированным стеклом.
Более того, существует риск, связанный с клавиатурами. Каждая клавиша при нажатии издает уникальный звук из-за своего расположения, и исследования показывают, что аудиозаписи печати позволяют с точностью до 96% определить нажимаемые клавиши. В связи с этим Мюллер подчеркивает важность использования менеджеров паролей, таких как спонсор видео — LastPass, которые позволяют избегать ручного ввода данных и защищают пользователей от подобных методов слежки.