Дерек Мюллер о визуальном микрофоне: как восстановить звук по видео

Veritasium 4 млн 11 мин 2 мин 01.03.2019
Главное

Можно ли услышать изображения? Исследование визуального микрофона 📸 0:00

Дерек Мюллер, автор популярного научного канала Veritasium, задается необычным вопросом: можно ли восстановить звук, используя только видеозапись объекта, который этот звук издавал? Хотя на первый взгляд кажется, что достаточно просто отслеживать колебания предметов в кадре, на практике этот процесс требует сложной обработки сигналов и высокоскоростной съемки. В данном эксперименте Мюллер пытается превратить обычную видеокамеру в своего рода «визуальный микрофон», чтобы доказать, что физический мир буквально вибрирует в такт звуковым волнам.

Физика звука в видеопотоке 🔊 1:05

Принцип работы «визуального микрофона» основан на том, что звук — это вибрации воздуха. Когда эти звуковые волны ударяются о какой-либо объект, они заставляют его совершать микроскопические движения.

Для извлечения звука Мюллер и его коллега используют алгоритм, который анализирует края объектов в кадре. Суммируя изменения яркости на границах (якобы становящихся светлее или темнее), программа строит график смещения объекта во времени.

Ограничения частоты кадров ⏱️ 4:39

Главным препятствием для качественного воспроизведения звука является частота кадров (FPS). Человеческий слух воспринимает звуки в диапазоне от 20 до 20 000 Гц. Большинство потребительских камер снимают с частотой 30 кадров в секунду, что фатально для аудиозаписи.

Чтобы добиться хотя бы минимальной разборчивости звука, команда Veritasium использует высокоскоростную камеру, способную снимать до 1000 кадров в секунду.

Успешный эксперимент с фольгой 🎞️ 6:11

В ходе эксперимента с фольгой, помещенной на динамик, команда столкнулась с техническими сложностями: обработка видео в 1000 FPS требовала огромных вычислительных мощностей, поэтому видео пришлось обрезать.

После первичной обработки записи возникли опасения насчет подтверждения предвзятости (confirmation bias) — когда исследователь видит то, что ожидает увидеть. Однако при воспроизведении обработанного сигнала через колонки отчетливо прозвучала мелодия «Shave and a Haircut». Это стало доказательством того, что «визуальный микрофон» работает.

Безопасность и угрозы приватности 🔐 9:46

Мюллер отмечает, что этот «базовый» эксперимент — лишь верхушка айсберга. Более совершенное оборудование позволяет восстанавливать человеческую речь, даже если камера находится снаружи за звукоизолированным стеклом.

Более того, существует риск, связанный с клавиатурами. Каждая клавиша при нажатии издает уникальный звук из-за своего расположения, и исследования показывают, что аудиозаписи печати позволяют с точностью до 96% определить нажимаемые клавиши. В связи с этим Мюллер подчеркивает важность использования менеджеров паролей, таких как спонсор видео — LastPass, которые позволяют избегать ручного ввода данных и защищают пользователей от подобных методов слежки.

💬 Цитаты

«Мы не видим, как что-то сдвинулось на один пиксель. Мы видим, как один пиксель становится чуть темнее, а следующий — чуть светлее.»

Дерек Мюллер 1:43
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Демпфирование
Процесс подавления колебаний или уменьшения амплитуды механической системы.
Теорема Котельникова
Математическое утверждение, определяющее необходимую частоту дискретизации для точного восстановления непрерывного сигнала.
📊 Цифры
⚖️ Другая сторона
Наука Veritasium Дерек Мюллер визуальный микрофон обработка сигналов