# Дерек Мюллер о визуальном микрофоне: как восстановить звук по видео

Источник: https://www.youtube.com/watch?v=eUzB0L0mSCI
Канал: Veritasium
Опубликовано: 01.03.2019

---

## Можно ли услышать изображения? Исследование визуального микрофона 📸
[[JUMP:0:00]]

Дерек Мюллер, автор популярного научного канала Veritasium, задается необычным вопросом: можно ли восстановить звук, используя только видеозапись объекта, который этот звук издавал? Хотя на первый взгляд кажется, что достаточно просто отслеживать колебания предметов в кадре, на практике этот процесс требует сложной обработки сигналов и высокоскоростной съемки. В данном эксперименте Мюллер пытается превратить обычную видеокамеру в своего рода «визуальный микрофон», чтобы доказать, что физический мир буквально вибрирует в такт звуковым волнам.

### Физика звука в видеопотоке 🔊
[[JUMP:1:05]]

Принцип работы «визуального микрофона» основан на том, что звук — это вибрации воздуха. Когда эти звуковые волны ударяются о какой-либо объект, они заставляют его совершать микроскопические движения.

* **Масштаб проблемы:** Звуковые вибрации невероятно малы, они сдвигают предметы всего на один микрометр. Даже при сильном приближении это перемещение составляет лишь сотые или тысячные доли пикселя.
* **Визуальные изменения:** Камера не «видит» движение объекта как таковое. Вместо этого фиксируется изменение яркости пикселей: одна область становится чуть светлее, другая — чуть темнее.
* **Идеальные объекты:** Лучше всего для таких экспериментов подходят легкие предметы с высокой степенью демпфирования (поглощения энергии), например, обычная пачка чипсов или смятый комок фольги.

Для извлечения звука Мюллер и его коллега используют алгоритм, который анализирует края объектов в кадре. Суммируя изменения яркости на границах (якобы становящихся светлее или темнее), программа строит график смещения объекта во времени.

### Ограничения частоты кадров ⏱️
[[JUMP:4:39]]

Главным препятствием для качественного воспроизведения звука является частота кадров (FPS). Человеческий слух воспринимает звуки в диапазоне от 20 до 20 000 Гц. Большинство потребительских камер снимают с частотой 30 кадров в секунду, что фатально для аудиозаписи.

* **Теорема Котельникова:** Чтобы зафиксировать частоту звука, нужно делать выборки как минимум в два раза чаще, чем сама частота.
* **Проблема «мертвой точки»:** При съемке 30-герцового звука 30-кадровой камерой объект всегда будет попадать в кадр в одной и той же фазе колебания. В результате будет казаться, что предмет неподвижен.

Чтобы добиться хотя бы минимальной разборчивости звука, команда Veritasium использует высокоскоростную камеру, способную снимать до 1000 кадров в секунду.

### Успешный эксперимент с фольгой 🎞️
[[JUMP:6:11]]

В ходе эксперимента с фольгой, помещенной на динамик, команда столкнулась с техническими сложностями: обработка видео в 1000 FPS требовала огромных вычислительных мощностей, поэтому видео пришлось обрезать.

После первичной обработки записи возникли опасения насчет подтверждения предвзятости (confirmation bias) — когда исследователь видит то, что ожидает увидеть. Однако при воспроизведении обработанного сигнала через колонки отчетливо прозвучала мелодия «Shave and a Haircut». Это стало доказательством того, что «визуальный микрофон» работает.

### Безопасность и угрозы приватности 🔐
[[JUMP:9:46]]

Мюллер отмечает, что этот «базовый» эксперимент — лишь верхушка айсберга. Более совершенное оборудование позволяет восстанавливать человеческую речь, даже если камера находится снаружи за звукоизолированным стеклом.

Более того, существует риск, связанный с клавиатурами. Каждая клавиша при нажатии издает уникальный звук из-за своего расположения, и исследования показывают, что аудиозаписи печати позволяют с точностью до 96% определить нажимаемые клавиши. В связи с этим Мюллер подчеркивает важность использования менеджеров паролей, таких как спонсор видео — LastPass, которые позволяют избегать ручного ввода данных и защищают пользователей от подобных методов слежки.