Ziming Liu: как сделать нейросети прозрачными через «биологический» дизайн

The Cognitive Revolution 1,7 тыс. 1 ч 52 мин 2 мин 27.06.2023
Главное

Будущее интерпретируемости AI: как сделать «черные ящики» прозрачными с помощью биологии 🧬 0:00

Исследователь Цзимин Лю (Ziming Liu) из MIT представил инновационный метод, позволяющий сделать нейронные сети более интерпретируемыми через внедрение модульности на этапе обучения. В основе работы под названием «Seeing is Believing: Brain-Inspired Modular Training for Mechanistic Interpretability» лежит простая, но мощная аналогия с человеческим мозгом: биологические системы стремятся к модульности и локальности связей для повышения энергоэффективности.

🧠 Уроки биологии: путь от топологии к геометрии 6:37

Традиционные нейронные сети рассматриваются как топологические объекты, где важен лишь факт соединения между узлами, а не их физическое расположение. Цзимин Лю утверждает, что переход к геометрическому пространству позволяет добавить понятие расстояния и ограничений.

🔄 Механизм «перестановки» нейронов 18:35

В процессе исследований Цзимин Лю столкнулся с проблемой «двойной спирали» — запутанной структурой связей, напоминающей ДНК. Для борьбы с этим ведущий автор работы Макс Тегмарк предложил метод перестановки (swapping) нейронов.

📊 От символьных формул до голосования нейронов 43:59

Эксперименты показали, что обученные таким образом сети демонстрируют удивительную четкость структуры при решении задач.

  1. Символьная регрессия: Сеть, обученная на двух функциях, каждая из которых зависит лишь от части входных данных, «распадается» на две независимые ветви. Важные веса становятся толстыми и отчетливыми, а бесполезные — стремятся к нулю.
  2. Эффективность активаций: Цзимин Лю отмечает «неразумную эффективность» плавных функций активации, таких как SiLU или SeLU, которые позволяют сети находить решения словно математически «хитрыми» способами.
  3. Голосование модулей: При решении задачи модульного сложения сеть автоматически создает три параллельных модуля. Лю сравнивает это с кодами коррекции ошибок: каждый модуль — это «несовершенный алгоритм», но их совместная агрегация (голосование) позволяет достичь идеальной точности.

🚀 Масштабируемость и будущее ИИ-безопасности 1:42:58

Исследователь подчеркивает, что данная работа — лишь первый шаг. В планах команды применение этого метода к большим языковым моделям (LLM) и научным задачам, где интерпретируемость критически важна.

💬 Цитаты

«Нейросети иногда умнее своих создателей.»

Цзимин Лю 54:20

«Понимание — это обычно необходимое условие для контроля.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Механистическая интерпретируемость
Область AI-безопасности, нацеленная на понимание того, как именно внутренние компоненты нейросети (нейроны, веса) выполняют вычисления.
Модульность
Свойство сети состоять из независимых частей, каждая из которых отвечает за конкретную подзадачу.
L1-регуляризация
Метод, штрафующий сеть за величину весов, что заставляет многие веса становиться равными нулю (разреживание).
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Ziming Liu MIT mechanistic interpretability AI safety