Ziming Liu: как сделать нейросети прозрачными через «биологический» дизайн

Будущее интерпретируемости AI: как сделать «черные ящики» прозрачными с помощью биологии 🧬 0:00

Исследователь Цзимин Лю (Ziming Liu) из MIT представил инновационный метод, позволяющий сделать нейронные сети более интерпретируемыми через внедрение модульности на этапе обучения. В основе работы под названием «Seeing is Believing: Brain-Inspired Modular Training for Mechanistic Interpretability» лежит простая, но мощная аналогия с человеческим мозгом: биологические системы стремятся к модульности и локальности связей для повышения энергоэффективности.

🧠 Уроки биологии: путь от топологии к геометрии 6:37

Традиционные нейронные сети рассматриваются как топологические объекты, где важен лишь факт соединения между узлами, а не их физическое расположение. Цзимин Лю утверждает, что переход к геометрическому пространству позволяет добавить понятие расстояния и ограничений.

Локальность как ключ к модульности: В 3D-пространстве мозга длинные связи требуют больших энергетических затрат, поэтому мозг предпочитает локальные соединения.
Новый подход к функции потерь: Авторы внедрили в процесс обучения дополнительный штраф за «длинные» связи. Это заставляет нейросеть приоритизировать наиболее эффективные, короткие соединения, естественным образом формируя модульную структуру.
Регуляризация L1: Метод опирается на разреживание сети (L1-регуляризация), где штраф за вес соединения пропорционален его длине.

🔄 Механизм «перестановки» нейронов 18:35

В процессе исследований Цзимин Лю столкнулся с проблемой «двойной спирали» — запутанной структурой связей, напоминающей ДНК. Для борьбы с этим ведущий автор работы Макс Тегмарк предложил метод перестановки (swapping) нейронов.

Как это работает: Периодически в процессе обучения алгоритм сравнивает позиции нейронов. Если обмен местами двух нейронов снижает общую «длину» связей при сохранении точности предсказаний, перестановка закрепляется.
Зачем это нужно: Это помогает сети не «застревать» в плохих локальных минимумах и делает итоговые графы более эстетичными и понятными для анализа.

📊 От символьных формул до голосования нейронов 43:59

Эксперименты показали, что обученные таким образом сети демонстрируют удивительную четкость структуры при решении задач.

Символьная регрессия: Сеть, обученная на двух функциях, каждая из которых зависит лишь от части входных данных, «распадается» на две независимые ветви. Важные веса становятся толстыми и отчетливыми, а бесполезные — стремятся к нулю.
Эффективность активаций: Цзимин Лю отмечает «неразумную эффективность» плавных функций активации, таких как SiLU или SeLU, которые позволяют сети находить решения словно математически «хитрыми» способами.
Голосование модулей: При решении задачи модульного сложения сеть автоматически создает три параллельных модуля. Лю сравнивает это с кодами коррекции ошибок: каждый модуль — это «несовершенный алгоритм», но их совместная агрегация (голосование) позволяет достичь идеальной точности.

🚀 Масштабируемость и будущее ИИ-безопасности 1:42:58

Исследователь подчеркивает, что данная работа — лишь первый шаг. В планах команды применение этого метода к большим языковым моделям (LLM) и научным задачам, где интерпретируемость критически важна.

Экономия вычислений: Использование разреженных, модульных сетей может значительно снизить затраты на хранение и инференс, позволяя запускать сложные модели на более легком «железе».
Сотрудничество: Цзимин Лю видит в проблеме экзистенциального риска ИИ общую угрозу для всего человечества, что, по его мнению, должно способствовать научному сотрудничеству между США и Китаем, а не их противостоянию.