Autoresearch Карпати: что это такое и как работает цикл из 700 экспериментов

Autoresearch Карпати — это узкий автономный цикл ML-экспериментов: агент меняет один файл, работает короткими прогонами и сохраняет только улучшения.

Autoresearch Карпати: ИИ-агент проводит 700 экспериментов

Проверено 3 мая 2026 года. Autoresearch Карпати — это открытый репозиторий Andrej Karpathy, где ИИ-агент сам крутит узкий цикл ML-экспериментов: меняет один тренировочный файл, запускает короткий прогон, смотрит на метрику и оставляет только улучшения. Если коротко, это не общий «агент для исследований», а воспроизводимый шаблон автономного перебора гипотез под одну измеримую задачу.

Именно так и стоит читать запрос Autoresearch Карпати. Здесь обычно ищут не широкий обзор AI-агентов, а ответ на два вопроса: что это за проект и как работает сам цикл Карпати. По публичным материалам Карпати и связанным репозиториям, в демонстрационном прогоне этот цикл за примерно два дня дошел до сотен автономных изменений, а затем дал переносимое ускорение на большем nanochat-бенчмарке.

Что такое Autoresearch Карпати

Autoresearch появился в начале марта 2026 года как минималистичный open-source репозиторий под лицензией MIT. В основе лежит упрощенный single-GPU контур из nanochat: не большая лабораторная платформа, не оркестратор на десятки сервисов и не универсальный агент под любые задачи, а маленькая среда, в которой агент может менять код, запускать обучение и сам решать, стал ли результат лучше.

Важная деталь: человек здесь не исчезает, а меняет роль. Вместо ручного перебора гипотез он задает рамку эксперимента через program.md: что можно менять, что трогать нельзя, какая метрика считается истинной и когда цикл стоит останавливать. Поэтому Autoresearch правильнее понимать как протокол автономного исследования, а не как еще один громкий демо-агент про все сразу.

Как работает цикл Карпати

Если разложить механику до простых деталей, у цикла Карпати три опоры:

  • train.py — единственный файл, который агенту разрешено менять.
  • prepare.py — фиксированный слой с данными и оценкой, который в repo помечен как read-only.
  • program.md — человеческая инструкция, где задаются цель, ограничения и правила отбора улучшений.

Дальше цикл очень строгий. Агент предлагает правку, коммитит ее, гоняет обучение около пяти минут, достает ключевую метрику val_bpb и сравнивает результат с предыдущей точкой. Если стало лучше, изменение остается на ветке. Если хуже или равнозначно, агент откатывается и идет к следующей гипотезе. В repo это буквально оформлено как бесконечный loop с логированием в results.tsv.

Именно эта жесткость и делает подход переносимым. The New Stack позже удачно упаковал его в три примитива: редактируемый актив, скалярная метрика и фиксированный бюджет времени. Без любого из трех цикл либо размывается, либо начинает оптимизировать шум.

Диаграмма Karpathy Loop с редактируемым файлом, метрикой и фиксированным временем на прогон
Упрощенная схема Karpathy Loop: один редактируемый файл, одна метрика и один фиксированный бюджет времени на прогон. Источник: The New Stack, март 2026 года.

Что именно показал публичный прогон

Главная причина, почему про Autoresearch вообще заговорили, в том, что Карпати не остановился на красивом README. В nanochat leaderboard есть материальная часть результата: запись autoresearch round 1 от 9 марта 2026 года опускает показатель time to GPT-2 с 2,02 до 1,80 часа. Это примерно 11% ускорения на более крупном speedrun после переноса найденных идей с малого proxy-контура.

По публичному посту Карпати, на который ссылаются README autoresearch и leaderboard nanochat, за примерно два дня цикл прошел через около 700 автономных изменений. Здесь важно не спутать попытки с открытиями. Число 700 означает не «700 новых идей, все полезные», а «700 проходов по циклу гипотеза - правка - запуск - метрика - keep/discard», где сохраняется только то, что реально улучшает результат.

Именно поэтому кейс оказался заметным. Агент работал не как чат-ассистент, который советует гиперпараметры в ответе, а как исполнитель полного исследовательского цикла внутри жестко ограниченной среды. Для точного интента Autoresearch Карпати это и есть главный факт: проект показывает не общую «умность агента», а конкретную организацию повторяемых экспериментов.

График публичного прогона Autoresearch с сотнями автономных изменений и улучшением метрики
Публичный прогон Autoresearch: после примерно двух дней автономного цикла найденные улучшения были перенесены в nanochat speedrun. Источник: публичные материалы Andrej Karpathy и leaderboard nanochat.

Почему это не просто AutoML

Снаружи Autoresearch легко перепутать с AutoML или neural architecture search. Но в классическом AutoML обычно перебирают заранее заданные параметры или архитектурные варианты. Здесь рамка шире: агенту разрешено править сам тренировочный код в train.py, а не только крутить ползунки в готовой сетке.

При этом Autoresearch не стоит раздувать и в обратную сторону, будто перед нами уже широкая платформа общих AI-агентов. Это case/explainer page, а не cluster owner. Если нужен общий контекст про классы агентных систем, память, инструменты и orchestration, у Toolarium для этого есть отдельный материал про AI-агентов как класс. Страница про Autoresearch решает более узкую задачу: объясняет, как устроен один конкретный автономный цикл Карпати.

Самый сильный элемент здесь даже не код, а документ program.md. Человек пишет не отдельные эксперименты, а правила для машины, которая будет ставить их сериями. Поэтому Autoresearch полезно читать как сдвиг от «я сам запускаю каждую проверку» к «я проектирую протокол, по которому агент сам делает рутинную исследовательскую работу».

Где такой цикл полезен, а где ломается

Подход работает там, где одновременно соблюдаются три условия: есть один редактируемый объект, есть дешевая и однозначная метрика, и полный прогон можно уместить в короткий повторяемый слот времени. Поэтому идея естественно ложится на настройку training loop, воспроизводимые eval-контуры и некоторые implementation-first задачи вроде оптимизации компонентов RAG-пайплайна, если там заранее определены quality и cost-метрики.

Ломается цикл там, где «лучше» нельзя честно свести к одному числу. Дизайн, редактура, UX, стратегия продукта и большая часть open-ended исследования плохо живут в схеме с жестким scalar objective. Даже там, где метрика есть, остается риск Goodhart: агент научится оптимизировать proxy, а не реальный смысл задачи. Поэтому Autoresearch не отменяет человеческую проверку. Он просто сдвигает человека с роли оператора на роль автора протокола и финального ревьюера.

Еще один практический предел задает сама среда. Repo Карпати специально маленький, рассчитанный на single-GPU сценарий и упрощенную версию nanochat. Это делает идею наглядной, но не превращает ее автоматически в готовую фабрику исследований для любой команды. Между demo-loop и production research stack по-прежнему лежат вычисления, воспроизводимость, контроль за переобучением и нормальная проверка переносимости результата.

Вывод

Autoresearch Карпати — это не broad page про AI-агентов и не новая версия старого AutoML. Это узкий и очень показательный кейс: агенту дают один редактируемый файл, одну метрику и фиксированный бюджет времени, после чего он сам проходит сотни циклов проверки гипотез. Число «700 экспериментов» важно не как маркетинговый рекорд, а как демонстрация того, что исследовательский loop можно сделать автономным, если задача достаточно жестко сформулирована.

Если совсем коротко, ответ на exact intent такой: Autoresearch — это минимальный автономный ML-цикл Карпати, где человек проектирует правила, а агент берет на себя рутинный перебор и отбор улучшений. Именно поэтому кейс интересен разработчикам и исследователям, а не только любителям громких новостей про ИИ.

Источники и дата проверки

Факты и формулировки в статье проверены 3 мая 2026 года по следующим источникам:

Читайте также

Telegram-канал @toolarium