arXiv вводит годовой бан за непроверенный AI-slop в препринтах

arXiv будет банить авторов за непроверенный AI-slop: выдуманные ссылки, оставленные комментарии LLM и другие признаки халтуры.

Страница arXiv с исследованием о галлюцинированных ссылках и AI-slop в научных работах

По состоянию на 27 мая 2026 года arXiv бан за AI-slop стал одним из самых показательных сигналов для научной публикации: платформа не запрещает LLM как инструмент, но вводит жёсткое последствие за непроверенную генерацию в препринтах. Если в работе находят явные следы того, что авторы не проверили вывод модели, например выдуманные ссылки или оставленные комментарии чат-бота, авторов могут отстранить от arXiv на год.

Главная деталь здесь не в слове «ИИ», а в слове «ответственность». arXiv фактически напоминает авторам: подпись под препринтом означает ответственность за текст, ссылки, выводы и ошибки независимо от того, был ли рядом ChatGPT, Claude или другой инструмент. Для научной инфраструктуры это важный поворот. Вместо попытки угадать, кто написал абзац, правила бьют по проверяемым признакам халтуры.

В Toolarium мы уже писали о том, как Nature отозвал исследование о ChatGPT в образовании, как ИИ-агенты заходят в подготовку исследований и рецензирование, и почему LLM могут уверенно ошибаться даже в аккуратном тоне. История с arXiv продолжает ту же линию: проблема уже не в том, что модели иногда ошибаются. Проблема в том, что эти ошибки начинают попадать в каналы научного доверия.

Что именно меняет arXiv

По данным TechCrunch, о новом правиле публично написал Томас Диттерих, председатель компьютерной секции arXiv. Его формулировка сводится к простому стандарту: если в заявке есть неопровержимое свидетельство, что авторы не проверили результат LLM-генерации, arXiv больше не может доверять всей работе.

К таким свидетельствам относятся галлюцинированные ссылки и служебные реплики модели, которые случайно остались в рукописи. В медиа уже приводили типичные примеры: «вот краткое резюме», «хотите внести изменения», «заполните реальные числа из эксперимента». Это не тонкая детекция стиля и не спор о том, похож ли текст на машинный. Это следы, которые показывают, что рукопись не прошла минимальную авторскую проверку.

Элемент правила Что это означает Почему важно
Триггер Неопровержимые признаки непроверенной LLM-генерации arXiv не пытается банить «любой ИИ-текст», а смотрит на проверяемые ошибки
Примеры Выдуманные ссылки, комментарии модели, ошибки, плагиат, вводящий в заблуждение текст Такие следы ломают доверие не к одному абзацу, а ко всей работе
Санкция Годовой бан на arXiv Платформа превращает небрежную генерацию из «плохого тона» в риск для автора
Возврат Последующие работы должны сначала пройти рецензируемую площадку с репутацией После нарушения автору придётся возвращать доверие через внешний рецензируемый канал
Процедура Модератор должен отметить проблему, руководитель секции подтверждает доказательства, автор может подать апелляцию Это не автоматический бан по детектору AI-текста

Для авторов это практическое правило: LLM можно использовать для черновика, редактуры, перевода, поиска формулировок или кода, но нельзя переносить результат в препринт без проверки. Особенно опасны ссылки. У научной статьи ссылка не украшение, а часть доказательной цепочки: по ней читатель проверяет, на чём стоит аргумент.

Почему речь не о запрете ИИ

Заголовок «arXiv запретил ИИ» был бы неверным. В опубликованных пересказах правила смысл другой: авторы отвечают за содержимое работы независимо от способа генерации. Если модель помогла переписать абзац, автор всё равно отвечает за смысл. Если модель предложила библиографию, автор обязан проверить, существуют ли эти работы и действительно ли они подтверждают тезис.

Этот подход намного полезнее AI-детекторов. Детектор может ошибиться на хорошем человеческом тексте, пропустить аккуратно переписанную машинную болтовню и почти ничего не сказать о научной корректности. Галлюцинированная ссылка проверяется проще: работа либо существует, либо нет; DOI либо ведёт туда, куда заявлено, либо нет; цитируемый результат либо есть в источнике, либо автор его придумал.

Тем самым arXiv выбирает не спор о происхождении текста, а спор об ответственности за результат. Для исследователей это неприятнее, но честнее. Нельзя списать выдуманные цитирования на модель, аспиранта, соавтора или «черновую версию», если препринт уже подписан и отправлен.

Первая страница препринта LLM hallucinations in the wild о несуществующих цитированиях
Препринт LLM hallucinations in the wild оценил масштаб несуществующих ссылок в научных работах. Источник: arXiv, arXiv:2605.07723.

Масштаб проблемы уже измеряют миллионами работ

Контекст для решения arXiv даёт свежий препринт LLM hallucinations in the wild: Large-scale evidence from non-existent citations, поданный 8 мая 2026 года. Авторы проверили 111 млн ссылок в 2,5 млн работах из arXiv, bioRxiv, SSRN и PubMed Central. Их консервативная оценка: только в материалах 2025 года было 146 932 галлюцинированных цитирования.

Nature отдельно подчёркивала, что фейковые цитирования особенно заметны на препринт-серверах, где публикация быстрее, а предварительная проверка слабее, чем в журналах. Это не значит, что препринты плохи сами по себе. arXiv десятилетиями работает как быстрый слой распространения идей в компьютерных науках, математике и физике. Но именно скорость делает систему уязвимой, когда авторы массово отправляют тексты, которые не читали как собственную научную работу.

У галлюцинированных ссылок есть ещё одна неприятная особенность. Они не просто портят список литературы. Они распределяют научный кредит туда, где его не было, создают ложные следы влияния, усложняют проверку обзоров и попадают в обучающие данные будущих моделей. Если такой мусор закрепится в корпусах, следующие системы будут ещё увереннее повторять несуществующие источники.

Что это значит для исследователей

Минимальная практика теперь должна быть такой же строгой, как проверка таблиц и формул. Все ссылки из LLM-черновика нужно сверять по названию, авторам, году, DOI или arXiv ID. Нельзя оставлять «похожую» ссылку, если она ведёт к другой работе. Нельзя вставлять цитату без страницы, раздела или явного фрагмента источника. Нельзя доверять модели, когда она уверенно вспоминает статью с правдоподобным названием.

Соавторам тоже придётся менять привычки. В больших группах часто считается, что каждый отвечает за свой кусок. Новое правило arXiv бьёт по всей подписанной работе. Если один участник вставил галлюцинированную библиографию, риск получают все авторы. Значит, перед отправкой нужен общий чек: ссылки, подписи к рисункам, таблицы, утверждения о результатах, acknowledgments и даже служебные комментарии в тексте.

Для лабораторий это повод завести нормальную проверку перед отправкой. Сверка BibTeX по Crossref, Semantic Scholar, OpenAlex, arXiv API или внутренней базе должна стать такой же обычной, как линтер для кода. LLM может помогать искать несостыковки, но финальный вердикт должен опираться на источники, а не на ещё одну генерацию.

Что это значит для платформ и AI-инструментов

Решение arXiv показывает направление для других платформ. Не обязательно строить идеальный детектор AI-текста, чтобы бороться с AI-slop. Можно наказывать за наблюдаемые признаки: несуществующие ссылки, мусорные изображения, плагиат, оставленные промпты, несоответствие данных и выводов. Такой подход проще объяснить авторам и легче защищать при апелляции.

Для разработчиков научных AI-инструментов это тоже сигнал. Продукт, который помогает писать статьи, должен уметь показывать происхождение ссылок, хранить проверочные следы и явно помечать непроверенные утверждения. Если инструмент генерирует список литературы без проверки, он продаёт удобство там, где пользователю нужен контроль.

Университетам и журналам придётся договориться о похожем языке. Использование LLM не должно автоматически считаться нарушением. Но отправка непроверенного LLM-вывода в научный оборот должна считаться нарушением авторской дисциплины. Это разные вещи, и смешивать их вредно: запретительная риторика толкает авторов скрывать инструменты, а правило ответственности заставляет проверять результат.

Что нельзя преувеличивать

Новый подход arXiv не решает всю проблему AI-slop. Очевидные следы вроде выдуманных DOI и реплик чат-бота можно поймать. Гораздо сложнее найти правдоподобный, но неверный пересказ реальной статьи, слабую методологию, сгенерированную интерпретацию данных или тонкую подмену вывода. Здесь всё равно нужны рецензенты, редакторы и инструменты проверки.

Нельзя утверждать и то, что бан будет срабатывать автоматически при любой ошибке. По сообщениям TechCrunch, речь идёт о подтверждении модераторами и руководителем секции, а авторы смогут апеллировать. Это важно: у arXiv огромный поток материалов, и слишком грубая автоматизация быстро ударила бы по добросовестным авторам.

Но даже в таком виде правило меняет норму. Раньше фейковая ссылка могла выглядеть как досадная небрежность. Теперь она становится доказательством того, что авторы, возможно, не контролировали собственную работу. Для научной публикации это уже не косметическая ошибка.

Главное

arXiv бан за AI-slop важен не как наказание ради наказания. Он закрепляет понятный принцип: использовать LLM можно, перекладывать на неё авторскую ответственность нельзя. Если препринт содержит следы непроверенной генерации, платформа готова считать это нарушением доверия.

Для читателей и исследователей это хороший ориентир. Научное письмо, скорее всего, всё чаще будет идти с участием ИИ. Но доверие к статье всё равно строится на старой скучной работе: проверить ссылки, проверить числа, прочитать собственный текст и не подписывать то, за что ты не готов отвечать.

Читайте также

Источники и проверка фактов

Telegram-канал @toolarium