OpenAI o1 в Harvard-исследовании обошёл врачей на ER-triage

OpenAI o1 в Harvard-исследовании показал лучший результат на ER-triage. Разбираем бенчмарк clinical reasoning, цифры и почему это всё ещё не «замена врача».

OpenAI o1 в Harvard-исследовании по ER-triage: первая страница статьи Science

По состоянию на 13 мая 2026 года история про то, что OpenAI o1 «обыграл врачей в приёмном покое», всё ещё требует расшифровки. Публикация в Science действительно показывает сильный результат модели на раннем этапе ER-triage. Но речь шла не о полноценной работе дежурной смены, а о слепо оценённых вторых мнениях по текстовым данным электронных медкарт.

В прикладной части исследования авторы сравнивали именно o1, а не старый o1-preview, вместе с GPT-4o и двумя сертифицированными врачами внутренней медицины. Затем их дифференциальные диагнозы передали двум другим врачам на слепую оценку. На первом этапе triage у o1 доля exact or very close diagnosis составила 65,8%. У двух врачей-бейзлайнов — 54,4% и 48,1%.

Есть и ещё одна важная поправка к ранним пересказам. В новостях часто мелькало число 76, но в methods опубликованной версии Science указано другое: команда случайно выбрала 80 кейсов за двухнедельный период, один случай не удалось восстановить из EHR, итоговый анализ включал 79 кейсов. Для медицинской темы это не придирка, а базовая точность.

Что именно сравнили авторы

Исследование в Boston не подсовывало модели вылизанные клинические задачи. Авторы отдельно подчёркивают, что не препроцессили данные. На этапе triage модель и врачи получали только то, что реально есть у медсестры в начале маршрута: возраст, пол, chief complaint, предположительный диагноз, triage-note, уровень срочности, способ поступления и начальные vitals. Дальше шли ещё два этапа: первая оценка врачом в ER и затем admission на medical floor или в ICU.

Важна и ещё одна деталь, которую ранние заголовки часто смазывали. Человеческий ориентир здесь — не «все emergency-room doctors вообще» и не полноценная работа у койки. Это два сертифицированных врача внутренней медицины, которые по тем же текстовым срезам EHR писали свою дифференциальную версию, ограниченную пятью диагнозами. То есть статья меряет качество текстового клинического рассуждения на фиксированных этапах, а не всю работу врача у койки.

Диагностический этап o1 Врач 1 Врач 2
Initial ER triage 65,8% 54,4% 48,1%
Первый ER physician encounter 69,6% 60,8% 50,6%
Admission to hospital or ICU 79,7% 75,9% 68,4%
График из научной статьи: o1, GPT-4o и два врача на трёх диагностических этапах в реальных ER-кейсах
Figure 7 из исследования: на трёх реальных этапах ER-triage o1 чаще давал точный или очень близкий диагноз, чем два врача-бейзлайна. Самый заметный разрыв — на initial triage. Источник: Brodeur et al., Science, 30 апреля 2026 года.

Статья также пишет, что на каждом этапе o1 был не хуже или лучше GPT-4o. Отдельный интересный сигнал: слепая оценка в целом сработала. Оценивавшие врачи в большинстве случаев вообще не могли уверенно отличить дифференциал, написанный моделью, от человеческого.

Почему эта работа шире, чем новость про triage

Именно здесь и нужно аккуратно расширить существующий материал. AAAS и авторы статьи описывают эту работу не как один красивый ER-кейс, а как одну из крупнейших сравнительных публикаций про clinical reasoning. В официальной рамке звучит более широкий тезис: модель matched or exceeded human performance across six experiments.

Тriage попало в заголовки не случайно. Это самый наглядный фрагмент работы: минимум данных, максимум срочности и заметный разрыв между участниками. Но сама статья шире. Кроме ER-среза там есть differential diagnosis generation, probabilistic reasoning и management reasoning. Если свести весь сюжет только к сортировке пациентов на входе, теряется главное: исследование проверяет не один удачный тест, а более широкий набор задач врачебного рассуждения.

Почему разрыв максимален именно на triage

Главный результат работы не в том, что модель «знает медицину лучше всех». Сильнее всего она выглядит там, где данных мало, времени мало, а решать всё равно надо сразу. Именно это авторы называют low information settings. Поэтому история так хорошо ложится на reasoning-модель вроде o1, а не на образ обычного чат-бота.

На языке клиники смысл такой: на первом этапе triage задача не в том, чтобы сразу поставить окончательный диагноз, а в том, чтобы не пропустить опасное направление и быстро собрать рабочий список версий. По мере появления новых данных лучше становились все: люди, GPT-4o и o1. Но самый широкий зазор был в начале маршрута, когда карта пациента ещё шумная, фрагментарная и местами кривая.

Это рифмуется с нашим разбором моделей рассуждения вроде o3 и DeepSeek-R1. Последние месяцы рынок показывает один и тот же сдвиг: reasoning-модели пытаются забирать не только олимпиадные задачи, но и домены, где нужно удерживать несколько гипотез при нехватке данных. Медицина — один из самых жёстких тестов для такой претензии.

Почему это всё ещё не «AI-доктор»

Именно здесь начинается часть, которую нельзя срезать ради громкого H1. Авторы статьи прямо пишут, что их ER-эксперимент — проверка концепции для второго мнения на заранее заданных этапах. Они отдельно оговаривают: реальные решения в emergency department часто крутятся вокруг triage, disposition и immediate management, а не только вокруг точности дифференциального диагноза.

Ограничения у этой работы жёсткие. Исследование смотрит только на text-based reasoning. В реальном приёмном покое врач считывает не только запись в EHR, но и внешний вид пациента, дыхание, темп речи, боль, тревожность и реакцию семьи. Кейсы взяты из одного бостонского центра и из поднабора пациентов, которых потом госпитализировали в general medicine service или MICU. Статья не отвечает на вопрос ответственности, если модель уверенно ошиблась. И даже при хорошем top diagnosis модель может подтолкнуть к лишним тестам или неверной тактике.

Это созвучно и нашему разбору LLM в психотических диалогах: сильный результат на одной узкой задаче сам по себе ничего не говорит о безопасном поведении в чувствительном домене. В медицине дистанция между «хорошо ответил» и «можно внедрять» особенно дорогая.

Независимые реакции после выхода статьи подчёркивают ту же границу. Science Media Centre отдельно напомнил: работа меряет именно слепо оцениваемую генерацию дифференциального диагноза как второго мнения, а не управление пациентом в реальном времени. Там же прозвучала и более техническая оговорка: ретроспективный дизайн всё равно не снимает вопрос prospective validation и не позволяет окончательно закрыть дискуссию о contamination или data leakage. Через несколько дней Adam Rodman в разговоре с Harvard Gazette держал ту же линию: у потребительских чат-ботов нет права трактовать такие результаты как зелёный свет для высокорисковых медицинских советов.

Как читать это рядом с JAMA

У новости есть ещё один полезный контекст. За две с половиной недели до этой публикации, 13 апреля 2026 года, JAMA Network Open выпустил большой тест 21 frontier-модели на 29 клинических виньетках. Там картина была менее праздничной: reasoning-optimized модели действительно выглядели лучше, но differential diagnosis оставался самым слабым этапом. В строгой метрике полного совпадения доля провалов на этом шаге у всех моделей превышала 0,80.

На первый взгляд это противоречие. На деле — нет. JAMA тестировал готовые модели на стандартизированных клинических виньетках, а Harvard/Beth Israel смотрели на вторые мнения по реальным, сырым EHR-срезам и оценивали качество differential через physician Bond score. Вместе эти две работы говорят не «всё решено» и не «ничего не работает». Они показывают более полезную картину: frontier-модели быстро усиливаются именно в clinical reasoning, но путь от сильной статьи к системе, готовой к внедрению, всё ещё длинный.

И ещё одно уточнение. ER-triage — только самая шумная часть этой работы. В других экспериментах авторы использовали уже o1-preview и тоже получали сильные результаты. Например, в пяти management reasoning cases медианный результат у модели составил 86%, тогда как у врачей с обычными ресурсами — 34%. Это не прямое повторение бостонского ER-среза, но хороший показатель того, почему авторы говорят о более широком клиническом рассуждении, а не об одном удачном hospital test.

График из научной статьи: o1-preview против GPT-4 и врачей в management reasoning cases
В другом эксперименте той же статьи, уже с o1-preview, модель набрала медианные 86% на management reasoning cases против 34% у врачей с обычными ресурсами. Это не тот же ER-срез, но важный сигнал о ширине эффекта. Источник: Brodeur et al., Science, 30 апреля 2026 года.

Что это меняет для OpenAI и для клиник

Если убрать шум, статья даёт довольно конкретный вывод. Наиболее правдоподобный сценарий на ближайшее время для таких моделей — не автономный «AI-врач», а слой второго мнения в режимах дефицита данных: triage, первичный разбор жалобы, проверка того, что команда не пропустила редкую, но опасную версию, и подсветка нетипичных связок в истории болезни.

Для OpenAI это сильный репутационный сигнал: o1 оказывается не просто reasoning-моделью для математики и кода, а претендентом на роль движка поддержки клинических решений. Это особенно заметно на фоне более широкого биомедицинского разворота компании, который мы уже разбирали в материале про GPT-Rosalind и научный стек OpenAI.

Для больниц и регуляторов вывод другой и куда скучнее: если такие системы правда начинают выигрывать на раннем triage-срезе, следующий шаг — не маркетинг, а prospective trials, аудит логов, human-in-the-loop и очень жёсткая разметка границ ответственности.

Поэтому самый честный вывод у этой истории звучит скучнее новостной ленты. OpenAI o1 в Harvard-исследовании не «заменил врача». Он показал, что reasoning-модель уже может быть сильнее человека на части текстового triage-рассуждения и на нескольких соседних задачах clinical reasoning. Это много. Но до автономной практики отсюда всё ещё очень далеко.

Читайте также

Источники и дата проверки

Telegram-канал @toolarium