Новая архитектура Transformer: адаптивные циклы и банки памяти вместо глубины
Немецкие исследователи предложили Transformer с адаптивными циклами и банками памяти. Модель на 12 слоёв обходит классическую 36-слойную на математических бенчмарках на 6,4%.