Разбираем статью Attention is all you need и рассматриваем важные части кода механизма внимания, который является основной составляющей таких моделей как BERT, RoBERTa и RuBERT. Механизм внимания с некоторыми модификациями можно применять в регрессии для установления сложных взаимосвязей между чертами(features) датасета. Можно применять этот механизм для изображений. Механизм внимания позволяет определять важные элементы тензора. Стоит обратить внимание на HuggingFace, компания которая активно занимается проблема понимания естественного языка.На данном сайте можно найти много моделей, используя хаб, который они разработали. Также существует возможность развертывания модели в облаке и тренировке. Механизм внимания использует embedding слой, который преобразует идентификаторы слов в тензоры. Обратное распространения сложнее чем в стандартных моделях распознавания изображений или звука.