Система DALL-E основана на архитектуре Transformer, которая была первоначально разработана для обработки естественного языка. В этом случае Transformer обучен работать с изображениями, а не словами. Процесс генерации изображения начинается с текста — вашего запроса. Текст разбивается на отдельные слова, которые затем преобразуются в набор векторов (математические представления). Эти векторы передаются через слои Transformer, где происходит анализ отношений между словами и построение ‘семантического’ представления всей фразы. В итоге, система генерирует последовательность векторов, каждая пара которых соответствует одному пикселю изображения. На основе этих векторов строятся все детали будущего изображения: линии, формы, цвета.
Система DALL-E основана на архитектуре Transformer, которая была первоначально разработана для обработки естественного языка. В этом случае Transformer обучен работать с изображениями, а не словами. Процесс генерации изображения начинается с текста — вашего запроса. Текст разбивается на отдельные слова, которые затем преобразуются в набор векторов (математические представления). Эти векторы передаются через слои Transformer, где происходит анализ отношений между словами и построение ‘семантического’ представления всей фразы. В итоге, система генерирует последовательность векторов, каждая пара которых соответствует одному пикселю изображения. На основе этих векторов строятся все детали будущего изображения: линии, формы, цвета.