06 января 2021

Нейросеть научили превращать текст в картинки. Она показала авокадо-кресло и редиску, гуляющую с собакой

DALL-E — так называется нейросеть, способная создавать изображения из текстовых описаний. Например: «грустная капибара» или «кресло в форме авокадо». В ответ на подобный нетривиальный запрос сеть генерирует подходящие картинки. Американские разработчики из OpenAI использовали алгоритм обработки языка GPT-3 — ранее его научили создавать тексты песен, писать статьи и отвечать на философские вопросы.

Нейросеть учитывает до 12 миллиардов параметров: в них входят цвет, высота, расположение и прочее. Интересно, что при одном и том же запросе нейросеть выдает разные результаты. В будущем разработчики планируют проанализировать, как модели, подобные DALL-E, связаны с социальными проблемами: например, такими, как экономическое влияние на определенные профессии.

Вот несколько лучших запросов, которые смогла сгенерировать DALL-E:

«Эмодзи пингвина в синей шляпе, красных перчатках, зеленой рубашке и желтых штанах»

«Кресло в форме авокадо»

«Иллюстрация маленькой редиски дайкон в балетной пачке, выгуливающей собаку»

«Зеленые часы в форме Пентагона»

«Крупный план капибары, сидящей в поле»

«Улитка из арфы. Улитка с текстурой арфы»

Комментарии