ОpenAI представила GPT-4 – последнюю разработку в линейке языковых моделей искусственного интеллекта. Компания описывает ее как более безопасную, креативную и полезную. Издание MC.today разбиралось, что такое GPT-4, почему эта модель II называют мультимодальной, чем она отличается от GPT-3.5, которые имеют ограничения и как получить к ней доступ уже сегодня.
Что такое GPT-4
GPT-4 – это новейшая модель II (искусственного интеллекта) от компании OpenAI, которая стала четвертой в линейке языковых моделей GPT и первой мультимодальной. Это означает, что она может обрабатывать не только текст, но и другие виды информации, например изображения.
Вот GPT-4, наша самая мощная и согласованная модель , – написал 14 марта в Twitter генеральный директор OpenAI Сэм Альтман. – С этого дня она доступна в нашем API (со списком ожидания) и в ChatGPT Plus».
Но, как оказалось, некоторые пользователи получили доступ к новой технологии гораздо раньше. Корпорация Microsoft подтвердила, что последние версии ее поисковика Bing тайно работали с GPT-4 еще до официального запуска модели.
Когда Microsoft запустила новый Bing, ходили слухи, что он использует GPT-4. Так что это сложно назвать сенсацией. Интересен здесь другой момент: корпорация не побоялась поставить на карту свою репутацию, а значит была полностью уверена в возможностях и перспективах нового детища OpenAI.
У отчете Технические характеристики GPT-4 модели не указаны явно. Некоторые СМИ поспешили процитировать слухи о том, что количество параметров увеличилось со 175 млрд до 100 трлн. Однако сам CEO OpenAI Сэм Альтман назвал их «полной чепухой».
«В обычном разговоре разница между GPT-3.5 и GPT-4 может быть едва уловимой. отмечает OpenAI в анонсе GPT-4 – Разница проявляется, когда сложность задачи достигает достаточного порога. GPT-4 более надежный, креативный и способный обрабатывать намного более тонкие инструкции, чем GPT-3.5».
Одной из самых интересных фишек GPT-4 есть способность понимать изображение. К примеру, если спросить его, что происходит на картинке выше, он ответит: «муж гладит одежду на гладильной доске, которая прикреплена к крыше автомобиля» .
История создания GPT-4
Модель GPT-4 не появилась на пустом месте. Это последнее поколение семейства GPT. Аббревиатура расшифровывается как Generative Pre-trained Transformer – предварительно обученный трансформер для создания текста.
Трансформер – это не название фантастического робота, а архитектура нейронной сети, разработанная в 2017 году исследователями Google. Именно изобретение Трансформера вывело разработку ІІ из состояния застоя.
Главная особенность этой архитектуры в ее гибкости, масштабируемости и способности к параллельной обработке данных. Инженеры с OpenAI первыми доказали, что Трансформер можно использовать для генерации текстов.
Их языковая модель GPT-1 легко превзошла всех своих предшественников в умении работать с большими объемами информации. В 2019 году ее сменила GPT-2 с объемом тренировочного датасета в 40 Гб и полутора миллиардов параметров. А еще через год появилась GPT-3 со 175 млрд параметров и увеличенным до 420 Гб объемом данных.
После дополнительного обучения GPT-3 с помощью обратной связи от тестеров языковой модели предоставили индекс GPT-3.5. В сочетании с удобным интерфейсом она стала тем самым ChatGPT, заслужившим титул важнейшей инновации XXI века от Билла Гейтса.
Для обучения GPT-4 инженеры OpenAI совместно с платформой облачных вычислений Microsoft Azure разработали с нуля специальный суперкомпьютер. Потребовалось 6 месяцев, чтобы с его помощью научить GPT-4 на еще большем наборе данных и настроить с учетом реального опыта взаимодействия с людьми, который дала эксплуатация ChatGPT.
Следует отметить, что ChatGPT не является версией языковой модели. И хотя его часто отождествляют с GPT-3.5, он выступает только способом взаимодействия с этой моделью. А теперь в версии Plus это способ взаимодействия с GPT-4.
Чем GPT-4 отличается от предшественников
Чтобы лучше понять разницу между привычным нам чат-ботом и его усовершенствованной версией, перечислим пять основных отличий.
GPT-4 может понимать изображение
Мультимодальность позволяет GPT-4 понимать более одного «модального» типа информации. Все предыдущие модели GPT могли обрабатывать только текст. В отличие от них GPT-4 способен анализировать изображения и понимать, что на них изображено.
В сочетании с возросшими логическими способностями это приводит к удивительным результатам. К примеру, GPT-4 не только понимает, что на изображении изображен огромный разъем для iPhone, но может объяснить почему это смешно! Ведь юмор долго считали недостижимой для ІІ вершиной.
Многообещающим выглядит также сотрудничество OpenAI с платформой Будьте My Eyes для незрячих людей. Приложение на основе GPT-4 позволит слепым и слабовидящим получить звуковое описание всего, что видит их телефон.
К примеру, если пользователь пришлет фотографию своего холодильника изнутри, виртуальный помощник сможет определить, что в нем находится. Кроме того, он может описать узор на платье, переложить этикетку, прочитать карточку и объяснить, как добраться нужного отдела в магазине.
GPT-4 сложнее сбить с толку
OpenAI проделала огромную работу, чтобы сделать GPT-4 более безопасным. В результате модель на 82% реже предшественницы отвечает на запросы о запрещенном контенте. Существенно изменились к лучшему ответы на деликатные и неоднозначные запросы.
Тем временем остается возможность того, что GPT-4 может сгенерировать вредоносный контент. Условно его можно разбить на 5 групп риска.
- Советы, которые могут привести к самовредительству.
- Преследование, унижение и ненависть.
- Материалы эротического характера.
- Информация, которая может быть полезна для планирования нападений или насилия.
- Инструкции по поиску незаконного содержания.
GPT-4 может помнить во время разговора больше текста
Большие языковые модели обучались на миллионах веб-страниц. Но когда вы пытаетесь ввести в ChatGPT страницу текста, может выясниться, что это слишком много. Аналогично ответ чата-бота часто прерывается после 4-5 абзаца.
Дело в том, что существует предел количества информации, которую языковая модель может «держать в уме». Кстати, подробнее об этом мы писали в статье об интеграции помощника GPT Google Docs.
Для старой версии ChatGPT этот предел составлял 4096 токенов. Это примерно соответствует 8 тыс. английским словам, но в разы меньше – при использовании других языков. К примеру, в английской фразе «What is your favorite animal» система выделяет 5 токенов. А в украинской фразе «Какое у тебя любимое животное» – 31 токен.
У GPT-4 проблема решена: максимальное количество токенов в запросе возросло до 32768. Это примерно 50 страниц текста. Вполне достаточно для содержательной беседы с II на любую тему.
GPT-4 имеет улучшенное многоязычие
Первоначально ответы ChatGPT на английском были заметно лучше аналогичных другим языкам. Поэтому многие пользователи были вынуждены делать двойную работу: сначала переводить запрос на английский, а затем переводить ответ с английского.
GPT-4 выучил языки и сделал шаг вперед. Теперь ответы на итальянском, украинском, корейском и еще 26 языках почти такие же корректные, как и на английском.
GPT-4 может изменять свое поведение по требованию
Разработчики внедрили в GPT-4 расширенный инструментарий управляемости. Он позволяет передавать через API системные сообщения, которые изменяют стиль работы ИИ, задают тон его ответов и устанавливают определенные сценарии взаимодействия с человеком.
GPT-4 может изменять тон ответов и сценарии взаимодействия с человеком.
Например, системное сообщение может выглядеть следующим образом: Вы репетитор, который всегда отвечает в стиле Сократа. Вы никогда не даете ученику ответа, но всегда пытаетесь задать правильный вопрос, чтобы помочь ему научиться думать самостоятельно». .
Ограничения и недостатки GPT-4
«GPT-4, как правило, не знает о событиях, произошедших после сентября 2021 года, и не учится на своем опыте, – пишет OpenAI. – Иногда он может совершать простые логические ошибки или быть легковерным, принимая очевидные ошибочные утверждения от пользователя» .
GPT-4 также по-прежнему имеет социальные предубеждения, склонный к галлюцинациям и враждебным подсказкам. Однако разработчики стремятся расширить возможности участия людей в формировании модели и призывают их активнее оценивать удачные и неудачные ответы II в окне чата.
Как получить доступ к GPT-4
Сегодня есть два способа получить доступ к GPT-4. Во-первых, он доступен платным пользователям OpenAI по ежемесячной подписке ChatGPT Plus (с ограничением использования). Стоимость услуги $20.
Во-вторых, разработчики могут зарегистрироваться в списке ожидания для доступа к AP новой языковой модели. Цена его использования составляет $0,03 за 1 тыс. токенов «запроса» (около 750 английских слов) и $0,06 за 1 тыс. токенов «завершения».
Напомним, что токены запроса – это части слов, которые вы передаете в GPT-4, а токены завершения – это содержимое ответа GPT-4.
Возможности и перспективы
OpenAI уже сотрудничает с рядом компаний, интегрировавших GPT-4 в свои продукты. К примеру, программа Stripe использует GPT-4 для сканирования сайтов.
Duolingo встроил новую модель II в новый уровень подписки на изучение языков. Morgan Stanley создает систему на основе GPT-4, которая будет извлекать информацию из документов компании и предоставлять ее финансовым аналитикам.
В дальнейшем таких программ станет еще больше. А простые пользователи получат более мощного и безопасного GPT-ассистента, понимающего шутки, может запоминать длинные разговоры, заменит для детей репетиторов по любому предмету и станет другими глазами для слабовидящих.
«Мы надеемся, что GPT-4 станет ценным инструментом для улучшения жизни людей за счет поддержки многих программ, – пишет OpenAI. – Еще много работы, и мы с нетерпением ждем возможности улучшить эту модель благодаря коллективным усилиям сообщества» .