ChatGPT на штучному інтелекті тепер може бачити, чути та говорити

By upadmin

Posted on 27.09.2023

Розробники OpenAI випустили глобальний апдейт для чат-бота ChatGPT, який навчився «бачити, чути та говорити». Оновлення знаменує важливий крок у розвитку штучного інтелекту, який може сприймати і обробляти інформацію в декількох форматах, а не тільки в текстовому.

«Ми починаємо впроваджувати голосові та графічні можливості у ChatGPT. Вони пропонують новий, більш інтуїтивно зрозумілий тип інтерфейсу, дозволяючи розмовляти з нейромережею або показувати їй предмет бесіди», — пояснили в OpenAI.

Бесіди з ChatGPT

Оновлений чат-бот вміє чути та розпізнавати мову користувачів. Будь-який запит до ШІ можна зробити за допомогою голосу, що вже більше нагадує віртуальних помічників на зразок Siri від Apple.

Для початку роботи з мовними функціями необхідно увімкнути їх у налаштуваннях програми. ChatGPT пропонує вибір із п’яти різних голосів, у записі яких брали участь професійні актори.

Для розпізнавання мовлення нейромережа використовує систему з відкритим кодом Whisper.

«Нова технологія, здатна створювати реалістичні синтетичні голоси всього за кілька секунд прослуховування реальної мови, це відчиняє двері для багатьох творчих додатків, орієнтованих на доступність», — зазначили в OpenAI.

Новою функцією вже користується стрімінговий сервіс Spotify для перекладу подкастів іншими мовами, зберігаючи оригінальний голос ведучого.

Покажи та розкажи

Користувачі також можуть надсилати ChatGPT різні зображення на додаток до звичайних запитів. Функція Vision або GPT-V допомагає нейромережі давати більш точні відповіді.

Як приклад, розробники навели ситуацію, коли необхідно щось полагодити. Область поломки можна обвести інструментами для малювання для полегшення завдання чат-боту.

Аналіз зображень забезпечується мультимодальними GPT-3.5 та GPT-4. Ці моделі застосовують свої навички мовного мислення до широкого спектру інформації: від скріншотів та діаграм до звичайних фотографій.

«Vision покликана допомагати вам у повсякденному житті. Найкраще нейромережа робить це, коли бачить те саме, що й ви. Підхід заснований безпосередньо на нашій роботі з Be My Eyes, безкоштовним мобільним додатком для сліпих і людей з вадами зору, щоб зрозуміти рамки використання та обмеження», — пояснили представники компанії.

Нові можливості – нові ризики

Основна мета OpenAI — створення безпечного та корисного загального штучного інтелекту (AGI) . Однак питання захисту користувачів стало актуальнішим з появою нових функцій.

На думку розробників, можливість перетворення голосу відкриває нові можливості для шахраїв. Наприклад, злочинці можуть створювати дипфейки, що імітують відомих особистостей.

Візуальні моделі також створюють проблеми: від неправильної інтерпретації зображень до образливих думок про людей на фото. Перед запуском утиліти OpenAI протестувала її на «червоній команді» щодо екстремізму та неточних наукових висловлювань.

«Ми також вжили технічних заходів, щоб значно обмежити здатність нейромережі аналізувати та робити прямі заяви про людей, оскільки ChatGPT не завжди точний, і ці системи повинні поважати конфіденційність», — підкреслили в OpenAI.

Нагадаємо, у липні розробники випустили новий плагін для чат-бота, який може аналізувати дані, створювати код на Python, будувати графіки та вирішувати математичні завдання. Нейромережі вдалося науково спростувати теорію «плоскої Землі».

Щоб завжди бути в курсі найважливішого, читайте нас у Telegram