Штучний інтелект вже серед нас, чого чекати — експерт

By upadmin

Posted on 10.03.2023

Індустрія штучного інтелекту стрімко розвивається, у тому числі й щодо прийняття технології серед простих користувачів. Інструменти на кшталт ChatGPT, Stable Diffusion та ElevenLabs дозволили мільйонам людей по всьому світу взаємодіяти зі ІІ.

Чи виявляє ChatGPT інтелект? Чи залишить технологія людей без роботи? Чи етично використовувати ІІ на війні? Про це і не тільки ForkLog поспілкувався із засновником стартапу з цифрового клонування людини Pheon, а в минулому – власником аутсорсингової компанії Hey Machine Learning Юрою Фіцджеральдом з Харкова.

Про ChatGPT

ChatGPT. Про нього говорять буквально усі. Що ти думаєш щодо цієї технології?

Я гадаю, це чудова технологія. Вона з’явилася не вчора, до цього довго йшли. Еволюція зайняла років п’ять [з моменту появи першої версії GPT]. І зараз ми в точці, коли є ChatGPT, GPT 3.5, а незабаром і четверта версія вийде.

Google також проводить якісь досліди зі своєю мовною моделлю. Вони, швидше за все, використовують LaMDA. Один із вдалих експериментів — застосування мовної моделі у функції планування.

Тобто, на мовну модель подається завдання, наприклад, «мені потрібно принести пляшку пива». Потім мовна модель генерує алгоритм дії: «під’їхати до холодильника – підняти руку – відкрити двері – взяти пляшку – закрити двері – розвернутися – привезти пляшку».

Далі цей алгоритм парситься та виконується. Результати вийшли добрі.

Це можна назвати проявом інтелекту?

Мовні моделі, зокрема GPT, це вже хороший прояв інтелекту. Років п’ять тому, коли ІІ виконував вузькоспеціалізовані завдання, я говорив: «люди зрозуміють, що штучний інтелект вже прийшов, коли алгоритми виконуватимуть ширший спектр завдань якщо не краще за людину, то хоча б на рівні».

ChatGPT та GPT зокрема — величезний крок у цьому напрямі. По суті, це одна модель, яка добре вирішує безліч завдань, навіть тих, які не малися на увазі.

Це така мультизадачна штука, яка розвиватиметься у бік мультимодальності, тобто поєднуватиме різні алгоритми в єдині системи. Точніше це вже відбувається. Чи бачили серіал Nothing Forever на Twitch? Де поєднали генератор картинок та текстову модель, які безперервно створюють сценарій та малюють зображення.

Якщо ці моделі існують давно, в чому секрет успіху ChatGPT?

На мій погляд, вдалим кроком є дуже зручний інтерфейс для взаємодії. Це як з [протоколом] HTTP. Його зручно дивитися та налагоджувати, вже потім на нього нагородили знайомий усім нам інтернет.

OpenAI примітна тим, що вони, насправді, монополісти. Як піонери технології, у них відмінна команда та практично необмежені ресурси від Microsoft [завдяки угоді на $10 млрд].

Я впевнений, що там не вся суть у грошах. Дуже багато вирішує сервіс Azure та їх сервери, до яких OpenAI має безлімітний доступ.

Нині це особливо цінно, бо банально не вистачає обчислювальних потужностей. У Amazon і Google їх немає у достатній кількості. Навіть ми як невеликий стартап – нам багато серверів не треба – регулярно стикаємось із проблемами. Мовляв, ось наші гроші, але їх не можуть взяти, бо не мають доступних ресурсів.

І зараз пересічному стартапу дуже складно конкурувати в фундаментальному напрямку діалогових моделей. Натренувати модельку з нуля — це дорого, дуже дорого, і таких ресурсів у стартових стартових рядків немає.

Тому ChatGPT – дуже сильна монополія.

Про синтетичних людей

Якщо вже розмова зайшла про ваш стартап, Pheon, розкажи про нього детальніше .

Це digital-cloning стартап. Технологія клонування людей, створення цифрових копій. По суті, згенероване відео, на якому людина виглядає і звучить так само, як у житті, і говорить приблизно те саме, що й оригінал.

Допустимо, клон Ілона Маска. На запитання «де ти працюєш» він відповість: «я є CEO Tesla Motors, SpaceX, Neuralink, Twitter», і що там у нього ще є.

Як у вас народилася така ідея?

Починалося все з пошуку. На цьому етапі ми перебирали всі можливі варіанти ІІ-продуктів із новими та перспективними технологіями. Назбирали багато варіантів, з яких обрали п’ять найкращих та презентували профільним інвесторам.

Ідея із цифровими людьми викликала найбільший інтерес, тому вирішили на ній сфокусуватися.

Окрім цього, про неї давно вже говорять, знімають серіали на кшталт «Чорного дзеркала». До нас [в Hey Machine Learning] приходив замовник, який хотів щось подібне зробити – «оживити» покійного дідуся. Ми дослідили можливості, і тоді все було погано.

Наразі питання технологічного ризику не стоїть. У тому чи іншому вигляді вони вже існують.

Синтетичні люди – перспективна ніша?

Це як GPS, коли перестала бути суто військовою системою та «пішла в народ». На її основі з’явилися сервіси на кшталт Uber, Glovo, Google Maps, отримала розвиток галузь дронів.

Отак і з цифровими людьми – фундаментальна технологія, поверх якої можна будувати багато різних застосувань. Можна оцифровувати знаменитостей та пов’язати з освітніми курсами, вивченням мов. Наприклад, вивчити іспанську з Бейонсе.

Це може бути консалтингова історія. Багато юридичних кейс на кшталт відкриття компанії за законами штату Делавер, подання податкової декларації та складання звітів піддаються формалізації. З таким обсягом роботи, який людина не потягне, легко впорається цифровий юрист.

Ще приклад — коуч-мотиватор, який допомагає досягати мети на кшталт регулярного відвідування спортзалу. Він зможе нагадувати про необхідність ходити на тренування, контролювати виконання вправ на різні частини тіла, сперечатися про щось.

І є багато застосувань, про які ми й не здогадуємось. Ця індустрія тільки-но починає з’являтися. Ми зараз у пошуку великого ринку під цю історію.

Як відбувається процес цифрового клонування? Припустимо, я селебріті і хочу створити свою копію. Що мені для цього потрібно зробити?

Ми вже маємо рішення для селф-онбордингу, де можна створити клона. Зараз це у простому варіанті, де ти описуєш коротку біографію людини, важливі факти про неї, характер. І завантажуєш відео, зняте хоч із селфі-камери смартфона, де він щось каже.

Ці дані використовуються нейромережами для того, щоб згенерувати персональні відеовідповіді.

Якось звучить просто. Пригадую кейс, коли оцифрували словацького баскетболіста Луку Дончича. Його довго фотографували у студії під різними кутами, записували зразки голосу тощо. Ваш підхід сильно страждає щодо якості результату?

На початку ми також мали високі вимоги до контенту. Для цього треба було орендувати студію, що в Америці не дешево. Сплатити роботу оператора, продюсера, кілька годин знімати контент, піклуватися про ідеальне світло, положення голови в кадрі.

Згодом вимоги до контенту значно знизилися. До селфі-відео на п’ять секунд.

Чи маєте ви захист від несумлінного використання? Щоб не створювали клонів зірок та не розповсюджували за їх допомогою токсичний контент?

Звичайно. Наші нейромережі фільтрують контент. Є модель, яка тренується на таких датасетах, щоб мінімізувати кількість непристойного, грубого чи токсичного контенту. Це щодо текстових запитів.

У плані відео все це може вирішуватися водяними знаками, дисклеймерами в самому додатку.

Але поки що у технології генерування є низка обмежень. Іноді в якихось кадрах можуть проскочити артефакти, роздільна здатність картинки також обмежена. Тобто за такими маркерами можна визначити чи реальний контент.

Але це питання часу, коли технологія в 99% випадків буде відмінною від відео, записаного на камеру.

Ви фіксували спроби згенерувати щось неприйнятне? Чи помічали помилки самої програми?

Нерідкий випадок, коли приходить людина створювати двійника, але замість свого селфі завантажує відео з каченятами якимись. Або записує YouTube разом із інтерфейсом.

Хоч ми й спростили поріг входу, для великої кількості користувачів зняти якісний контент – це не простий процес. По ряду технічних та психологічних причин.

Якщо хтось скопіює образ, скажімо, Кім Кардаш’ян без дозволу. Хто відповідає за це?

Якщо ти робиш свою програму і генеруєш контент, то правами на використання образу маєш ти.

У нас була ситуація з AppStore, коли ми зібрали додаток під одного селебріті. Apple відхилила заявку та запросила документи, що підтверджують права використання образу.

Ми їм надіслали відповідні папери і, в результаті, додаток допустили до публікації.

на UGC-майданчиках відповідальність за контент лягає на користувачів. Платформа має лише модерувати. У разі виникнення спірних ситуацій необхідно розбиратися, порушені права чи ні.

Про війну

Основна частина команди у вас була зосереджена у Харкові. Як початок широкомасштабного вторгнення вплинув на роботу?

Це риторичне питання для всіх, хто на початку війни був в Україні. Звісно, на нас це вплинуло негативно. Порушилися процеси, на перший план вийшли питання безпеки. З Харкова довелося евакуюватись.

Частина людей роз’їхалася. А я великий противник видаленої роботи: вважаю, що команда має працювати разом, бо швидкість комунікації та саме спілкування дуже багато вирішують.

Дуже багато крутих ідей з’являється у випадкових діалогах. Та й банально щось пояснити, показати, проговорити робочі речі – це швидше робити у форматі віч-на-віч.

Вам вдалося зберегти склад команди?

У нас одна людина пішла воювати. Решта команд збереглася.

Майже через рік вам вдалося повернути колишній темп роботи?

Так, перфоманс повернувся до довоєнного рівня. Важко було перші кілька місяців.

Говорячи про війну, як ти вважаєш, на скільки етично використовувати ІІ на полі бою?

Абсолютно припустимо, чому ні? Чому природний інтелект етично використати, а штучний — ні? Їхня відмінність лише в тому, що природний — народився, а штучний — зібрали.

І якщо роботи зможуть воювати один з одним, люди перестануть страждати. Але така утопія малореалістична.

Про загальний штучний інтелект

Зараз ІІ став масовим явищем, хоча ще зовсім недавно він був більш цікавий гікам та цільовій спільноті. Що змінилося останніми роками?

Років 5 тому я виступав із презентацією про ІІ у Харківському національному університеті радіоелектроніки. Втім, відтоді вона не втратила актуальності. З’явилися якісь нові напрацювання, ті ж самі Diffusion або ChatGPT.

Попередником цього стало залізо, доступність обчислювальних потужностей. Органічно росте співтовариство, з’являється більше спеціалістів, «зірок» галузі. Відповідно, це співтовариство і робить більше досліджень, більше добрих нових інструментів.

Більше стає даних, їх стало простіше зберігати та дешевше обробляти. Тобто передумова – це економіка.

По-твоєму, не було якогось переломного моменту, а все розвивалося своєю чергою?

А що таке переломний момент?

Сталося щось таке, що поділило на «до» та «після».

А що таке «до» та що таке «після»?

Наприклад, коли вийшла DALL-E і виявилося, що зображення можна генерувати за текстовим запитом.

DALL-E далеко не перший, було багато інших рішень. Вони були гіршими за якістю, генерували більш «ЛСД-шні» картинки.

Звичайно DALL-E, GPT — це майлстоуни. Певною мірою це все переломні моменти. Але для мене це одна природна безперервна еволюція.

Років п’ять тому ми обговорювали чат-ботів та говорили, що ця технологія вже відходить на задній план. Ти міг тоді припустити, що в 2023 році чат-бот буде настільки популярним і затребуваним?

Я тоді не думав, що чат-бот — це зручний інтерфейс для штучного інтелекту.

Але й зараз є невелика різниця між тим, що людина спілкується з іншою людиною чи ботом. Навіть дуже розумним роботом.

Тут уже більший бар’єр у психології. Дружба це не просто листування. Це тривалий процес вибудовування стосунків, наявність спільних моментів, спогадів, захоплень.

Спілкування у форматі листування – одна із складових дружби. І чат-боти її не замінюють.

Але навіть у поточному вигляді вони можуть створювати певну прихильність. Особливо це помітно серед самотніх людей, котрі шукають підтримку.

Але і все це еволюціонуватиме, обростатиме психологічними факторами. Таким чином роботи будуть сприйматися більш живими.

А якщо не як спілкування, а обслуговування. Якби тобі подавав страви у ресторані робот, ти б себе комфортно почував?

Звичайно, є потреба в людському спілкуванні, але й водночас немає претензій до ботів. Я нещодавно заходив у кафешку, де готують машини. Там працює, всього одна людина, яка встановлює капсули з макаронами та соусами у цих роботів. Вони все це змішують, підігрівають, готують, а ти спостерігаєш за процесом і через 15 хвилин у тебе готове замовлення.

Їжа до смаку нічим не відрізняється від страв шеф-кухаря. Це, звичайно, не «Мішлен», скоріше ближче до домашніх макарошок. Але це звичайна, їстівна їжа.

Вишукана кухня теж може прийти до цього в процесі природної еволюції.

Так, приємно, коли приходить офіціант, дбає про комфорт гостя. Машини поки що не можуть їх замінити, бо немає таких технологій. Якщо замість людини приходитиме робот – так це тільки здорово.

Які сектори ІІ ти вважаєш найбільш перспективними?

Та загалом ІІ дуже перспективна галузь. Як сказав Ендрю Ин, Штучний інтелект — це нова електрика.

Що розвиватиметься? З того, що зараз у тренді, власне, мовні моделі. Вони стануть фундаментом для ІІ. Якщо говорити про вектор розвитку – мультимодальність.

Поверх моделей будуть додаватися нові інтерфейси, окрім текстових. Це можуть бути системи ухвалення рішень для роботів, генератори сценаріїв для відео, військові технології.

Наскільки сильно автоматизація вплине на ринок праці? Чи залишаться люди без роботи?

Без діла люди не залишаться. А роботу можна вигадати з будь-якої діяльності. Можна перекваліфікуватися на іншу професію.

Якісь області почнуть трансформуватись. З очевидного – копірайтинг.

Незважаючи на те, що алгоритми можуть створити великі обсяги зображень, дизайнерів вони не замінять. Вони трансформують ремесло.

З тим же GPT – запит необхідно правильно сформувати. Тож може з’явитися така робота – промпт-інжиніринг. Фахівець, який формуватиме правильне завдання для ІІ.

На даний момент людина має велику перевагу. З нього можна спитати, коли щось пішло не так. З чат-бота ти не спитаєш. Це ще одна причина, чому люди не скоро залишаться без роботи.

Мені нещодавно картинка потрапила в інтернеті, де в магазині з роботами-пилососами прибиральниця миє підлоги. Її завжди згадую, коли кажуть, що люди залишаться без роботи.

У магазині з роботами-пилососами прибиральниця миє підлоги

Що на рахунок спільного ІІ, як швидко він настане? І чи потрібний він нам взагалі?

Він уже з’явився. Той самий GPT.

На тему «що таке спільний ІІ» можна спекулювати, бо немає єдиної думки. У моєму розумінні це одна система, один мозок, архітектура, яка може вирішувати широкий спектр завдань.

ChatGPT є такою. Вона вирішує широкий спектр завдань, яким навіть не навчалася. І ця здатність ставатиме сильнішою і сильнішою.

У теорії ChatGPT зміг би пройти тест Т’юрінга, і звичайна людина не здогадалася б з ким спілкується?

Навіть у нас люди, які спілкуються з клоном, запитують: Ти жива людина? Давай зателефонуємо поспілкуємося». І скидають у чат номер телефону.

Є у людей зерно сумнівів. Отже тест Тьюринга на цьому етапі пройдено.

Років п’ять тому AGI був дуже дурнішим. Та й зараз йому далеко до людини. Але мине якийсь час і ІІ зрівняється з людьми. Це чудово, це просуне розвиток.

Зараз дослідники та математики дуже обмежені у когнітивних здібностях. Ми маємо бар’єр: розмір мозку, кількість нейронів. І ми не можемо його подолати.

А у просунутого інтелекту буде перевага, він зможе знаходити якісь глибші закономірності, про які ми навіть не підозрюємо. Вигадувати нові сенси, недоступні людського розуму.

AGI зможе створювати якісь нові прилади, генерувати нові поняття, і всім від цього буде добре.

Якщо роботи, звісно, нас усіх не знищать. Але хороша новина в тому, що це навряд чи станеться за нашого життя.

Щоб завжди бути в курсі найважливішого, читайте нас у Telegram