Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

O'qishni davom ettirish uchun tizimga kiring. Bu tez va bepul.

Roʻyxatdan oʻtish orqali men foydalanish shartlari 

Tavsiya etilgan maqolalar

Как в России меняется ESG-стратегия Как в России меняется ESG-стратегия

Как принципы устойчивого развития влияют на индустрию, бизнес и деловые процессы

РБК
Киберспорт и интеллектуальная собственность Киберспорт и интеллектуальная собственность

Киберспорт — сложная и пока еще малоизученная правовая реальность

Наука и техника
Вложения со столетним горизонтом Вложения со столетним горизонтом

Производство орехов может быть высокодоходным, но не быстро

Агроинвестор
Протокол «Дубайск» Протокол «Дубайск»

Какие автомобили можно увидеть в новом «Мажоре»

Автопилот
«Древние люди были гениальными» «Древние люди были гениальными»

Интервью с археологом Дмитрием Еньшиным о неолитической революции

Знание – сила
В режиме планового роста В режиме планового роста

Объемы мясного производства увеличиваются спокойными темпами

Агроинвестор
Козьма Прутков и Пробирная палатка русской литературы Козьма Прутков и Пробирная палатка русской литературы

Фрагмент книги «Золото в истории, культуре России» о Козьме Пруткове

Знание – сила
Как животные покоряли воздух? Как животные покоряли воздух?

История «воздухоплавания» рептилий в пермском периоде

Наука и техника
«Пересекают мысли океан» «Пересекают мысли океан»

Как соединяли телеграфной линией Старый и Новый свет

Наука и техника
Инерционно-выжидающие инвестиции Инерционно-выжидающие инвестиции

В АПК — новые проекты, но компании рассчитывают на снижение стоимости кредитов

Агроинвестор
Забытые речные порты России Забытые речные порты России

Исчезнувшие и потерявшие свое былое значение порты

Знание – сила
Ген свадебного угощения Ген свадебного угощения

Как отличия паттернов врожденного поведения формируются в эволюции?

Знание – сила
Новости науки Новости науки

Механизм возникновения галактик, слияние черных дыр и Большой Барьерный риф

Знание – сила
На краю стихий. Архангельск На краю стихий. Архангельск

История развития порта Архангельска

Знание – сила
Гигиенические истории Гигиенические истории

История из детства с привкусом керосина и французским ароматом хлорки

Знание – сила
Всё кончено: война, республика, жизнь Всё кончено: война, республика, жизнь

Смерть Юлия Цезаря – трагедия и окончание жизни и истории старого Рима

Знание – сила
Планеты «железные» и «алмазные» Планеты «железные» и «алмазные»

Насколько необычны миры «железных» и «алмазных» планет?

Наука и техника
Владивосток – город и порт Владивосток – город и порт

Владивосток – главный военный порт России на Тихом океане

Знание – сила
Коми кукла Коми кукла

Живое воплощение народного искусства и культурного наследия

Знание – сила
Галактика в проводах Галактика в проводах

Рассказ Александра Маркова «Галактика в проводах»

Знание – сила
От меди – к кремнию От меди – к кремнию

Как работают системы управления локомотивов

Наука и техника
Новые технологии в медицине Новые технологии в медицине

Биосовместимый титановый сплав, антибактериальные нити и диагностика инфекций

Знание – сила
Ночные обезьянки сельвы Ночные обезьянки сельвы

Ночные обезьяны Южной Америки

Знание – сила
Открытый код как двигатель прогресса: зачем делиться своими проектами Открытый код как двигатель прогресса: зачем делиться своими проектами

Почему открытый обмен информацией стал двигателем развития технологий

Наука и техника
Урожай рекордов Урожай рекордов

Растениеводы вышли на новые рубежи по сборам

Агроинвестор
Молочное торможение Молочное торможение

Прирост производства товарного молока замедлился почти вдвое

Агроинвестор
Путешествия во времени и пространстве Путешествия во времени и пространстве

Резиденция монархов Аранхуэс и монастырь Санта-Мария-де-Гуадалупе

Знание – сила
Оружие скрытого ношения Оружие скрытого ношения

История развития компактного оружия: миниатюрные револьверы и пистолеты

Наука и техника
Нескучный сад «проказника» Демидова Нескучный сад «проказника» Демидова

Жизнь и «дурашества» Прокофия Акинфиевича Демидова

Знание – сила
Юбилеи круглые и не очень Юбилеи круглые и не очень

Именинники декабря: основатели гидродинамики и сердечно-сосудистой хирургии

Знание – сила
Открыть в приложении