Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

O'qishni davom ettirish uchun tizimga kiring. Bu tez va bepul.

Roʻyxatdan oʻtish orqali men foydalanish shartlari 

Tavsiya etilgan maqolalar

Робин из Локсли Робин из Локсли

О Робин Гуде сложены несколько десятков баллад

Дилетант
Сотворить «Онегина» Сотворить «Онегина»

Кто участвует в сотворении «Евгения Онегина» вместе с Пушкиным

Seasons of life
Екатерина Борисова: «BIM — это больше чем проектирование» Екатерина Борисова: «BIM — это больше чем проектирование»

Как BIM-проектирование помогает избежать ошибок в документации и сократить сроки

РБК
Жизнь вечная Жизнь вечная

Глагол — это жизнь как она есть

Seasons of life
Владимир Васильев: «Гонка технологических «вооружений» уже началась» Владимир Васильев: «Гонка технологических «вооружений» уже началась»

Владимир Васильев – о влиянии больших языковых моделей на будущее человека

РБК
«Кузнец – это в первую очередь инженер» «Кузнец – это в первую очередь инженер»

Как ученые исследуют магнитное поле Земли? Влияют ли на нас магнитные бури?

Знание – сила
Ответная реакция Ответная реакция

Дагестанская группа «нееет, ты что?» не имеет ничего общего со стереотипами

СНОБ
Посвящено Беатриче Посвящено Беатриче

Он не смел поверить, что Биче исчезла навсегда. Его мир рухнул

Наука и жизнь
Рога и копыта Рога и копыта

Памятники быкам можно обнаружить по всей планете

Вокруг света
Художники Художники

Рассказ Александра Маркова «Художники»

Знание – сила
Он пережил и многое, и многих… Он пережил и многое, и многих…

Петр Вяземский, князь. О нем вспоминают обычно в связи с А. С. Пушкиным

Знание – сила
Любовь к животным и санкции Любовь к животным и санкции

Почему рынок кормов — перспективное направление для инвестиций

Агроинвестор
У эволюции нет конкретной цели, но есть результат У эволюции нет конкретной цели, но есть результат

Как происходит видообразование, с чего начинается и через какие этапы проходит

Наука и жизнь
Недолгий триумф «арийской физики» Недолгий триумф «арийской физики»

В какой тупик может завести себя наука, если станет служанкой нацизма

Знание – сила
Поговорим о космологии Поговорим о космологии

Пять работ, посвященных космологии, с комментариями специалиста

Знание – сила
Дар моря Дар моря

Креветки в панцире, похожем на черепицу, у рыбы корвины русалочий хвост

Seasons of life
По времени и пространству По времени и пространству

Добавляем пять книжных путешествий в летний ритм жизни

Seasons of life
Вино и дюны Вино и дюны

Район Колареш, единственное место в Португалии, где виноград растет из песка

Seasons of life
Самое древнее чувство Самое древнее чувство

Как у животных представлено чувства обоняния и вкуса

Наука и жизнь
«Нечестная» игра Баше «Нечестная» игра Баше

Как найти выигрышную стратегию в игре Баше?

Наука и жизнь
Каким ты будешь, городской бус? Каким ты будешь, городской бус?

Ждать ли нам завтра электробусов в каждом городе?

Наука и жизнь
Наука под знаком «Аненербе» Наука под знаком «Аненербе»

Наука может прекрасно себя чувствовать и в тиранических режимах

Знание – сила
«Кто богат детьми, богат и любовью, а любовь всего светлее»: Н.М. Карамзин – отец семейства «Кто богат детьми, богат и любовью, а любовь всего светлее»: Н.М. Карамзин – отец семейства

Николай Карамзин известен как «первый наш историк и последний летописец»

Знание – сила
Коварный удар из-под земли Коварный удар из-под земли

«Холодная война» стала стимулом для неумеренных планов создателей оружия

Наука и техника
Июньская метель снежноцвета Июньская метель снежноцвета

Снежноцветы считаются красивейшими деревьями, и с этим трудно не согласиться

Наука и жизнь
Надеяться и делать Надеяться и делать

О стрит-арте: почему Португалия — не лучшая страна для современного художника

Seasons of life
Экологическая модернизация Экологическая модернизация

Как разные страны переосмысливают управление органическими отходами

Агроинвестор
Наука и жизнь. Архив: 1941—1945 годы Наука и жизнь. Архив: 1941—1945 годы

О чем писали в журнале «Наука и жизнь» в годы Великой Отечественной войны?

Наука и жизнь
Компьютерное зрение: когда роботы перестали тыкать пальцем в небо? Компьютерное зрение: когда роботы перестали тыкать пальцем в небо?

Зачем нужно компьютерное зрение и какие задачи оно решает в разных сферах

Наука и техника
A Vida Portuguesa A Vida Portuguesa

«А вы уже были в A Vida Portuguesa?»

Seasons of life
Открыть в приложении