Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

O'qishni davom ettirish uchun tizimga kiring. Bu tez va bepul.

Roʻyxatdan oʻtish orqali men foydalanish shartlari 

Tavsiya etilgan maqolalar

Винное литературознание Винное литературознание

Как винный дух гуляет по истории литературы, в каких сюжетах и характерах

РБК
Места пивной силы Места пивной силы

Карты путешествий во хмелю

Автопилот
Огненная саламандра Огненная саламандра

Мифический «дух огня» с точки зрения биологии

Вокруг света
Другая история Другая история

Человеческому терпению нет предела, но это явно не тот случай!

Знание – сила
Хорошие манеры Хорошие манеры

Никаких сушилок и стиралок, только водные процедуры — решила дизайнер

Идеи Вашего Дома
Тбилисские гости Тбилисские гости

«Наша жизнь состоит из моментов, когда ты встречаешься с друзьями»

Seasons of life
Искусное сплетение Искусное сплетение

Квартира с винтажными предметами быта из эпохи социалистического реализма

Идеи Вашего Дома
Поклон Осаке Поклон Осаке

Футуристическая, эксцентричная Осака сохранила дух настоящего нонконформизма

Y Magazine
Урожаи вырастут на поливе Урожаи вырастут на поливе

Что сдерживает распространение ирригационных технологий

Агроинвестор
Флагман дальнего плавания Флагман дальнего плавания

Bering 165 — это судно с отвесным форштевнем и высоким бортом до миделя

Y Magazine
Арт-объект Арт-объект

Значение Hongqi HS3 в искусстве

Автопилот
Архангелогородский рудознатец Федор Прядунов Архангелогородский рудознатец Федор Прядунов

Судьба первого русского нефтепромысла

Знание – сила
Что посеешь? Что посеешь?

Почему растет доля контрафактных и фальсифицированных семян

Агроинвестор
Мерзлота не вечная: прошлое и настоящее Мерзлота не вечная: прошлое и настоящее

Чем может угрожать таяние вечной мерзлоты, к каким последствиям это приведет?

Знание – сила
Свежий взгляд Свежий взгляд

Основательница компании Trinity Yachts Анна Гончарук о том, как начался ее путь

Y Magazine
Дарвиновский музей: по пути эволюции Дарвиновский музей: по пути эволюции

О сегодняшнем дне Дарвиновского музея

Наука и жизнь
Наука в фантастике: эпизоды истории Наука в фантастике: эпизоды истории

Творчество Аркадия и Бориса Стругацких в контексте развития научных взглядов

Наука и жизнь
Это-большечем-фильмы Это-большечем-фильмы

Почему иранский кинематограф внезапно стал так важен?

Seasons of life
Гейхеры & Cо Гейхеры & Cо

Надо ли заводить гейхеры и насколько они будут обременительны в уходе

Наука и жизнь
Хранители Неба: путешествие в Каргополье Хранители Неба: путешествие в Каргополье

Путешествие в Каргополье: где своды деревянных храмов хранят небеса

Вокруг света
Cпасибо, что живой Cпасибо, что живой

Парадокс Crosstrek

Автопилот
Львинохвостые макаки, или Вандеру Львинохвостые макаки, или Вандеру

Львинохвостые макаки – очень капризные и не желающие быть фотомоделями

Знание – сила
Свежая зелень Свежая зелень

Компактная ванная: пример выверенной планировки и сложной колористики

Идеи Вашего Дома
Скрытые под водой Скрытые под водой

Редкие подводные артефакты, которые помогли найти ответы на непростые вопросы

Вокруг света
Согревающий оранжевый Согревающий оранжевый

Колористическое решение интерьера задал характер заказчика

Идеи Вашего Дома
Неприметные живые фабрики Неприметные живые фабрики

Как живые организмы синтезируют токсичные вещества

Наука и жизнь
«Малые дела» для «малой родины» «Малые дела» для «малой родины»

Земские школы как образовательный проект

Знание – сила
Наша стратегия — помогать повышать прибыльность аграрного производства Наша стратегия — помогать повышать прибыльность аграрного производства

Гендиректор фирмы «Август» — о развитии и планах компании

Агроинвестор
«Всегда» уже заканчивается «Всегда» уже заканчивается

Что может исчезнуть из нашей жизни раньше, чем мы успеем это осознать?

Вокруг света
Мерзлота не вечная: взгляд в будущее Мерзлота не вечная: взгляд в будущее

Какими экономическими потрясениями грозит таяние вечной мерзлоты

Знание – сила
Открыть в приложении