Двоє дослідників з Університету Карнегі-Меллона натякають, що процес стиснення інформації може вирішувати складні міркування без попереднього тренування на великій кількості прикладів. Їхня система вирішує деякі типи абстрактних завдань на зіставлення шаблонів, використовуючи лише самі головоломки, кидаючи виклик загальноприйнятій думці про те, як системи машинного навчання набувають здатності розв’язувати проблеми.
“Чи може стиснення інформації без втрат саме по собі спричинити інтелектуальну поведінку?” – запитують аспірант першого року навчання та його науковий керівник, професор кафедри машинного навчання Канадського технологічного університету (CMU). Їхня робота показує, що відповідь може бути позитивною. Щоб продемонструвати це, вони створили і опублікували результати на веб-сайті Ляо.
Вчені протестували свій підхід на Abstraction and Reasoning Corpus () – неперевершеному візуальному бенчмарку, створеному в 2019 році дослідником машинного навчання для перевірки навичок абстрактного мислення систем штучного інтелекту. ARC представляє системи з графічними головоломками на основі сітки, кожна з яких містить кілька прикладів, що демонструють основне правило, і система повинна зробити висновок про це правило, щоб застосувати його до нового прикладу.
Наприклад, одна з головоломок ARC-AGI показує сітку зі світло-блакитними рядками і стовпчиками, що ділять простір на клітинки. У завданні потрібно з’ясувати, які кольори належать до яких клітинок, виходячи з їхнього розташування: чорний – для кутів, пурпурний – для середини, а для решти клітинок – кольори, що вказують напрямок (червоний – вгору, синій – вниз, зелений – праворуч, жовтий – ліворуч). Ось ще три приклади головоломок ARC-AGI, взяті з вебсайту Ляо:
Приклад.

Головоломки тестують можливості, які, на думку деяких експертів, можуть бути фундаментальними для загального людського мислення (яке часто називають “AGI” – штучний загальний інтелект). Ці властивості включають розуміння стійкості об’єктів, цілеспрямовану поведінку, рахунок і базову геометрію, не вимагаючи при цьому спеціальних знань. Середньостатистична людина вирішує 76,2 відсотка головоломок ARC-AGI, тоді як люди-експерти досягають 98,5 відсотка.
У грудні OpenAI заявив, що його імітаційна модель міркувань o3 отримала рекордний результат у тесті ARC-AGI. У тестуванні з обмеженням обчислень o3 набрала 75,7 відсотка, а в тестуванні з високими обчисленнями (практично необмежений час на роздуми) вона досягла 87,5 відсотка, що, за словами OpenAI, можна порівняти з людською продуктивністю.
CompressARC досягає 34,75% точності на навчальному наборі ARC-AGI (колекція головоломок, яка використовується для розробки системи) і 20% на оціночному наборі (окрема група невидимих головоломок, яка використовується для перевірки того, наскільки добре підхід узагальнює нові проблеми). Обробка кожної головоломки займає близько 20 хвилин на графічному процесорі RTX 4070 споживчого класу в порівнянні з високопродуктивними методами, які використовують потужні машини рівня центрів обробки даних і те, що дослідники описують як “астрономічні обсяги обчислень”
Не типовий підхід до штучного інтелекту
CompressARC використовує зовсім інший підхід, ніж більшість сучасних систем штучного інтелекту. Замість того, щоб покладатися на попереднє навчання – процес, коли моделі машинного навчання навчаються на величезних наборах даних, перш ніж вирішувати конкретні завдання, – він працює без будь-яких зовнішніх навчальних даних. Система навчається в режимі реального часу, використовуючи лише конкретну головоломку, яку їй потрібно розв’язати.
“Без попереднього навчання; моделі випадковим чином ініціалізуються та навчаються під час виведення. Без набору даних; одна модель тренується тільки на цільовій головоломці ARC-AGI і виводить одну відповідь”, – пишуть дослідники, описуючи свої суворі обмеження.
Коли дослідники кажуть “Без пошуку”, вони мають на увазі іншу поширену техніку вирішення проблем ШІ, коли системи пробують багато різних можливих рішень і вибирають найкраще. Пошукові алгоритми працюють шляхом систематичного вивчення варіантів – як шахова програма, що оцінює тисячі можливих ходів, – а не шляхом безпосереднього вивчення рішення. CompressARC уникає цього підходу спроб і помилок, покладаючись виключно на градієнтний спуск – математичний метод, який поступово налаштовує параметри мережі для зменшення помилок, подібно до того, як ви можете знайти дно долини, завжди йдучи вниз.

Хоча CompressARC запозичує деякі структурні принципи з трансформаторів (наприклад, використання залишкового потоку із представленнями, якими оперують), це спеціальна архітектура нейронної мережі, розроблена спеціально для цієї задачі стиснення. Вона не базується на LLM або стандартній моделі трансформатора.
На відміну від типових методів машинного навчання, CompressARC використовує нейронну мережу лише як декодер. Під час кодування (процес перетворення інформації в стислий формат) система точно налаштовує внутрішні налаштування мережі і дані, що подаються в неї, поступово вносячи невеликі корективи для мінімізації помилок. Це створює максимально стиснене представлення, при цьому правильно відтворюючи відомі частини пазла. Ці оптимізовані параметри потім стають стисненим представленням, яке зберігає головоломку та її рішення в ефективному форматі.

“Ключова проблема полягає в тому, щоб отримати це компактне представлення, не потребуючи відповідей в якості вхідних даних”, – пояснюють дослідники. Система по суті використовує стиснення як форму виведення”.
Цей підхід може виявитися цінним в областях, де немає великих наборів даних, або коли системам потрібно вивчати нові завдання з мінімальною кількістю прикладів. Робота припускає, що деякі форми інтелекту можуть виникати не з запам’ятовування шаблонів у величезних наборах даних, а з ефективного представлення інформації в компактних формах.
Зв’язок між стисненням та інтелектом
Потенційний зв’язок між стисненням та інтелектом може здатися дивним на перший погляд, але він має глибоке теоретичне коріння в таких поняттях комп’ютерних наук, як (найкоротша програма, яка виробляє заданий результат) і теоретичний золотий стандарт для прогнозування, еквівалентний оптимальному алгоритму стиснення.
Щоб ефективно стискати інформацію, система повинна розпізнавати шаблони, знаходити закономірності і “розуміти” основну структуру даних – здатності, які відображають те, що багато хто вважає інтелектуальною поведінкою. Система, яка може передбачити, що буде наступним у послідовності, може ефективно стиснути цю послідовність. Як наслідок, деякі комп’ютерні науковці протягом десятиліть припускали, що стиснення можна прирівняти до загального інтелекту. На основі цих принципів було запропоновано нагороди дослідникам, які зможуть стиснути файл розміром 1 Гб до найменшого розміру.
Раніше ми писали про інтелект і стиснення у вересні 2023 року, коли виявили, що великі мовні моделі іноді можуть перевершити спеціалізовані алгоритми стиснення. У тому дослідженні вчені виявили, що модель DeepMind Chinchilla 70B може стискати фрагменти зображень до 43,4% від їхнього початкового розміру (що перевищує показник PNG на 58,5%), а звукові семпли – лише до 16,4% (що перевершує показник FLAC на 30,3%).

Дослідження 2023 року показало глибокий зв’язок між стисненням та інтелектом – ідея про те, що справжнє розуміння закономірностей у даних дає змогу ефективніше стискати їх, збігається з цим новим дослідженням CMU. У той час як DeepMind продемонстрував можливості стиснення на вже навченій моделі, робота Ляо і Гу використовує інший підхід, показуючи, що процес стиснення може генерувати інтелектуальну поведінку з нуля.
Це нове дослідження має важливе значення, оскільки воно кидає виклик усталеному підходу до розробки ШІ, який зазвичай спирається на масивні набори даних для попереднього навчання і дорогі в обчислювальному плані моделі. У той час як провідні компанії-розробники ШІ прагнуть до створення все більших моделей, навчених на більш обширних наборах даних, CompressARC пропонує інтелект, заснований на принципово іншому принципі”.
<"Інтелект CompressARC виникає не з попереднього навчання, великих наборів даних, вичерпного пошуку або масивних обчислень, а зі стиснення", - підсумовують дослідники. "Ми кидаємо виклик традиційній залежності від великого обсягу попередньої підготовки і даних і пропонуємо майбутнє, в якому індивідуальні цілі стиснення і ефективні обчислення часу виведення працюють разом, щоб витягти глибокі інтелектуальні дані з мінімальних вхідних даних."
Обмеження і погляд у майбутнє
Навіть попри свої успіхи, система Ляо і Гу має чіткі обмеження, які можуть викликати скептицизм. Хоча вона успішно розв’язує головоломки, пов’язані з призначенням кольорів, заливкою, обрізанням та ідентифікацією сусідніх пікселів, вона бореться із завданнями, що вимагають підрахунку, розпізнавання шаблонів на великій відстані, поворотів, віддзеркалень або імітації поведінки агента. Ці обмеження вказують на області, де простих принципів стиснення може бути недостатньо.
Дослідження не було рецензоване, і 20-відсоткова точність розпізнавання невидимих головоломок, хоча й помітна без попереднього навчання, значно поступається як людським показникам, так і найкращим системам штучного інтелекту. Критики можуть стверджувати, що CompressARC може використовувати специфічні структурні патерни в головоломках ARC, які не можуть бути узагальнені для інших областей, ставлячи під сумнів те, що стиснення саме по собі може служити основою для більш широкого інтелекту, а не просто бути одним з компонентів серед багатьох, необхідних для надійних можливостей міркування.
І все ж, оскільки розвиток штучного інтелекту продовжує стрімко розвиватися, якщо CompressARC витримає подальше вивчення, він пропонує погляд на можливий альтернативний шлях, який може привести до корисної інтелектуальної поведінки, не вимагаючи ресурсів від домінуючих сьогодні підходів. Або, щонайменше, вона може розкрити важливий компонент загального інтелекту машин, який все ще погано вивчений.


