Розбіжність між результатами тестування моделі o3 AI від OpenAI та сторонніх розробників полягає в практиці тестування моделі.
Під час презентації OpenAI компанія стверджувала, що модель може відповісти трохи більше ніж на чверть запитань у FrontierMath, складному наборі математичних задач. Цей показник випередив конкурентів – модель, що посіла друге місце, змогла правильно відповісти лише на близько 2% завдань FrontierMath.
“Сьогодні всі наявні пропозиції мають менше 2% [на FrontierMath], – говорить Марк Чен, директор з досліджень OpenAI, – Ми бачимо, що за допомогою o3 в агресивних налаштуваннях обчислень під час тестування ми можемо отримати більше 25%”.
Як виявилося, ця цифра, швидше за все, була верхньою межею, досягнутою версією o3 з більшою кількістю обчислень, ніж у моделі OpenAI, публічно представленої минулого тижня.
Epoch AI, дослідницький інститут, що стоїть за FrontierMath, опублікував результати своїх незалежних тестів o3 в п’ятницю. Epoch виявив, що o3 набрав близько 10%, що значно нижче найвищого заявленого результату OpenAI.
OpenAI випустила o3, свою довгоочікувану модель міркувань, разом з o4-mini, меншою і дешевшою моделлю, яка прийшла на зміну o3-mini.
Ми оцінили нові моделі за допомогою нашого набору математичних і природничо-наукових тестів. Результати в темі!
– Epoch AI (@EpochAIResearch)
Це не означає, що OpenAI збрехав. Результати бенчмарку, опубліковані компанією в грудні, показують нижню межу балів, яка збігається з балами, отриманими Epoch. Epoch також зазначила, що її налаштування тестування, ймовірно, відрізняються від OpenAI, і що вона використовувала оновлену версію FrontierMath для своїх оцінок.
“Різниця між нашими результатами і OpenAI може бути пов’язана з тим, що OpenAI оцінює з більш потужним внутрішнім каркасом, використовуючи більше тестового часу [обчислень], або з тим, що ці результати були виконані на іншій підмножині FrontierMath (180 завдань в frontiermath-2024-11-26 проти 290 завдань в frontiermath-2025-02-28-private)”, – пише Epoch.
Звіт ARC Prize Foundation, організації, яка тестувала попередню версію o3, підтверджує, що публічна модель o3 “є іншою моделлю […], налаштованою на використання чату/продукту”, що підтверджує звіт Epoch.
“Всі випущені обчислювальні рівні o3 менші, ніж версія, яку ми [тестували], – написали в ARC Prize. Загалом, можна очікувати, що більші обчислювальні яруси отримають кращі результати в тестах.
Повторне тестування випущеної o3 на ARC-AGI-1 займе день або два. Оскільки сьогоднішній реліз – це суттєво інша система, ми перемарковуємо наші попередні результати як “попередній перегляд”:
o3-preview
o3-попередній перегляд (низький): 75.7%, $200 за завдання
o3-preview (високий): 87.5%, $34.4k/задача
Вище використовується тарифний план o1 pro…
– Майк Кнуп (@mikeknoop)
Венда Чжоу (Wenda Zhou), член технічного персоналу OpenAI, стверджує, що o3 у виробництві “більш оптимізована для реальних випадків використання” та швидкості порівняно з версією o3, продемонстрованою в грудні. Як наслідок, він додав, що вона може демонструвати “розбіжності” з еталонними показниками.
“[Ми] зробили [оптимізацію], щоб зробити [модель] більш економічно ефективною [і] більш корисною в цілому”, – сказав Чжоу. “Ми все ще сподіваємося, що – ми все ще думаємо, що – це набагато краща модель […] Вам не доведеться так довго чекати на відповідь, коли ви запитуєте, що є реальною річчю з цими [типами] моделей.”
Звісно, той факт, що публічний реліз o3 не відповідає обіцянкам OpenAI щодо тестування, є дещо спірним, оскільки моделі компанії o3-mini-high і o4-mini перевершують o3 на FrontierMath, і OpenAI планує дебютувати більш потужний варіант o3, o3-pro, в найближчі тижні.
Втім, це ще одне нагадування про те, що бенчмарки ШІ краще не сприймати за чисту монету – особливо коли джерелом є компанія, яка пропонує послуги на продаж.
“Суперечки” щодо бенчмаркінгу стають звичним явищем в індустрії ШІ, оскільки постачальники змагаються за те, щоб потрапити в заголовки газет і привернути увагу до нових моделей.
У січні Epoch виступав за те, щоб почекати з розкриттям інформації про фінансування OpenAI до того, як компанія оголосить про o3. Багато вчених, які брали участь у розробці FrontierMath, не знали про участь OpenAI, поки про це не стало відомо.
Зовсім недавно компанія xAI Ілона Маска опублікувала оманливі графіки порівняльних тестів для своєї останньої моделі ШІ, Grok 3. Лише цього місяця компанія Meta зізналася, що рекламувала результати тестів для версії .
Оновлено о 16:21 за тихоокеанським часом: Додано коментарі Венди Чжоу (Wenda Zhou), члена технічного персоналу OpenAI, з прямого ефіру минулого тижня.
Додані коментарі


