Одна з версій Meta, випущена в суботу, Maverick, – це тест, в якому люди-рейтинги порівнюють результати моделей і вибирають ту, якій вони віддають перевагу. Але, схоже, версія Maverick, яку Meta розгорнула на LM Arena, відрізняється від версії, яка широко доступна для розробників.
Як зазначено на X, Meta зазначила в своєму оголошенні, що Maverick на LM Arena є “експериментальною версією чату”. Тим часом, діаграма на , показує, що тестування Meta на LM Arena проводилося з використанням “Llama 4 Maverick, оптимізованого для розмовної мови”
З різних причин LM Arena ніколи не був найнадійнішим показником продуктивності АІ-моделі. Але компанії, що займаються розробкою АІ, як правило, не налаштовували свої моделі, щоб отримати кращі результати в LM Arena, або, принаймні, не визнавали, що робили це.
Проблема з адаптацією моделі під еталон, приховуванням її, а потім випуском “ванільного” варіанту тієї самої моделі полягає в тому, що розробникам складно точно передбачити, наскільки добре модель працюватиме в конкретних умовах. Це також вводить в оману. В ідеалі, бенчмарки – – надають моментальний знімок сильних і слабких сторін окремої моделі для цілого ряду завдань.
Дійсно, дослідники X мають загальнодоступний Maverick у порівнянні з моделлю, розміщеною на LM Arena. Версія LM Arena, здається, використовує багато смайликів і дає неймовірно розлогі відповіді.
Okay Llama 4 – це просто лажа, що це за яп-сіті
– Натан Ламберт (Nathan Lambert)
– Натан Ламберт (@natolambert)
Я не знаю, що це за місто, але я знаю, що це за місто.
Чомусь модель Llama 4 в Arena використовує набагато більше емодзі
а разом з . ai, здається, краще:
– Tech Dev Notes (@techdevnotes)
Ми звернулися за коментарями до Meta і Chatbot Arena, організації, яка підтримує LM Arena, за коментарями.


