Показники Meta для своїх нових моделей штучного інтелекту трохи вводять в оману

Одна з версій Meta, випущена в суботу, Maverick, – це тест, в якому люди-рейтинги порівнюють результати моделей і вибирають ту, якій вони віддають перевагу. Але, схоже, версія Maverick, яку Meta розгорнула на LM Arena, відрізняється від версії, яка широко доступна для розробників.

Як зазначено на X, Meta зазначила в своєму оголошенні, що Maverick на LM Arena є “експериментальною версією чату”. Тим часом, діаграма на , показує, що тестування Meta на LM Arena проводилося з використанням “Llama 4 Maverick, оптимізованого для розмовної мови”

З різних причин LM Arena ніколи не був найнадійнішим показником продуктивності АІ-моделі. Але компанії, що займаються розробкою АІ, як правило, не налаштовували свої моделі, щоб отримати кращі результати в LM Arena, або, принаймні, не визнавали, що робили це.

Проблема з адаптацією моделі під еталон, приховуванням її, а потім випуском “ванільного” варіанту тієї самої моделі полягає в тому, що розробникам складно точно передбачити, наскільки добре модель працюватиме в конкретних умовах. Це також вводить в оману. В ідеалі, бенчмарки – – надають моментальний знімок сильних і слабких сторін окремої моделі для цілого ряду завдань.

Дійсно, дослідники X мають загальнодоступний Maverick у порівнянні з моделлю, розміщеною на LM Arena. Версія LM Arena, здається, використовує багато смайликів і дає неймовірно розлогі відповіді.

Okay Llama 4 – це просто лажа, що це за яп-сіті

– Натан Ламберт (Nathan Lambert)

– Натан Ламберт (@natolambert)

Я не знаю, що це за місто, але я знаю, що це за місто.

Чомусь модель Llama 4 в Arena використовує набагато більше емодзі

а разом з . ai, здається, краще:

– Tech Dev Notes (@techdevnotes)

Ми звернулися за коментарями до Meta і Chatbot Arena, організації, яка підтримує LM Arena, за коментарями.

Показники Meta для своїх нових моделей штучного інтелекту трохи вводять в оману

Залишити відповідь Скасувати коментар

Останні коментарі

Останні публікації

Залишити відповідь Скасувати коментар

Категорії

Останні коментарі

Останні публікації