Нова компанія , , вийшла з тіні з сімейством відкритих моделей ШІ, які можна перемикати між режимами “міркування” і “не міркування”.
Моделі міркувань, такі як OpenAI, показали велику перспективу в таких галузях, як математика і фізика, завдяки їхній здатності ефективно перевіряти факти, працюючи над складними проблемами крок за кроком. Однак це міркування має свою ціну: більш високі обчислення і затримки. Саме тому ми шукаємо “гібридні” архітектури моделей, які поєднують компоненти міркувань зі стандартними, не пов’язаними з міркуваннями елементами. Гібридні моделі можуть швидко відповідати на прості запитання, витрачаючи додатковий час на розгляд більш складних запитів.
Усі моделі Deep Cogito, які називаються Cogito 1, є гібридними моделями. Cogito стверджує, що вони перевершують найкращі відкриті моделі такого ж розміру, в тому числі моделі від Meta і китайського стартапу AI.
“Кожна модель може відповідати безпосередньо […] або саморефлексувати перед відповіддю (як моделі міркувань)”, – повідомляє компанія. “[Всі вони] були розроблені невеликою командою приблизно за 75 днів”.
Моделі Cogito 1 мають від 3 мільярдів параметрів до 70 мільярдів параметрів, і Cogito заявляє, що в найближчі тижні і місяці до них приєднаються моделі з 671 мільярдом параметрів. Параметри приблизно відповідають навичкам моделі вирішувати проблеми, причому чим більше параметрів, тим краще.
Cogito 1 не був розроблений з нуля, щоб бути зрозумілим. Deep Cogito спирається на відкриті моделі Llama від Meta та Qwen від Alibaba, щоб створити свою власну. Компанія заявляє, що застосувала нові підходи до навчання, щоб підвищити продуктивність базових моделей та уможливити перемикання міркувань.
Згідно з результатами внутрішнього бенчмаркінгу Cogito, найбільша модель Cogito 1, Cogito 70B, з міркуваннями перевершує модель міркувань DeepSeek R1 за кількома математичними та мовними оцінками. Cogito 70B з вимкненими міркуваннями також затьмарює нещодавно випущену Meta модель Llama 4 Scout на LiveBench, універсальному тесті ШІ.
Кожна модель Cogito 1 доступна для завантаження або використання через API хмарних провайдерів Fireworks AI і Together AI.

<"Наразі ми все ще перебуваємо на ранніх стадіях [нашої] кривої масштабування, використовуючи лише частину обчислювальних ресурсів, які зазвичай зарезервовані для традиційного навчання на великих мовних моделях, - написала Cogito у своєму блозі. "Рухаючись далі, ми досліджуємо додаткові підходи для самовдосконалення після навчання".
<Компанія Deep Cogito, що базується в Сан-Франциско, була заснована в червні 2024 року. Компанія має двох співзасновників - Дрішана Арору та Дхрува Малхотру. Раніше Малхотра був менеджером по продукту в лабораторії Google AI DeepMind, де працював над технологією генеративного пошуку. Арора був старшим інженером програмного забезпечення в Google.
Deep Cogito, серед прихильників якої є South Park Commons, має амбітну мету створити “загальний суперінтелект”. Засновники компанії розуміють під цим словосполученням ШІ, який може виконувати завдання краще, ніж більшість людей, і “відкривати абсолютно нові можливості, які ми ще не можемо собі уявити”.


