На початку листопада 2024 року Федеральна комісія з регулювання енергетики США (FERC) відхилила запит компанії Amazon на купівлю додаткових 180 мегават електроенергії безпосередньо з атомної електростанції Susquehanna для розташованого неподалік дата-центру. Відмова була зумовлена аргументом, що купівля електроенергії напряму, замість того, щоб отримувати її через мережу, як всі інші, працює проти інтересів інших користувачів.
Попит на електроенергію в США залишався незмінним протягом майже 20 років. “Але зараз ми бачимо, що прогнози навантаження зростають. Залежно від того, [які] цифри ви хочете прийняти, вони або злітають до небес, або просто швидко зростають”, – сказав Марк Крісті, член Комісії FERC.
Частково сплеск попиту припадає на центри обробки даних, а їх зростаюча жага до потужності частково пояснюється використанням все більш складних моделей штучного інтелекту. Як і у випадку з усіма розробками, що формують світ, ця тенденція почала розвиватися завдяки баченню – в буквальному сенсі цього слова.
Момент AlexNet
У 2012 році Алекс Крижевський, Ілля Суцкевер та Джеффрі Е. Хінтон, дослідники ШІ в Університеті Торонто, працювали над згортковою нейронною мережею (CNN) для ImageNet LSRVC, конкурсу з розпізнавання зображень. Правила конкурсу були досить простими: Команда повинна була створити систему штучного інтелекту, яка могла б класифікувати зображення, отримані з бази даних, що містить понад мільйон мічених зображень.
Завдання було надзвичайно складним на той час, тому команда вирішила, що їм потрібна справді велика нейронна мережа – набагато більша, ніж все, що намагалися створити інші дослідницькі команди. AlexNet, названа на честь провідного дослідника, мала кілька шарів, понад 60 мільйонів параметрів і 650 тисяч нейронів. Проблема з таким гігантом полягала в тому, як його навчити.
У лабораторії команди було кілька відеокарт Nvidia GTX 580, кожна з яких мала 3 ГБ пам’яті. Як пишуть дослідники, AlexNet був просто занадто великим, щоб поміститися на одному графічному процесорі, який у них був. Тому вони придумали, як розділити фазу навчання AlexNet між двома паралельно працюючими графічними процесорами – половина нейронів працювала на одному графічному процесорі, а інша половина – на іншому.
AlexNet з великим відривом виграв конкурс 2012 року, але команда зробила дещо набагато глибше. Розмір моделей ШІ був раз і назавжди відокремлений від того, що можна було зробити на одному CPU або GPU. Джина було випущено з пляшки.
(Вихідний код AlexNet був у Музеї комп’ютерної історії).
Балансування
Після AlexNet використання декількох графічних процесорів для навчання ШІ стало простою справою. Дедалі потужніші ШІ використовували десятки графічних процесорів, потім сотні, тисячі і більше. Але пройшов певний час, перш ніж ця тенденція почала давати про себе знати в електромережі. За даними Інституту досліджень електроенергетики (EPRI), енергоспоживання центрів обробки даних залишалося відносно незмінним у період з 2010 по 2020 рік. Це не означає, що попит на послуги центрів обробки даних не змінився, але підвищення енергоефективності центрів обробки даних було достатнім, щоб компенсувати той факт, що ми стали використовувати їх більше.
Двома ключовими факторами цієї ефективності стали все більш широке впровадження обчислень на базі графічних процесорів і поліпшення енергоефективності цих графічних процесорів. “Це було основою для створення Nvidia. Ми об’єднали процесори з прискорювачами, щоб підвищити ефективність”, – сказав Діон Харріс (Dion Harris), керівник відділу маркетингу продуктів для центрів обробки даних у Nvidia. У період 2010-2020 років чіпи Nvidia для центрів обробки даних стали приблизно в 15 разів ефективнішими, чого було достатньо, щоб утримувати енергоспоживання центрів обробки даних на стабільному рівні”.
Усе змінилося з появою величезних великих моделей мовних трансформаторів, починаючи з ChatGPT у 2022 році. “Відбувся дуже великий стрибок, коли трансформатори стали мейнстрімом”, – каже Мошараф Чоудхурі, професор Мічиганського університету. (Чаудхурі також є членом ML Energy Initiative, дослідницької групи, яка займається підвищенням енергоефективності ШІ).
Nvidia продовжує підвищувати свою ефективність, збільшивши її вдесятеро з 2020 року до сьогодні. Компанія також продовжує вдосконалювати вже розгорнуті чіпи. “Багато в чому ця ефективність була досягнута завдяки оптимізації програмного забезпечення. Лише минулого року ми покращили загальну продуктивність Hopper приблизно в 5 разів”, – сказав Гарріс. Незважаючи на це підвищення ефективності, за оцінками Національної лабораторії Лоуренса Берклі, в США споживання електроенергії центрами обробки даних зросло з приблизно 76 ТВт-год у 2018 році до 176 ТВт-год у 2023 році.
Життєвий цикл ШІ
ШМ працюють з десятками мільярдів нейронів, кількість яких наближається до кількості нейронів у людському мозку, а можливо, навіть перевершує їх. За оцінками, GPT 4 працює з приблизно 100 мільярдами нейронів, розподілених по 100 шарах, і понад 100 трильйонами параметрів, які визначають міцність зв’язків між нейронами. Ці параметри встановлюються під час навчання, коли ШІ отримує величезні обсяги даних і навчається, коригуючи ці значення. Після цього настає фаза виведення, коли він зайнятий обробкою запитів, що надходять щодня.
Фаза навчання вимагає гігантських обчислювальних зусиль – імовірно, Open AI використовував понад 25 000 графічних процесорів Nvidia Ampere 100, які працювали на всіх циліндрах протягом 100 днів. Орієнтовне енергоспоживання становить 50 ГВт-годин, що достатньо для енергозабезпечення міста середнього розміру протягом року. Згідно з даними Google, на навчання припадає 40 відсотків загального енергоспоживання ШІ-моделі протягом її життєвого циклу. Решта 60 відсотків припадає на виведення, де показники енергоспоживання менш вражаючі, але з часом вони зростають.
Скорочення моделей ШІ
Зростання енергоспоживання змусило спільноту комп’ютерних наук замислитися над тим, як знизити вимоги до пам’яті та обчислювальних ресурсів, не надто жертвуючи при цьому продуктивністю. “Один із способів зробити це – зменшити обсяг обчислень”, – говорить Дже-Вон Чанг, дослідник з Мічиганського університету і член ML Energy Initiative.
Однією з перших речей, яку спробували дослідники, була техніка під назвою “обрізка”, яка мала на меті зменшити кількість параметрів. Ян Лекун, нині головний науковець зі штучного інтелекту в компанії Meta, запропонував її ще в 1989 році, назвавши її (дещо загрозливо) “оптимальним пошкодженням мозку”. Ви берете навчену модель і видаляєте деякі з її параметрів, зазвичай вибираючи ті, що мають нульове значення і нічого не додають до загальної продуктивності. “Ви берете велику модель і переганяєте її в меншу, намагаючись зберегти якість”, – пояснив Чанг.
Ви також можете зробити ці параметри, що залишилися, більш компактними за допомогою трюку, який називається квантуванням. Параметри в нейронних мережах зазвичай представлені у вигляді числа з плаваючою комою однієї точності, що займає 32 біти комп’ютерної пам’яті. “Але ви можете змінити формат параметрів на менший, що зменшить обсяг необхідної пам’яті і зробить обчислення швидшими”, – каже Чанг.
Зменшення окремого параметра має незначний ефект, але коли їх мільярди, це має значення. Також можна проводити навчання з урахуванням квантування, яке виконує квантування на етапі навчання. За даними Nvidia, яка впровадила навчання з квантуванням у свій інструментарій для оптимізації ШІ-моделей, це має скоротити вимоги до пам’яті на 29-51 відсоток.
Усікання та квантування належать до категорії методів оптимізації, які покладаються на зміну способу внутрішньої роботи АІ-моделей – скільки параметрів вони використовують і наскільки інтенсивним є їх зберігання в пам’яті. Ці методи схожі на тюнінг двигуна в автомобілі, щоб він їхав швидше і споживав менше палива. Але є й інша категорія методів, які зосереджуються на процесах, що використовуються комп’ютерами для запуску цих ШІ-моделей, а не на самих моделях – як прискорення автомобіля за рахунок кращої синхронізації світлофорів.
Фінішувати першими
Окрім оптимізації самих моделей штучного інтелекту, ми також можемо оптимізувати спосіб їх запуску в центрах обробки даних. Розподіл навантаження на етапі навчання рівномірно між 25 тисячами графічних процесорів призводить до неефективності. “Коли ви розбиваєте модель на 100 000 графічних процесорів, ви в кінцевому підсумку нарізаєте її в декількох вимірах, і дуже складно зробити кожен шматок точно такого ж розміру”, – сказав Чанг.
Графічні процесори, на які покладаються значно більші робочі навантаження, мають підвищене енергоспоживання, яке не обов’язково врівноважується за рахунок тих, що мають менші навантаження. Чанг з’ясував, що якщо графічні процесори з меншим робочим навантаженням працюватимуть повільніше, споживаючи набагато менше енергії, вони закінчать роботу приблизно в той самий час, що й графічні процесори, які обробляють більші робочі навантаження, працюючи на повній швидкості. Хитрість полягала в тому, щоб налаштувати темп роботи кожного графічного процесора таким чином, щоб весь кластер завершував роботу одночасно.
Щоб зробити це, Чанг створив програмний інструмент під назвою Perseus, який визначав обсяг робочих навантажень, призначених для кожного графічного процесора в кластері. Perseus бере приблизний час, необхідний для виконання найбільшого робочого навантаження на графічному процесорі, що працює на повну потужність. Потім він оцінює, скільки обчислень потрібно виконати на кожному з решти графічних процесорів, і визначає, на якій швидкості їх потрібно запустити, щоб вони завершили роботу одночасно. “Perseus точно сповільнює роботу деяких графічних процесорів, а сповільнення означає менше енергії. Але наскрізна швидкість залишається незмінною”, – сказав Чанг.
Команда протестувала Perseus, навчаючи загальнодоступний GPT-3, а також інші великі мовні моделі та штучний інтелект комп’ютерного зору. Результати виявилися багатообіцяючими. “Perseus може скоротити до 30 відсотків енергії для всього процесу”, – сказав Чанг. За його словами, команда обговорює можливість розгортання Perseus в Meta, “але розгортання чогось у великій компанії займає багато часу”.
Чи достатньо всіх цих оптимізацій моделей і способів роботи центрів обробки даних, щоб ми залишалися в плюсі? Планування та будівництво центру обробки даних займає приблизно рік або два, але будівництво електростанції може зайняти більше часу. Тож ми виграємо ці перегони чи програємо? Важко сказати.
На зворотному боці конверта
Коли зростання енергоспоживання центрів обробки даних стало очевидним, дослідницькі групи спробували кількісно оцінити проблему. Команда Лабораторії Лоуренса Берклі підрахувала, що річне споживання енергії центрами обробки даних у 2028 році становитиме від 325 до 580 ТВт-год у США – це від 6,7 до 12 відсотків від загального обсягу споживання електроенергії в Сполучених Штатах. Міжнародне енергетичне агентство вважає, що до 2026 року цей показник становитиме близько 6%. Goldman Sachs Research прогнозує 8 відсотків до 2030 року, а EPRI – від 4,6 до 9,1 відсотка до 2030 року.
EPRI також попереджає, що вплив буде ще гіршим, оскільки центри обробки даних, як правило, зосереджені в місцях, які інвестори вважають вигідними, наприклад, у Вірджинії, яка вже спрямовує 25 відсотків своєї електроенергії в центри обробки даних. В Ірландії очікується, що в найближчому майбутньому центри обробки даних споживатимуть третину електроенергії, виробленої в усій країні. І це тільки початок.
Запуск величезних моделей штучного інтелекту, таких як ChatGPT, є однією з найбільш енергоємних функцій центрів обробки даних, але, за даними Nvidia, на неї припадає приблизно 12 відсотків їхньої роботи. Очікується, що це зміниться, якщо такі компанії, як Google, почнуть вплітати розмовні LLM у свої найпопулярніші сервіси. Згідно зі звітом EPRI, один пошук в Google сьогодні споживає близько 0,3 Вт енергії, тоді як один запит в Chat GPT збільшує цей показник до 2,9 Вт. Виходячи з цих значень, автори звіту підрахували, що пошук Google зі штучним інтелектом вимагатиме від Google розгортання 400 000 нових серверів, які споживатимуть 22,8 ТВт-год на рік.
“Пошукова система Google зі штучним інтелектом потребуватиме розгортання 400 000 нових серверів.
<"Пошуки зі штучним інтелектом споживають у 10 разів більше електроенергії, ніж пошуки без ШІ", - заявив Крісті, комісар FERC, на конференції, організованій FERC. Коли члени комісії FERC використовують ці цифри, можна подумати, що за ними стоїть тверда наукова основа. Але коли Арс запитав Чаудхурі і Чунга про їхні думки щодо цих оцінок, вони обмінялися поглядами... і посміхнулися.
Закрита проблема ШІ
Чоудхурі та Чанг не вважають ці цифри особливо достовірними. Вони вважають, що ми нічого не знаємо про те, що відбувається всередині комерційних систем ШІ, таких як ChatGPT або Gemini, тому що OpenAI і Google ніколи не публікували фактичні дані про енергоспоживання.
<"Вони не публікували жодних реальних цифр, жодних академічних робіт. Єдина цифра, 0,3 Вт на пошук в Google, з'явилася в деяких інших піар-штучках, - каже Чодвурі. Ми не знаємо, як було виміряно це енергоспоживання, на якому обладнанні та за яких умов, сказав він. Але, принаймні, це надійшло безпосередньо від Google".
“Коли ви берете це 10-кратне рівняння Google vs ChatGPT абощо – одна частина наполовину відома, інша частина невідома, а потім поділ робить якась третя сторона, яка не має ніякого відношення ні до Google, ні до Open AI”, – сказав Чоудхурі.
“Піар-штучка” Google була опублікована ще в 2009 році, а цифра 2,9 ват на запит ChatGPT, ймовірно, була заснована на коментарі про кількість графічних процесорів, необхідних для навчання GPT-4, зробленому Дженсеном Хуангом, генеральним директором Nvidia, в 2024 році. Це означає, що заява про “10-кратний пошук зі штучним інтелектом і без нього” насправді ґрунтувалася на енергоспоживанні, досягнутому на абсолютно різних поколіннях апаратного забезпечення, розділених 15-річним інтервалом. “Але цифра здавалася правдоподібною, тому люди продовжують її повторювати”, – сказав Чаудхурі.
Усі звіти, які ми маємо на сьогоднішній день, були зроблені третіми сторонами, які не пов’язані з компаніями, що будують великі ШІ, і все ж вони приходять до дивних конкретних цифр. “Вони беруть цифри, які є лише оцінками, потім множать їх на безліч інших чисел і отримують у відповідь заяви на кшталт “ШІ споживає більше енергії, ніж Британія, або більше, ніж Африка, або щось на кшталт цього”. Правда в тому, що вони цього не знають”, – сказав Чаудхурі.
<Він стверджує, що для отримання більш точних цифр потрібно провести порівняльний аналіз моделей АІ за допомогою формальної процедури тестування, яку можна було б перевірити в процесі експертного оцінювання.
<Як виявилося, ML Energy Initiative розробила саме таку процедуру тестування і провела бенчмарк на всіх моделях ШІ, які змогли дістати. Потім група опублікувала результати в Інтернеті на своєму сайті.
Рейтинг ефективності АІ
Щоб отримати хороші цифри, перше, чого позбулися в ML Energy Initiative, – це ідеї оцінювати енергоємність графічних чіпів за допомогою їхньої теплової розрахункової потужності (TDP), яка, по суті, є їхнім максимальним енергоспоживанням. Використання TDP було схоже на оцінку ефективності автомобіля на основі того, скільки палива він спалює на повній швидкості. Люди зазвичай не так їздять, і графічні процесори не так працюють, коли запускають моделі штучного інтелекту. Тому Чанг створив ZeusMonitor, універсальне рішення, яке вимірювало енергоспоживання графічного процесора на льоту.
Для тестів його команда використовувала установки з графічними процесорами Nvidia A100 і H100, які сьогодні найчастіше використовуються в центрах обробки даних, і виміряла, скільки енергії вони витрачають на запуск різних великих мовних моделей (LLM), моделей дифузії, які генерують зображення або відео на основі введеного тексту, і багатьох інших типів систем ШІ.
Найбільшою LLM, що увійшла до рейтингу, стала Llama 3.1 405B від Meta – ШІ з відкритим вихідним кодом, заснований на чаті, з 405 мільярдами параметрів. Він споживав 3352,92 джоуля енергії на запит, працюючи на двох графічних процесорах H100. Це близько 0,93 ват-годин – значно менше, ніж 2,9 ват-годин для запитів ChatGPT. Ці вимірювання підтвердили покращення енергоефективності апаратного забезпечення. Mixtral 8x22B був найбільшим LLM, який команді вдалося запустити на платформах Ampere та Hopper. Запуск моделі на двох графічних процесорах Ampere призвів до 0,32 ват-годин на запит порівняно з 0,15 ват-годин на одному графічному процесорі Hopper.
Що залишається невідомим, так це продуктивність пропрієтарних моделей, таких як GPT-4, Gemini або Grok. Команда ML Energy Initiative каже, що дослідницькій спільноті дуже важко починати шукати рішення проблем енергоефективності, коли ми навіть не знаємо, з чим саме ми стикаємося. Ми можемо робити оцінки, але Чанг наполягає на тому, що вони повинні супроводжуватися аналізом з урахуванням похибок. Нічого подібного ми сьогодні не маємо.
Найбільш нагальною проблемою, на думку Чунга та Чаудхурі, є відсутність прозорості. “Такі компанії, як Google чи Open AI, не мають жодного стимулу говорити про енергоспоживання. Якщо вже на те пішло, то оприлюднення реальних цифр зашкодить їм, – каже Чаудхурі. “Але люди повинні розуміти, що насправді відбувається, тож, можливо, нам варто якось переконати їх оприлюднити деякі з цих цифр”.
Де гума зустрічається з дорогою
“Енергоефективність в центрах обробки даних слідує тенденції, схожій на закон Мура, тільки працює в дуже великих масштабах, а не на одному чіпі, – говорить Харріс з Nvidia. За його словами, енергоспоживання на стійку (одиниця виміру, що використовується в дата-центрах з 10-14 графічними процесорами Nvidia) зростає, але продуктивність на ват стає кращою”.
“Якщо врахувати всі інновації, що відбуваються в оптимізації програмного забезпечення, системах охолодження, MEP (механічних, електричних і сантехнічних системах) і самих графічних процесорах, у нас є великий простір для маневру”, – сказав Харріс. Він очікує, що цей широкомасштабний варіант закону Мура буде діяти ще досить довго, навіть без будь-яких радикальних змін у технологіях.
На горизонті також з’являються більш революційні технології. Ідея, яка привела такі компанії, як Nvidia, до їхнього нинішнього ринкового статусу, полягала в тому, що певні завдання можна перекласти з центрального процесора на спеціальне, спеціально створене для цього обладнання. Але тепер навіть графічні процесори, ймовірно, будуть використовувати власні прискорювачі в майбутньому. Нейронні мережі та інші паралельні обчислювальні завдання можуть бути реалізовані на фотонних чіпах, які використовують світло замість електронів для обробки інформації. Фотонні обчислювальні пристрої на порядки енергоефективніші за графічні процесори, які ми маємо сьогодні, і можуть запускати нейронні мережі буквально зі швидкістю світла.
Ще одна інновація, на яку варто з нетерпінням чекати, – це 2D-напівпровідники, які дозволяють створювати неймовірно малі транзистори і розташовувати їх вертикально, значно підвищуючи щільність обчислень, можливу в межах заданої площі чіпа. “Ми розглядаємо багато з цих технологій, намагаючись оцінити, де ми можемо їх застосувати, – сказав Гарріс. “Але де дійсно є проблема – це те, як ви розгортаєте їх у масштабі. Напевно, ще трохи зарано говорити про те, де в майбутньому буде найвигідніший варіант”.
Проблема полягає в тому, що коли ми робимо ресурс більш ефективним, ми просто в кінцевому підсумку використовуємо його більше. “Це відомо ще з початку індустріальної епохи. Але чи збільшиться споживання енергії ШІ настільки, що спричинить апокаліпсис? Чанг так не вважає. На думку Чаудхурі, якщо у нас закінчиться енергія для забезпечення нашого прогресу, ми просто сповільнимося.
“Але люди завжди вміли знаходити шлях”, – додає Чаудхурі.


