...
Цифрова Реклама

Цей документ AI вводить ефективний розмір стану (ESS): показник для кількісного визначення використання пам'яті в моделях послідовності для оптимізації продуктивності

Цей документ AI вводить ефективний розмір стану (ESS): показник для кількісного визначення використання пам'яті в моделях послідовності для оптимізації продуктивності

У машинному навчанні моделі послідовностей розроблені для обробки даних із часовою структурою, такими як мовою, часовими рядами або сигналами. Ці моделі відстежують залежності в часі, що дозволяє генерувати узгоджені результати, навчаючись з прогресування входів. Нейронні архітектури, такі як періодичні нейронні мережі та механізми уваги, керують тимчасовими відносинами через внутрішні стани. Здатність моделі запам'ятати та пов'язувати попередні входи до поточних завдань залежить від того, наскільки добре вона використовує свої механізми пам'яті, які мають вирішальне значення для визначення ефективності моделі в реальних завданнях, що включають послідовні дані.

Одним із стійких проблем у дослідженні моделей послідовностей є визначення того, як використовується пам'ять під час обчислення. Незважаючи на те, що розмір пам'яті моделі – часто вимірюється як розмір стану або кешу – легко в кількісному визначенні, він не виявляє, чи ефективно використовується ця пам'ять. Дві моделі можуть мати подібні потужності пам'яті, але дуже різні способи застосування цієї здатності під час навчання. Ця невідповідність означає, що існуючі оцінки не змогли зафіксувати критичні нюанси в поведінці моделі, що призводить до неефективності в проектуванні та оптимізації. Для спостереження за використанням пам'яті необхідний більш вишуканий показник, а не просто розмір пам'яті.

Попередні підходи до розуміння використання пам’яті в моделях послідовностей покладаються на індикатори рівня поверхні. Візуалізація операторів, як карти уваги або основні показники, такі як ширина моделі та ємність кешу, дали певне розуміння. Однак ці методи обмежені, оскільки вони часто застосовуються лише до вузьких класів моделей або не враховують важливих архітектурних особливостей, таких як причинно -наслідкові маскування. Крім того, такі методи, як спектральний аналіз, перешкоджають припущенням, які не утримують у всіх моделях, особливо тих, хто має динамічні або вхідні структури. Як результат, вони не вистачають керівництва, як моделі можна оптимізувати або стиснути без руйнування продуктивності.

Дослідники з Liquid AI, Університет Токіо, Рікен та Стенфордський університет представили ефективну метрику (ESS) (ESS), щоб виміряти, яку частину пам’яті моделі справді використовується. ESS розроблений за допомогою принципів теорії управління та обробки сигналів, і він націлений на загальний клас моделей, що включають інваріантні вхідні та вхідні лінійні оператори. Вони охоплюють діапазон структур, таких як варіанти уваги, згорткові шари та механізми рецидиву. ESS працює, аналізуючи ранг підматриців всередині оператора, зокрема, зосереджуючись на тому, як минулі входи сприяють поточним виходам, забезпечуючи вимірюваний спосіб оцінки використання пам'яті.

Розрахунок ESS ґрунтується на аналізі рангу підматрилок оператора, які пов'язують попередні сегменти введення до пізніших результатів. Було розроблено два варіанти: толерантність-ESS, яка використовує визначений користувачем поріг одниничих значень та ентропійна ESS, яка використовує нормалізовану спектральну ентропію для більш адаптивного виду. Обидва методи розроблені для вирішення практичних питань обчислень та масштабні для багатошарових моделей. ESS може бути обчислений на індекс каналу та послідовності та агрегований як середній або загальний ESS для всебічного аналізу. Дослідники підкреслюють, що ESS є нижчою межею на необхідній пам'яті і може відображати динамічні зразки в навчанні моделі.

Емпірична оцінка підтвердила, що ESS тісно співвідноситься з виконанням різних завдань. У завданнях багаторазових асоціативних відкликань (MQAR) ESS, нормалізований кількістю пар ключових значень (ESS/KV), показав більш сильну кореляцію з точністю моделі, ніж теоретичний розмір стану (TSS/KV). Наприклад, моделі з високою ESS послідовно досягали більшої точності. Дослідження також виявило два режими невдачі у використанні пам'яті моделі: насичення стану, де ESS майже дорівнює ТСС та колапсу стану, де ESS залишається недостатнім. Також ESS успішно застосовувався для моделювання стиснення за допомогою дистиляції. Більш високий ESS у моделях вчителів призвів до більшої втрати при стисненні до менших моделей, показуючи корисність ESS для прогнозування стисливості. Він також відстежував, як жетони в кінці послідовності модулювали використання пам'яті у великих мовних моделях, таких як Falcon Mamba 7B.

Дослідження окреслює точний та ефективний підхід до вирішення розриву між теоретичним розміром пам'яті та фактичним використанням пам'яті в моделях послідовності. Завдяки розробці ESS дослідники пропонують надійну метрику, яка приносить чіткість модельної оцінки та оптимізації. Він прокладає шлях для розробки більш ефективних моделей послідовностей та дозволяє використовувати ESS у регуляризації, ініціалізації та моделі стратегій стиснення, заснованих на чіткій, кількісно оціненій поведінці пам'яті.


Перевірте Папір. Весь кредит на це дослідження стосується дослідників цього проекту. Також сміливо слідкуйте за нами Твіттер І не забудьте приєднатися до нашого 90k+ ml subreddit.

Ось короткий огляд того, що ми будуємо в MarkTechPost:


Ніхіл – стажистий консультант у MarkTechPost. Він здобуває інтегрований подвійний ступінь матеріалів в Індійському технологічному інституті, Харагпур. Ніхіл – ентузіаст AI/ML, який завжди досліджує програми в таких галузях, як біоматеріали та біомедична наука. З сильним досвідом матеріалознавства він вивчає нові досягнення та створює можливості для внеску.

Alex

About Author

Recommend – дізнавайтеся більше про події, що формують наше сьогодення. Найцікавіші новини України та світу, аналітика, тренди та ексклюзивні матеріали – все це на recommend.com.ua!

Отримуйте останні оновлення та великі пропозиції