Промотори – це регуляторні елементи ДНК, які контролюють експресію генів шляхом рекрутування факторів транскрипції та РНК-полімерази [1,2]. Природні промотори демонструють обмежений динамічний діапазон і недостатню ортогональність для складних інженерних застосувань [[3], [4], [5]]керуючи розробкою синтетичних промоторів із спеціальними характеристиками для синтетичної біології та метаболічної інженерії [6]. Дріжджі, як основний еукаріотичний організм, особливо потребують добре охарактеризованих синтетичних промоторів для точного метаболічного контролю та біопродукції [7]. Незважаючи на досягнення в інженерії промоторів шляхом випадкового мутагенезу та раціонального дизайну [[8], [9], [10]], розробка високоефективних синтетичних промоторів залишається складною через складні зв’язки послідовності-функції та контекстно-залежну активність [11]. Ці обмеження підкреслюють необхідність інноваційних стратегій для систематичного проектування та оптимізації промоторів з бажаними профілями експресії.
Нещодавні досягнення у широкомасштабних технологіях секвенування ДНК та штучного інтелекту дозволили створити нові обчислювальні підходи для розробки промоторів [12,13]. Моделі послідовності до експресії (S2E), засновані на глибокому навчанні, служать основою цих підходів, виявляючи неявні закономірності у великих наборах даних і прогнозуючи вплив регуляторних елементів генів, полегшуючи дизайн функціональних послідовностей промоторів [[14], [15], [16], [17]]. Було розроблено різні моделі S2E для оптимізації промоторів у різних біологічних системах, починаючи від Кишкова паличка до фотосинтезуючого мікроорганізму [[18], [19], [20], [21]]. Наприклад, інтеграція умовних генеративних суперницьких мереж (GAN) з генетичними алгоритмами дозволила адаптувати промоторні послідовності до конкретних біологічних вимог [18]. Незважаючи на ці досягнення, поточні методи проектування та оптимізації промоутерів залишаються обмеженими кількома обмеженнями. Стратегії оптимізації можуть потрапити в пастку локальних оптимумів і страждати від низької ефективності через залежність від ітераційних процесів перевірки [22]. Генеративні моделі, такі як GAN, схильні до колапсу режиму та можуть неадекватно фіксувати розподіл частот k-mers [23]що призводить до розбіжностей із характеристиками послідовності. Крім того, досяжна стеля продуктивності цих стратегій обмежена точністю, можливістю узагальнення та прихованими упередженнями базових прогнозних моделей S2E [24].
Щоб усунути ці обмеження, ми представляємо DOSDiff, нову структуру, яка використовує дискретні ймовірнісні моделі дифузії з усуненням шуму (D3PM). [25] для синтезу та оптимізації промотора. Вивчаючи внутрішні розподіли промоторів високої експресії, DOSDiff долає великі вимоги до скринінгу та обмеження моделі S2E. DOSDiff використовує структурований D3PM у дискретних просторах станів для моделювання промоторних послідовностей безпосередньо на рівні нуклеотидів, полегшуючи точне представлення послідовності та маніпуляції. Крім того, DOSDiff забезпечує спрямовану локальну оптимізацію за допомогою вибіркових базових модифікацій, що дозволяє точно налаштовувати властивості послідовності, зберігаючи функціональність промотора. Це заповнює критичний розрив між синтетичними та природними промоторами як у характеристиках послідовності, так і в біологічній активності. DOSDiff досягає ефективного дизайну та оптимізації промоутера, фіксує правила кодування промоутера Saccharomyces cerevisiaeдосягаючи схожості 4-мерного розподілу 0,8910 ± 0,0002 (п = 3), перевершуючи Wgan-GP (0,7282 ± 0,1103) [19] і DBGM [26] (0,7549 ± 0,0274) на 22,36 % та 18,03 % відповідно. Метод продемонстрував надійне міжвидове узагальнення з усіма Пічія вівчарська (P. shepherdis)оптимізовані промотори, що підтримують функціональну активність і досягають до 1,70-кратного збільшення експресії in vivo. У сукупності ці результати демонструють, що DOSDiff забезпечує універсальну та ефективну платформу для розробки промоторів, що забезпечує широке застосування в синтетичній біології та метаболічній інженерії.

