Каталог Amazon SageMaker спрощує пошук, керування та співпрацю для даних і ШІ в Data Lakehouse, моделях ШІ та програмах. За допомогою Amazon SageMaker Catalog ви можете безпечно знаходити та отримувати доступ до схвалених даних і моделей за допомогою семантичного пошуку з генеративними метаданими, створеними штучним інтелектом, або можете просто попросити Amazon Q Developer з природною мовою знайти їхні дані.
Великі корпоративні клієнти мають кілька напрямків бізнесу, які виробляють і споживають дані за допомогою центрального каталогу даних SageMaker. Багато клієнтів мають центральну групу керування даними, яка відповідає за створення, публікацію та підтримку стандартів і найкращих практик керування даними в усій фірмі. У міру масштабування платформи даних клієнта команді центрального управління стає складніше підтримувати стандарти для всіх виробників і споживачів даних. Через це багатьом командам керування потрібно відстежувати дії користувачів у каталозі Amazon SageMaker, щоб гарантувати, що активи даних опубліковані відповідно до встановлених організаційних стандартів управління та найкращих практик. У цьому сценарії існує потреба в автоматизації, завдяки якій команди центрального керування можуть отримувати сповіщення про критичні події в каталозі Amazon SageMaker.
У цій публікації ми покажемо вам, як створити спеціальні сповіщення про події, що відбуваються в каталозі SageMaker, за допомогою Amazon EventBridge, AWS Lambda та Amazon Simple Notification Service (Amazon SNS). Ви можете розширити це рішення, щоб автоматично інтегрувати SageMaker Catalog із власними корпоративними інструментами робочого процесу, такими як ServiceNow і Helix.
Огляд рішення
Наведена нижче архітектура рішення показує, як SageMaker Catalog інтегрується з іншими службами AWS, такими як AWS IAM Identity Center, Amazon EventBridge, Amazon SQS, AWS Lambda та Amazon SNS, для створення автоматичних сповіщень для фіксації критичних подій у корпоративному каталозі.
- Користувач SageMaker Catalog входить в Amazon SageMaker Unified Studio за допомогою IAM Identity Center. Це може бути фахівець із обробки даних, інженер машинного навчання або аналітик, який шукає опубліковані набори даних у фірмі. Центр ідентифікації AWS IAM гарантує, що лише авторизований персонал може отримати доступ до каталогізованих активів і ресурсів ML.
- Користувач виконує дію в каталозі SageMaker. Приклад: користувач створює новий проект або користувач шукає ресурс даних і створює запит на підписку для доступу до ресурсу.
- Події користувача з каталогу SageMaker фіксуються в Amazon EventBridge. Amazon EventBridge — це повністю керована безсерверна служба шини подій, призначена для створення масштабованих програм, керованих подіями, для AWS, SaaS і спеціальних програм. Amazon EventBridge надає можливість фільтрувати події та дозволяє користувачам виконувати дії щодо певних подій. Наведений нижче приклад шаблону подій у EventBridge фільтрує події проекту, створені DataZone.
- Amazon EventBridge надсилає відфільтровані події до Amazon SQS. Маршрутизація подій до черги SQS підвищує надійність і довговічність. Amazon SQS діє як буфер між Amazon EventBridge і AWS Lambda, відокремлюючи виробників подій від споживачів. Це дозволяє функціям Lambda обробляти повідомлення у власному темпі, запобігаючи перевантаженню під час стрибків трафіку або коли вихідні ресурси тимчасово повільні або недоступні. Amazon SQS забезпечує довговічне постійне зберігання подій. Якщо служба Lambda недоступна або обмежена, повідомлення залишаються в черзі, доки їх не буде успішно оброблено, що зменшує ризик втрати даних. До основної черги SQS приєднана черга мертвих листів (DLQ). Прикріплення DLQ до SQS гарантує, що будь-які повідомлення, які не можуть бути оброблені після кількох спроб, безпечно захоплюються для перевірки та усунення несправностей, запобігаючи їх блокуванню або безкінечному переміщенню в основній черзі.
- Функція AWS Lambda зчитує повідомлення з черги SQS. Функція лямбда форматує сповіщення відповідно до ваших потреб.
- AWS Lambda публікує повідомлення в Amazon SNS. Кінцеві користувачі та команда центрального управління можуть підписатися на тему SNS, щоб отримувати сповіщення електронною поштою, коли відбувається подія в каталозі SageMaker.
- Amazon CloudWatch інтегрується з AWS Lambda для моніторингу продуктивності, реєстрації подій і може активувати сигнали тривоги, якщо щось піде не так, забезпечуючи безперебійну роботу ваших робочих процесів.
передумови
Вам потрібно налаштувати наступні передумови:
- Обліковий запис AWS із налаштованою віртуальною приватною хмарою Amazon Amazon (Amazon VPC) і базовою мережею.
- Наявний домен SageMaker Unified Studio (дотримуйтесь інструкцій із налаштування Amazon SageMaker Unified Studio).
- Надання доступу Lambda в SageMaker Unified Studio (потрібно для публікації активів)
- Додайте роль виконання Lambda як роль IAM у SageMaker Unified Studio.
- Призначте роль виконання Lambda своєму проекту на порталі SageMaker Unified Studio.
Ця конфігурація гарантує, що функція Lambda має необхідні авторизації для доступу до ресурсів Data Zone і успішної публікації ресурсів із ваших проектів SageMaker Unified Studio.
Розгортання коду
Перегляньте інструкції в нашому репозиторії GitHub, щоб розгорнути фреймворк у вашому обліковому записі AWS за допомогою AWS CDK. CDK забезпечує керовану подіями архітектуру сповіщень для Amazon SageMaker Unified Studio, зосереджуючись на подіях створення проекту та публікації активів.
Розгорнуто основні ресурси AWS – Нижче наведено основні розгорнуті ресурси AWS:
- Правила EventBridge
- DataZoneCreateProjectRule: записує події створення проекту DataZone (
CreateProject). - DataZonePublishAssetRule: фіксує події публікації активів DataZone (
CreateListingChangeSetзPUBLISHдії дляASSETтип сутності).
- DataZoneCreateProjectRule: записує події створення проекту DataZone (
- Черга SQS
- DataZoneEventQueue: буферизує події DataZone з EventBridge перед обробкою.
- Політика черги: дозволяє EventBridge надсилати повідомлення до черги SQS.
- Лямбда-функція
- ProjectNotificationLambda: обробляє повідомлення з черги SQS, отримує відомості про події з DataZone і надсилає сповіщення до теми SNS.
- Роль IAM: надає дозволи на доступ до служб SQS, SNS, журналів CloudWatch і DataZone.
- Відображення джерела події: запускає функцію лямбда для кожного повідомлення SQS.
- ProjectNotificationLambda: обробляє повідомлення з черги SQS, отримує відомості про події з DataZone і надсилає сповіщення до теми SNS.
- Тема SNS
- LambdaSNSTopic: отримує сповіщення від функції Lambda.
- Підписки на електронну пошту: дві кінцеві точки електронної пошти підписані на отримання сповіщень.
- Додайте свій ідентифікатор електронної пошти до теми SNS. Ви отримаєте електронний лист із запитом на підписку, натисніть «Підтвердити підписку»
- LambdaSNSTopic: отримує сповіщення від функції Lambda.
- Дозволи
- Amazon EventBridge надсилає події до SQS (потрібні дозволи SQS), Lambda poll читає повідомлення з Amazon SQS (потрібна роль Lambda у дозволах SQS), а Lambda публікує в Amazon SNS (потрібні дозволи SNS).
- Політики IAM: роль виконання Lambda має необхідні дозволи для операцій SQS, SNS, журналювання та зони даних.
Надані виходи (вихід CloudFormation)
- Amazon SNS Topic ARN: Для публікації сповіщень.
- Amazon SQS Queue ARN: для буферизації подій.
- Функція AWS Lambda ARN: для обробки подій.
- ARN правила Amazon EventBridge: для подій публікації активів і створення проекту.
Повідомлення про створення проекту
Виконайте наступні кроки, щоб увійти в SageMaker Unified Studio та створити проект.
- Увійдіть до SageMaker Unified Studio Console. Ви перейдете на екран входу в домен Amazon SageMaker Unified Studio (параметри входу в систему SSO та IAM).
- Виберіть Створити проект на сторінці входу в SageMaker Unified Studio.
- Виберіть назву проекту на свій розсуд, наприклад “My_Demo_Project”. У профілі проекту виберіть «Усі можливості».
- Виберіть Продовжити. Зберігати все за умовчанням.
- Виберіть Продовжити. На наступній сторінці створіть на «Створити проект».
- Фінальний екран створення проекту
- Сповіщення електронною поштою. Після успішного створення проекту ви побачите сповіщення електронною поштою, надіслане розгорнутою вище автоматизацією.
Сповіщення про публікацію ресурсу
Щоб опублікувати зразок ресурсу в SageMaker Unified Studio.
- Дозволи Lambda
Після того, як CDK Stack створить роль виконання Lambda «DatazoneStack-LambdaExecutionRole», скористайтеся наведеною нижче процедурою, щоб інтегрувати цю роль у свій проект SageMaker Studio. Ця інтеграція дозволяє функціям Lambda взаємодіяти з API DataZone у проекті SageMaker Unified Studio.- Увійдіть до SageMaker Unified studio за допомогою SSO, натисніть «Учасники», «Додати учасників».
- Знайдіть роль “DatazoneStack-LambdaExecutionRole” і додайте її як “Співучасник”
Роль LambdaExecutionRole (
-LambdaExecutionRole) додано як члена проекту в SageMaker Unified Studio.
- Створити актив
- У вашому проекті “My_Demo_Project” натисніть “Дані”. Щоб додати набір даних, виберіть знак плюс.
- Завантажте свій файл CSV, використовуючи зразок «Product_v6.csv», знайдений у папці перевірки репозиторію GitHub «sample-sagemaker-unified-studio-governance-notifications».
- Використовуйте тип таблиці як S3/зовнішню таблицю.
- Перевірте та підтвердьте, що назви стовпців/атрибутів у завантаженому файлі CSV.
- Перевірте базу даних Glue(glue_db_
), щоб підтвердити, що таблицю створено та правильно імпортовано
- У вашому проекті “My_Demo_Project” натисніть “Дані”. Щоб додати набір даних, виберіть знак плюс.
- Опублікувати ресурс
- Виберіть актив, виберіть Дії та Опублікувати в каталозі.
- Перегляньте опублікований актив нижче.
- У розділі «Активи каталогу проекту» знайдіть виділений запис і перевірте назву опублікованої таблиці
- Виберіть назву активу, щоб відобразити додаткові відомості та властивості таблиці/активу.
- Виберіть актив, виберіть Дії та Опублікувати в каталозі.
- Сповіщення електронною поштою
- Після публікації ресурсу в студії SageMaker Unified ви отримаєте сповіщення електронною поштою з деталями опублікованого ресурсу. Групи центрального управління можуть використовувати це сповіщення, щоб перевірити опублікований актив, щоб переконатися, що він відповідає корпоративним стандартам.
Сповіщення електронною поштою надсилаються, щоб сповістити користувачів про публікацію ресурсів
- Після публікації ресурсу в студії SageMaker Unified ви отримаєте сповіщення електронною поштою з деталями опублікованого ресурсу. Групи центрального управління можуть використовувати це сповіщення, щоб перевірити опублікований актив, щоб переконатися, що він відповідає корпоративним стандартам.
Очищення
Щоб очистити свої ресурси, виконайте такі дії:
Висновок
У цій публікації ви дізналися, як створити автоматизовану систему сповіщень для Amazon SageMaker Unified Studio за допомогою служб AWS. Зокрема, ми розглянули:
- Як налаштувати сповіщення на основі подій від Amazon SageMaker Unified Studio за допомогою Amazon EventBridge, AWS Lambda та Amazon SNS
- Покроковий процес розгортання рішення за допомогою AWS CDK
- Практичні приклади моніторингу критичних подій, таких як створення проекту та публікація активів
- Як інтегрувати дозволи AWS Lambda із SageMaker Unified Studio для безпечних операцій
- Найкращі практики впровадження засобів контролю за допомогою автоматизованих сповіщень
Amazon SageMaker Catalog допомагає керівним командам бути в курсі діяльності каталогу в режимі реального часу, дозволяючи їм підтримувати організаційні стандарти в міру масштабування своїх платформ Data та ML. Архітектура є гнучкою та може бути розширена для інтеграції з корпоративними інструментами робочого процесу, такими як ServiceNow, або для моніторингу додаткових типів подій відповідно до потреб вашої організації.
Ми з нетерпінням чекаємо почути, як ви адаптуєте це рішення для потреб управління вашою організацією. Розгалужте код CDK із нашого репозиторію та поділіться своїм досвідом впровадження в коментарях нижче
Про авторів



















