...
Емейл Маркетинг

Розуміння сукупних тенденцій для інтелекту Apple за допомогою диференціальної конфіденційності

Розуміння сукупних тенденцій для інтелекту Apple за допомогою диференціальної конфіденційності

В Apple ми вважаємо, що конфіденційність є основним правом людини. І ми віримо в те, щоб надати своїм користувачам чудовий досвід, захищаючи їх конфіденційність. Протягом багатьох років ми використовували такі методи, як диференціальна конфіденційність як частина нашої програми аналітики пристроїв, що відмовляються. Це дозволяє нам отримати уявлення про те, як використовуються наші продукти, щоб ми могли їх покращити, захищаючи конфіденційність користувачів, заважаючи Apple бачити дані індивідуального рівня від цих користувачів.

Ця ж потреба зрозуміти використання, захищаючи конфіденційність, також присутня в Apple Intelligence. Одним із наших принципів є те, що Apple не використовує приватні особисті дані наших користувачів або взаємодії з користувачами під час навчання наших моделей фундаменту, і для вмісту, загальнодоступного в Інтернеті, ми застосовуємо фільтри для видалення особистої інформації, наприклад, соціального забезпечення та номерів кредитних карток. У цій публікації ми поділимося тим, як ми розробляємо нові методи, які дозволяють Apple виявити тенденції використання та сукупну інформацію, щоб покращити функції, що працюють від Apple Intelligence, не розкриваючи індивідуальну поведінку чи унікальний контент для Apple.

Вдосконалення Genmoji

Однією з областей, де ми застосовували свою роботу над диференціальною конфіденційністю з Apple Intelligence, – це Genmoji. Для користувачів, які вирішують ділитися аналітикою пристроїв з Apple, ми використовуємо диференційно приватні методи для виявлення популярних підказок та оперативних шаблонів, забезпечуючи при цьому математичну гарантію, що унікальні або рідкісні підказки не виявлені і що конкретні підказки не можуть бути пов'язані з окремими користувачами.

Знання популярних підказок є важливим, оскільки це допомагає Apple оцінити зміни та вдосконалення наших моделей на основі типів підказок, які є найбільш представницькими реальними залученням користувачів. Наприклад, розуміння того, як працюють наші моделі, коли користувач вимагає Genmoji, які містять кілька об'єктів (на кшталт “Динозавр у ковбойському капелюсі”) допомагає нам покращити відповіді на такі запити.

Цей підхід працює за допомогою випадкових опитувань пристроїв, що беруть участь у тому, чи бачили вони певний фрагмент, а пристрої анонімно реагують на галасливий сигнал. До галасливих ми маємо на увазі, що пристрої можуть надати справжній сигнал про те, чи був видно фрагмент, або випадково вибраний сигнал для альтернативного фрагмента чи взагалі відсутні. Калібрування того, як часто пристрої надсилають випадково вибрані відповіді, ми гарантуємо, що потрібні сотні людей, які використовують один і той же термін, перш ніж слово може бути виявлено. Як результат, Apple бачить лише зазвичай використовувані підказки, не може побачити сигнал, пов'язаний з будь -яким конкретним пристроєм, і не відновлює унікальних підказок. Крім того, сигнал Apple отримує від пристрою, не пов'язаний з IP -адресою або будь -яким ідентифікатором, який може бути пов'язаний з обліковим записом Apple. Це заважає Apple мати можливість пов’язати сигнал до будь -якого конкретного пристрою.

В даний час Apple використовує диференціальну конфіденційність для вдосконалення Genmoji, і у майбутніх випусках ми також будемо використовувати цей підхід, з однаковим захистом конфіденційності, для ігрового майданчика для зображень, палички зображення, створення спогадів та інструментів написання в Apple Intelligence, а також у візуальному інтелекті.

Вдосконалення генерації тексту за допомогою синтетичних даних

Для таких функцій Apple Intelligence, таких як інструменти для підсумку або написання, які працюють на більш тривалих реченнях або цілими повідомленнями електронної пошти, методи, які ми використовуємо для розуміння тенденцій у коротких підказках, таких як Genmoji, не є ефективними, тому нам потрібен новий метод для розуміння тенденцій, дотримуючись наших стандартів конфіденційності, а це означає, що не збирає жодного вмісту користувача. Для вирішення цього завдання ми можемо розширитись щодо останніх досліджень, щоб створити корисні синтетичні дані, що є репрезентативними для сукупних тенденцій в реальних даних користувачів, не збираючи жодних фактичних електронних листів чи тексту з пристроїв.

Синтетичні дані створюються для імітації формату та важливих властивостей даних користувачів, але не містять фактичного вмісту, створеного користувачем. Створюючи синтетичні дані, наша мета – створити синтетичні речення або електронні листи, які є досить схожими за темою чи стилем, з реальною справою, щоб покращити наші моделі для узагальнення, але без збору електронних листів Apple з пристрою. Одним із способів створити синтетичне повідомлення електронної пошти – це використовувати велику мову моделі (LLM).

Створення єдиного синтетичного електронного листа на одну конкретну тему – це лише перший крок. Для вдосконалення наших моделей нам потрібно генерувати набір багатьох електронних листів, які охоплюють теми, які найчастіше зустрічаються в повідомленнях. Щоб лікувати репрезентативний набір синтетичних електронних листів, ми починаємо з створення великого набору синтетичних повідомлень на різні теми. Наприклад, ми можемо створити синтетичне повідомлення: “Чи хотіли б ви грати в теніс завтра об 11:30?” Це робиться без будь -яких знань про окремі електронні листи користувача. Потім ми отримуємо представлення, яке називається вбудовуванням кожного синтетичного повідомлення, яке фіксує деякі ключові розміри повідомлення, як мова, тема та довжина. Потім ці вбудовування надсилаються на невелику кількість пристроїв користувачів, які обрали аналітику пристроїв.

Потім пристрої, що беруть участь, вибирають невеликий зразок останніх електронних листів користувачів та обчислюють їх вбудовані. Потім кожен пристрій вирішує, який із синтетичних вбудовувань найближчий до цих зразків. Використовуючи диференціальну конфіденційність, Apple може потім навчитися найбільш часто вибраним синтетичним вбудовуванню на всіх пристроях, не вивчаючи, які синтетичні вбудовування були обрані на будь-якому пристрої. Ці найбільш часто вибрані синтетичні вбудовані вбудовані можуть бути використані для отримання даних про навчання або тестування, або ми можемо запустити додаткові кроки курації для подальшого вдосконалення набору даних. Наприклад, якщо повідомлення про відтворення тенісу є одним із найкращих вбудовувань, подібне повідомлення, що замінює “теніс” на “футбол” або інший вид спорту, може бути створене та додане до набору для наступного раунду курації (див. Малюнок 1). Цей процес дозволяє нам вдосконалити теми та мову наших синтетичних електронних листів, що допомагає нам навчити наші моделі створювати кращі текстові результати в таких функціях, як підсумки електронної пошти, захищаючи конфіденційність.

Основний захист конфіденційності, який ми застосовуємо при створенні синтетичних даних для поліпшення генерації тексту, дуже схожий на захист, що використовується для Genmoji. Тільки користувачі, які вирішили надсилати інформацію про аналітику пристроїв в Apple беруть участь. Вміст вибіркових електронних листів ніколи не залишає пристрій і ніколи не ділиться з Apple. Пристрій, що бере участь, надсилає лише сигнал, що вказує, який із варіантів є найближчим до вибіркових даних на пристрої, а Apple дізнається, що вибрані синтетичні електронні листи найчастіше вибираються на всіх пристроях, а не, які вбудовувались будь -яким окремим пристроєм. Тут використовуються ті самі системи, що використовуються в Genmoji, використовуються для визначення відповідної кількості шуму та поділу лише агрегованої статистики для Apple. В результаті цього захисту Apple може побудувати синтетичні дані, що відображає сукупні тенденції, не збираючи та не читаючи вмісту електронної пошти користувача. Потім ці синтетичні дані можуть бути використані для перевірки якості наших моделей за більш репрезентативними даними та визначення областей вдосконалення таких функцій, як узагальнення.

Ми використовуємо синтетичні дані для вдосконалення генерації тексту в електронній пошті в бета -версії програмного забезпечення, як описано вище. Незабаром ми почнемо використовувати синтетичні дані з користувачами, які вирішують аналітику пристроїв для вдосконалення резюме електронної пошти.

Висновок

Спираючись на наш багаторічний досвід використання таких методик, як диференційована конфіденційність, а також нові методи, такі як генерація синтетичних даних, ми можемо вдосконалити функції Apple Intelligence, захищаючи конфіденційність користувачів для користувачів, які підходять до програми аналітики пристроїв. Ці методи дозволяють Apple зрозуміти загальні тенденції, не вивчаючи інформації про будь -яку особу, як, наприклад, які підказки, які вони використовують, або вміст своїх електронних листів. Коли ми продовжуємо просувати сучасне навчання в машинному навчанні та AI для покращення досвіду нашого продукту, ми залишаємось прихильними до розробки та впровадження передових методик для захисту конфіденційності користувачів.

Alex

About Author

Recommend – дізнавайтеся більше про події, що формують наше сьогодення. Найцікавіші новини України та світу, аналітика, тренди та ексклюзивні матеріали – все це на recommend.com.ua!

Отримуйте останні оновлення та великі пропозиції