...
Аналітика та Дані

Інженер-засновник: масштабне веб-вискоблювання та повзання в Foundry

Про нас

Ми будуємо першу платформу для тестування для веб-агентів, включаючи тренажерний зал для браузера для оптимізації, керованої RL. Наша платформа допомагає командам оцінювати, орієнтувати та вдосконалювати веб-агенти, перш ніж вони вийдуть наживо, гарантуючи, що вони можуть впоратися з динамічним середовищем у реальному світі.

За допомогою синтетичних симуляцій користувачів, автоматизованих оцінок та масштабного бенчмаркінгу ми встановлюємо новий стандарт для тестування веб-агентів.

Ми команда, що підтримується YC, і це інженерна роль засновника-ви будете одним із перших найманих наймань, що визначає, як ми повзаємо, структуруємо та аналізуємо відкриту павутину в масштабі.

Роль

Нам потрібен засновник веб-інженера з скребком, щоб створити веб-інфраструктуру для повзання в Інтернеті, а не просто вискоблювання одного сайту, а обробку мільйонів доменів та розвиваються проти бойових захисних сил.

Ви несете відповідальність за розробку надійних, розподілених систем повзання, які динамічно адаптуються до змін, оптимізують для ефективності та забезпечують надійне вилучення даних.

Що ти зробиш

  • Побудуйте масштабні, розподілені сканери, які розумно надають пріоритет, графік та оптимізацію запитів у мільйонах доменів.
  • Розробити адаптивні веб-системи скребки, які обробляють зміни DOM, веб-бачки, важкі сайти Ajax та динамічно завантажений вміст.
  • Оптимізуйте ефективність вискоблювання та стійкість, забезпечуючи високопропускну вилучення даних з оптимізацією проксі-серверів/мережі та тактикою стелс.
  • Розв’яжіть Captchas в масштабі, інтегруючи сторонні розв'язувачі, евристичні обхідні шляхи та методи обходу поведінки.
  • Керуйте проксі-обертанням та ідентичністю, реалізацією вискоблювання сеансу, підробки відбитків пальців JA3/TLS та запитуйте контроль підпису.
  • Структура та чисті витягнуті дані для аналітики вниз за течією, навчальні програми та додатки для бенчмаркінгу.

Що ми шукаємо

  • Досвід на рівні експертів у масштабному веб-скребті та повзанні (селен, лялечка, драматург, скрання, непомічений хромедраер).
  • Глибокі знання стратегій виявлення анти-BOT (відбитки пальців TLS, підписи JA3, запитують аномалії заголовків та відстеження поведінки бота).
  • Практичний досвід із стратегіями, що займаються CAPTCHA, включаючи використання API, підходи на основі OCR та ухилення, орієнтоване на поведінку.
  • Перевірений досвід побудови ефективних систем управління проксі, включаючи обертання IPS через житлові, обробки даних та мобільних мереж.
  • Володіння в Python, Go або JavaScript, що має досвід високоефективних, паралельних рамок вискоблювання.
  • Розуміння HTTP/2, HTTP/3, WebSockets, GraphQL та відбитків пальців на базі браузера.
  • Досвід розробки масштабованої, несправної інфраструктури, що пристосовується до змін у режимі реального часу.

Бонусні бали

  • Досвід з повзанням в масштабі пошукових систем.
  • Передумови в веб-екстракції, керованому LLM або адаптивному повзанні RL.
  • Внески до інструментів скребка з відкритим кодом або проектів веб-автоматизації.

Чому приєднуватися?

  • Засновна роль – ви визначите та володієте нашою веб -інфраструктурою, що повзає з першого дня.
  • Працюйте в інтернет -масштабі – розбудову систему, яка динамічно адаптується та масштабує мільйони доменів.
  • Підключений YC-ми будуємо щось, що ще не існує, і ви будете частиною основної команди, яка зробить це.

Alex

About Author

Recommend – дізнавайтеся більше про події, що формують наше сьогодення. Найцікавіші новини України та світу, аналітика, тренди та ексклюзивні матеріали – все це на recommend.com.ua!

Отримуйте останні оновлення та великі пропозиції