Сервисы на основе искусственного интеллекта стали привычными помощниками в повседневных задачах: отредактировать текст, найти ошибки в коде, отретушировать фото. Но важно не забывать о том, что зачастую собранные данные хранятся у компании-провайдера.
В памятке рассказываем о важности защиты чувствительной информации.
Задача машинного обучения — сделать так, чтобы компьютер мог самостоятельно обучаться, обрабатывая информацию, и находить более эффективные способы решения тех или иных задач.
Машинное обучение — очень широкая область знаний, сопряженная с исследованием искусственного интеллекта. Она включает в себя множество различных методов, каждый из которых имеет свое применение. В быту самое известное из них — обучение многослойных нейронных сетей или так называемое глубокое обучение. Именно глубокое обучение и лежит в основе большинства популярных ИИ-продуктов.
В глубоком обучении нейросеть — особая структура, по устройству напоминающая нейронные связи в человеческом мозгу. Она обучается на колоссальном массиве данных и самостоятельно находит в них те или иные закономерности. В отличие от классических алгоритмов, где правила контролируются программистом, нейросети сами открывают правила и закономерности, заложенные в данных. В том числе те, что крайне тяжело описать в виде четкого алгоритма. Именно это позволяет продуктам на основе глубокого обучения решать такие сложные задачи, как синтез голоса или изображения. Или анализ, обработку и перевод естественной речи. Этим занимаются так называемые большие языковые модели (LLM) — к таким, например, относится ChatGPT.
Обучение передовых ИИ-моделей — это очень дорого. Но самый главный и труднодоступный компонент — данные. Нейросеть сама по себе бесполезна, и, чтобы она могла решать какие-либо задачи, ее необходимо обучать на огромных массивах данных. Чем более продвинутую ИИ хочет получить компания, тем больше, качественнее и разнообразнее должны быть данные.
Частично — из открытых источников. Например, из соцсетей, транскрипций видео на YouTube, книг, форумов, СМИ, интернет-энциклопедий.
А еще у людей, которые используют ИИ-сервисы и делятся с ними какими-либо данными.
Каждый раз, когда вы отправляете данные чат-боту или ИИ-помощнику, стоит держать в уме, что они будут сохранены у компании-провайдера, и их дальнейшая судьба во многом зависит от добросовестности сервиса. Поэтому не стоит делиться с чат-ботом чувствительной информацией (например, если она может вас скомпрометировать, или если разглашение этих данных нарушает NDA).
Также стоит помнить, что данные, которые вы отправляете в условный чат-бот, используют для обучения новой версии языковой модели (в некоторых случаях обучение на ваших данных можно ограничить, см. пункт 7).
Кроме того, сами ИИ-сервисы могут стать жертвами утечек данных.
ИИ-продукты встраиваются в уже имеющиеся приложения и работают как ваш личный помощник: разбирают почтовый ящик, напоминают о важных событиях, дают советы и выполняют несложные рабочие задачи. Такие сервисы есть (или должны скоро появиться) в экосистемах Windows (Microsoft Copilot), Apple (Apple Intelligence) и Google (Google Assistant).
Но что конкретно эти сервисы делают с вашими данными, когда вы просите их выполнить те или иные задачи? Разработчики утверждают, что ваши конфиденциальные данные никто не тронет. В некоторых случаях это может значить, что данные все равно хранятся и доступны, но, например, частично анонимизированно.
Однако если какая-то информация отправлена провайдеру, дальнейшая ее судьба зависит не только от его добропорядочности, но и от качества внутренних моделей, которые проверяют, что отправленный пользователем запрос не содержит чувствительных данных. Для системы сбора данных для AI-бота нет принципиальной разницы, сохранить рецепт пирога или номер паспорта.
Это не означает, что AI-провайдеры повсеместно недобросовестно используют ваши данные. Но стоит держать в уме, что такая вероятность существует.
За прошедшие пару лет множество ИИ-продуктов оказались в центре скандалов, связанных с авторским правом и защитой конфиденциальности пользователей.
К примеру, OpenAI договорилась о разработке новых ИИ-продуктов совместно со Stack Overflow — ресурсом, на котором программисты отвечают на вопросы и делятся готовыми решениями различных задач. Open AI будет обучать свои модели на этих ответах и решениях, а Stack Overflow — создавать свои продукты на базе этих моделей. Участники сообщества не оценили то, что их многолетние труды без разрешения передают третьей стороне, чтобы с их помощью создавать коммерческие продукты.
Еще интереснее ситуация обстоит с Adobe, разрабатывающей Photoshop, Premiere Pro и другие программы для творческих профессий. В июне 2022 года компания объявила пользователям, что будет анализировать их контент при помощи машинного обучения с целью улучшить качество софта. Тогда многие подумали, что речь идет про генеративную нейросеть Adobe Firefly. Представьте: вы рисуете картину, ретушируете фото или монтируете видео, и их еще до публикации скармливают нейросети. После скандала Adobe заявила, что не планирует ничего подобного. Поэтому в текущей версии соглашения использование пользовательских материалов для машинного обучения прямо запрещено.
Ими стоит пользоваться с особой осторожностью, но правила остаются общими в отношении и российских, и зарубежных продуктов.
Как минимум не стоит выдавать YandexGPT, GigaChat (продукт «Сбера») и другим ИИ-сервисам любую информацию, которая не должна утечь в третьи руки.
Отдельно отметим «Алису», которая реагирует на голосовые команды и, соответственно, слушает, что вы говорите в комнате. Эти данные не должны куда-либо отправляться, но колонка всегда подключена к интернету, поэтому осторожность не помешает.
Как себя обезопасить?
- По возможности не выдавайте ИИ-сервисам личные данные; рабочие документы, в том числе составляющие коммерческую тайну; компрометирующую вас информацию (например, ваше отношение к российской политике и участию к ней).
- Ограничивайте использование ваших данных там, где это возможно. Например, в настройках ChatGPT вы можете отключить функцию сохранения истории чата. Тогда, по словам разработчиков, ваша переписка не будет использоваться для обучения моделей.Settings → Chat history & Training
- Главный совет: минимизируйте свой цифровой след или будьте готовы к тому, что он попадет к кому-то в руки. Для того, чтобы ваша информация попала в AI, достаточно, чтобы она стала публичной в интернете.