
Модели искусственного интеллекта чрезвычайно датаемкие: чем больше данных им скормили при обучении, тем более эффективными они будут. DeepSeek-V3, Grok-1, LLaMA 3.3, GPT-4 тренировались на наборах объемом от 4,9 до 15 триллионов единиц данных. Не все они были в свободном доступе: художники безуспешно судились со Stable Diffusion, Midjourney и DeviantArt из-за нарушение авторских прав, Meta обучала свою модель на пиратских копиях книг. Диалоги с пользователями — источник информации, особенно важный во время ИИ-гонки, как сейчас.
Например, OpenAI собирает имена, контакты, платежную информацию, cookie-файлы, данные об устройстве и геолокации, а также ваши запросы и отправленные материалы. Компания может передавать их поставщикам услуг, госорганам и третьим лицам. Китайская LLM DeepSeek собирает и передает примерно те же данные, но в отличие от OpenAI оставляет пользователям намного меньше контроля над ними. Например, DeepSeek дает возможность удалить свои данные только если пользователь докажет, что они обрабатывались и использовались по незаконным основаниям, а не просто потому, что он этого не хочет.
Главные претензии:
1) Непрозрачность. В открытом доступе нет информации о том, на каких данных обучались модели. В теории, это могли быть и незаконно собранные персональные данные. Так, компания OpenAI обвинила китайских разработчиков в том, что они используют ее модели для улучшения своих собственных.
2) Многие модели ИИ китайского происхождения не проходили независимый аудит. В алгоритмах могут быть лазейки для скрытого доступа или кибератак, и они сами могут быть уязвимы перед утечками и другими внешними угрозами.
3) Фильтры безопасности DeepSeek и Qwen (Alibaba) пока не очень надежны – модели готовы сгенерировать хоть код для вредоносного ПО, хоть рецепт напалма и так далее, а это серьезные уязвимости.
4) Данные хранятся на серверах в Китае, поэтому у местных властей всегда есть к ним доступ, вне зависимости от шифрования.
5) Генерация дипфейков и неэтичного контента. Китайская концепция управления генеративным ИИ, опубликованная в 2023 году, запрещает создавать порнографические материалы, материалы, призывающие к свержению социалистического строя и представляющие угрозу китайской государственности. Но это касается только тех ИИ, которые используются на территории Китая. За пределами страны разработчики могут менее строго соблюдать законодательство.
6) Ограниченные возможности выбора опции «не обучаться на моих ответах» и удаления своих данных по запросу. Китайские модели дают больше кредитов на бесплатное использование, привлекая аудиторию, и с высокой вероятностью обучаются на пользовательских вопросах и ответах.
Топовых ИИ-разработчиков в России официально нет. При этом остаются доступными довольно много менее известных моделей высокого уровня, которые соответствуют международным стандартам и прошли аудиты безопасности. Среди них Perplexity.ai, Leonardo.ai, Character.ai и др. Кроме этого, всегда можно включить VPN и использовать ChatGPT, Claude, Copilot, Llama. Если есть иностранная карта, это снимает любые ограничения. Что касается китайских моделей, то выбор остается за вами, но важно помнить, что непроверенные разработчики могут использовать ваши данные в своих целях и не соблюдать стандарты хранения и передачи.
Их мы точно не рекомендуем. Яндекс (YandexGPT) и Сбер (GigaChat, Kandinsky) сотрудничают с государством и собирают много личной информации о юзерах. У них есть все возможности сопоставить запросы с личными данными пользователей своих сервисов и уникальными идентификаторами устройств. Не говоря о том, что у этих ИИ-моделей высокий порог цензуры, и они могут давать искаженную информацию. Также лучше не использовать прокси-сервисы, работающие через Telegram, например, бот ChatGPT. Они написаны не официальными разработчиками, поэтому об их надежности мало что известно.
Китайские ИИ-модели, работающие в России, соблюдают местное законодательство. По идее это значит, что они должны хранить данные россиян на российских серверах. Делают ли они это на самом деле – неизвестно. Поэтому перечислим правила общей цифровой безопасности:
- Не сообщать дополнительные личные данные.
- Не делиться чувствительной информацией, которая, например, касается работы, и, конечно, не привязывать сторонние сервисы к аккаунту ИИ-инструмента.
- Включать VPN – особенно если вы обсуждаете чувствительные темы. Провайдер может узнать, о чем вы общались, если соединение не зашифровано. После завершения переписки лучше удалить.
- Лучше не использовать инструменты, которые требуют много данных для регистрации, такие как номер телефона или Google-аккаунт. Указывайте только свою электронную почту, причем советуем завести новый ящик для работы с ИИ, и не у российского провайдера.
- Проверять сгенерированный текст на фактические ошибки. Как и другие модели, китайский ИИ подвержен галлюцинациям, в том числе, из-за национального законодательства и идеологии.
- Не давать доступ к файлам на мобильных устройствах. Если нужно загрузить изображение — лучше дать доступ только к нему, а не ко всей галерее.
Лучше всего все-таки их читать. По крайней мере, раздел о персональных данных.
Также рекомендуем:
- проверить LinkedIn компании – число сотрудников, подписчиков, последовательность истории — и официальные страницы в соцсетях. Чем дольше они существуют и чем больше там вовлеченных подписчиков, тем лучше;
- проверить раздел «About us» с указанием юридической информации и контактной информации в веб-версии и в приложении. Если их нет, или по ним невозможно определить происхождение компании, не стоит доверять такому сервису;
- проверить рейтинг безопасности модели — ее устойчивости к атакам, готовности генерировать токсичный контент, отвечать на языке вражды. Например, по Encrypt AI Safety. По этому рейтингу, Claude-3-opus признана самой безопасной, а DeepSeek-R1-Distill-Llama заняла 12 место.