×

LLM и персональные данные: как безопасно работать с ФИО, телефонами и документами

Приватность и защита данных

LLM и персональные данные: как безопасно работать с ФИО, телефонами и документами

LLM и персональные данные: как безопасно работать с ФИО, телефонами и документами

Кратко: Нейросети помогают с письмами, резюме и анализом документов, но если в тексте есть персональные данные — сначала безопасность, потом удобство. В публичные чаты не загружайте то, что не готовы увидеть «снаружи». Ниже: что считать персональными данными, как обезличивать текст и когда выбирать локальные модели.

База: Основы искусственного интеллекта для начинающих. Подробнее про риски: безопасность LLM и утечки данных. Практика: инструменты с LLM, автоматизация с LLM.

Почему персональные данные и нейросети — отдельная тема

LLM (ChatGPT, Claude, Gemini, YandexGPT и др.) обрабатывают текст на стороне провайдера. Ввод может использоваться для обучения или храниться в логах. Если вы отправляете ФИО, телефоны, e-mail, реквизиты или фрагменты договоров, вы не контролируете, где эти данные окажутся. Поэтому работа с персональными данными в нейросетях строится по правилу: не отправлять в публичные чаты то, что не готовы раскрыть. Для чувствительных задач — обезличивание или локальный/корпоративный контур.

Что считается персональными данными (коротко)

  • Идентификаторы человека: ФИО, телефон, e-mail, почтовый адрес, паспортные и иные идентификационные данные.
  • Финансы и документы: данные о платежах, банковские реквизиты, номера договоров, логины и привязка к аккаунтам.
  • Контекст, по которому можно узнать человека: переписки, обращения клиентов, упоминания с привязкой к месту работы или к конкретному кейсу.

Даже без прямого указания ФИО комбинация должности, компании, дат и обстоятельств может позволить идентифицировать человека. Поэтому перед отправкой текста в LLM оцените: есть ли там персональные данные в явном или скрытом виде.

Главное правило

Не отправляйте в публичные LLM то, что не готовы увидеть «снаружи». Если задача требует персональных данных — обезличьте текст (замените на маркеры) или используйте локальный/корпоративный контур с договором и политикой обработки данных.

Что нельзя отправлять в чат-боты

  • Пароли, коды доступа, токены, API-ключи.
  • Сканы паспортов, полные банковские реквизиты, договоры с данными сторон (ФИО, адреса, счета).
  • Коммерческие секреты, закрытые спецификации, внутренние базы клиентов с контактами.
  • Медицинские данные, сведения о детях и другие категории, защищённые законом — без правового основания и без обезличивания не загружать в публичные сервисы.

Как обезличивать данные (быстро и правильно)

Цель — сохранить смысл и структуру текста, но убрать идентификацию. Примеры замен:

  • Иван Петров → Клиент A (или [ФИО_1])
  • +7 9XX XXX-XX-XX → Телефон_1
  • Конкретный адрес → Адрес_1 или «адрес в Москве»
  • Точные суммы → диапазон (например, 90–110 тыс. руб.) или «сумма по договору»
  • Номер договора, паспорта → Номер_договора_1, Серия_номер_1

Промпт для обезличивания: «Обезличь текст: замени ФИО, телефоны, адреса, номера документов на маркеры (Клиент_A, Телефон_1, Адрес_1, Номер_1). Смысл и структура должны сохраниться. Верни 2 версии: обезличенный текст и таблицу замен.» Важно: сам исходный текст с персональными данными в такой промпт лучше не вставлять в публичный чат — обезличивание делайте локально или в доверенной среде, а в чат отправляйте уже обезличенный вариант при необходимости.

Когда стоит выбрать локальные модели

Если вы регулярно работаете с чувствительными данными, разумно рассмотреть локальные (on-device) решения или корпоративные контуры с соглашением об обработке данных.

  • Локально: Ollama, LM Studio и аналоги — модели работают на вашем устройстве, данные не уходят к провайдеру. Подходит для экспериментов и задач с конфиденциальным текстом.
  • Корпоративный контур: сервисы с договором (DPA), логированием и ограничением доступа. Актуально для компаний при автоматизации с LLM (см. гайд по автоматизации).

Три безопасных сценария (без «сырых» персональных данных)

  • Сводка обращения клиента — после обезличивания: «Клиент A запросил X, срок Y, ограничение Z.» Детали, по которым можно идентифицировать человека, в промпт не попадают.
  • Черновик ответа по шаблону и правилам — без вставки реальных ФИО, телефонов и реквизитов в чат. Подставляйте персональные данные уже в готовый текст локально.
  • Структурирование документа — извлечь пункты, чек-лист, таблицу без указания сторон и реквизитов. В чат отправлять обезличенный фрагмент.

Пошаговый чек-лист перед отправкой текста в LLM

  1. Есть ли в тексте идентификаторы человека? (ФИО, телефон, e-mail, адрес, номера документов)
  2. Есть ли коммерческие секреты или закрытые условия?
  3. Можно ли заменить данные маркерами без потери смысла задачи?
  4. Нужен ли локальный или корпоративный контур вместо публичного чата?

Если на 1 или 2 ответ «да» — не отправляйте как есть. Обезличьте или используйте доверенную среду.

Ошибки при работе с персональными данными в LLM

  1. Загружать полные договоры или сканы с ФИО и реквизитами в публичный чат. Риск утечки и нарушения требований к обработке персональных данных.
  2. Считать «это же только чат» безопасным. Провайдеры могут хранить и использовать ввод; политику смотрите в условиях использования.
  3. Обезличивать «на глаз» и оставлять уникальные детали. Комбинация должности, дат и обстоятельств может идентифицировать человека. Заменяйте всё, что ведёт к идентификации.
  4. Использовать один аккаунт для личного и рабочего с чувствительными данными без разграничения. Повышает риск случайной отправки не того контента.
  5. Игнорировать политику работодателя. В компаниях часто есть правила работы с ИИ и персональными данными — им нужно следовать.

Ограничения и риски

  • Даже при обезличивании контекст может позволить восстановить личность. Минимизируйте объём и детализацию в запросах.
  • Локальные модели обычно слабее облачных по качеству и скорости. Баланс: приватность vs удобство.
  • Законодательство по персональным данным различается по странам. При обработке данных клиентов или сотрудников учитывайте местные требования.

FAQ: часто задаваемые вопросы

Можно ли отправлять в ChatGPT/Claude резюме с именем и телефоном?
Для черновика резюме часто достаточно обезличенного варианта (например, «Имя», «Телефон»). Если загружаете реальные контакты — понимайте, что они попадают на серверы провайдера. Для максимальной осторожности используйте плейсхолдеры до финальной вычитки.

Как обезличить текст перед отправкой в нейросеть?
Замените ФИО, телефоны, адреса и номера документов на маркеры (Клиент_A, Телефон_1 и т.д.). Можно делать вручную или скриптом. Промпт «обезличь текст» лучше применять к копии текста в доверенной среде, а в чат отправлять уже обезличенный вариант.

Что такое локальные LLM и когда они нужны?
Модели работают на вашем устройстве (Ollama, LM Studio и др.), данные не уходят в облако. Имеют смысл при регулярной работе с конфиденциальными или персональными данными.

Работодатель запрещает использовать публичные нейросети — что делать?
Следовать правилам компании. Использовать разрешённые корпоративные сервисы или локальные решения, если политика это допускает.

Где почитать про утечки данных и безопасность LLM?
В статье безопасность LLM: как предотвратить утечку личных данных. Для автоматизации в компании — автоматизация рутинных задач с LLM.

Заключение

Персональные данные и нейросети требуют отдельного режима: не загружать в публичные чаты то, что не готовы раскрыть, обезличивать текст при необходимости и использовать локальные или корпоративные контуры для чувствительных задач. Тогда работа с LLM останется и полезной, и безопасной.

Дополнительно: Основы ИИ для начинающих, безопасность LLM, инструменты с LLM, автоматизация с LLM, работа с русским текстом. Telegram: https://t.me/neyrowired/

Возможно, вы пропустили