LLM и персональные данные: как безопасно работать с ФИО, телефонами и документами

Кратко: Нейросети помогают с письмами, резюме и анализом документов, но если в тексте есть персональные данные — сначала безопасность, потом удобство. В публичные чаты не загружайте то, что не готовы увидеть «снаружи». Ниже: что считать персональными данными, как обезличивать текст и когда выбирать локальные модели.

База: Основы искусственного интеллекта для начинающих. Подробнее про риски: безопасность LLM и утечки данных. Практика: инструменты с LLM, автоматизация с LLM.

Почему персональные данные и нейросети — отдельная тема

LLM (ChatGPT, Claude, Gemini, YandexGPT и др.) обрабатывают текст на стороне провайдера. Ввод может использоваться для обучения или храниться в логах. Если вы отправляете ФИО, телефоны, e-mail, реквизиты или фрагменты договоров, вы не контролируете, где эти данные окажутся. Поэтому работа с персональными данными в нейросетях строится по правилу: не отправлять в публичные чаты то, что не готовы раскрыть. Для чувствительных задач — обезличивание или локальный/корпоративный контур.

Что считается персональными данными (коротко)

Идентификаторы человека: ФИО, телефон, e-mail, почтовый адрес, паспортные и иные идентификационные данные.
Финансы и документы: данные о платежах, банковские реквизиты, номера договоров, логины и привязка к аккаунтам.
Контекст, по которому можно узнать человека: переписки, обращения клиентов, упоминания с привязкой к месту работы или к конкретному кейсу.

Даже без прямого указания ФИО комбинация должности, компании, дат и обстоятельств может позволить идентифицировать человека. Поэтому перед отправкой текста в LLM оцените: есть ли там персональные данные в явном или скрытом виде.

Главное правило

Не отправляйте в публичные LLM то, что не готовы увидеть «снаружи». Если задача требует персональных данных — обезличьте текст (замените на маркеры) или используйте локальный/корпоративный контур с договором и политикой обработки данных.

Что нельзя отправлять в чат-боты

Пароли, коды доступа, токены, API-ключи.
Сканы паспортов, полные банковские реквизиты, договоры с данными сторон (ФИО, адреса, счета).
Коммерческие секреты, закрытые спецификации, внутренние базы клиентов с контактами.
Медицинские данные, сведения о детях и другие категории, защищённые законом — без правового основания и без обезличивания не загружать в публичные сервисы.

Как обезличивать данные (быстро и правильно)

Цель — сохранить смысл и структуру текста, но убрать идентификацию. Примеры замен:

Иван Петров → Клиент A (или [ФИО_1])
+7 9XX XXX-XX-XX → Телефон_1
Конкретный адрес → Адрес_1 или «адрес в Москве»
Точные суммы → диапазон (например, 90–110 тыс. руб.) или «сумма по договору»
Номер договора, паспорта → Номер_договора_1, Серия_номер_1

Промпт для обезличивания: «Обезличь текст: замени ФИО, телефоны, адреса, номера документов на маркеры (Клиент_A, Телефон_1, Адрес_1, Номер_1). Смысл и структура должны сохраниться. Верни 2 версии: обезличенный текст и таблицу замен.» Важно: сам исходный текст с персональными данными в такой промпт лучше не вставлять в публичный чат — обезличивание делайте локально или в доверенной среде, а в чат отправляйте уже обезличенный вариант при необходимости.

Когда стоит выбрать локальные модели

Если вы регулярно работаете с чувствительными данными, разумно рассмотреть локальные (on-device) решения или корпоративные контуры с соглашением об обработке данных.

Локально: Ollama, LM Studio и аналоги — модели работают на вашем устройстве, данные не уходят к провайдеру. Подходит для экспериментов и задач с конфиденциальным текстом.
Корпоративный контур: сервисы с договором (DPA), логированием и ограничением доступа. Актуально для компаний при автоматизации с LLM (см. гайд по автоматизации).

Три безопасных сценария (без «сырых» персональных данных)

Сводка обращения клиента — после обезличивания: «Клиент A запросил X, срок Y, ограничение Z.» Детали, по которым можно идентифицировать человека, в промпт не попадают.
Черновик ответа по шаблону и правилам — без вставки реальных ФИО, телефонов и реквизитов в чат. Подставляйте персональные данные уже в готовый текст локально.
Структурирование документа — извлечь пункты, чек-лист, таблицу без указания сторон и реквизитов. В чат отправлять обезличенный фрагмент.

Пошаговый чек-лист перед отправкой текста в LLM

Есть ли в тексте идентификаторы человека? (ФИО, телефон, e-mail, адрес, номера документов)
Есть ли коммерческие секреты или закрытые условия?
Можно ли заменить данные маркерами без потери смысла задачи?
Нужен ли локальный или корпоративный контур вместо публичного чата?

Если на 1 или 2 ответ «да» — не отправляйте как есть. Обезличьте или используйте доверенную среду.

Ошибки при работе с персональными данными в LLM

Загружать полные договоры или сканы с ФИО и реквизитами в публичный чат. Риск утечки и нарушения требований к обработке персональных данных.
Считать «это же только чат» безопасным. Провайдеры могут хранить и использовать ввод; политику смотрите в условиях использования.
Обезличивать «на глаз» и оставлять уникальные детали. Комбинация должности, дат и обстоятельств может идентифицировать человека. Заменяйте всё, что ведёт к идентификации.
Использовать один аккаунт для личного и рабочего с чувствительными данными без разграничения. Повышает риск случайной отправки не того контента.
Игнорировать политику работодателя. В компаниях часто есть правила работы с ИИ и персональными данными — им нужно следовать.

Ограничения и риски

Даже при обезличивании контекст может позволить восстановить личность. Минимизируйте объём и детализацию в запросах.
Локальные модели обычно слабее облачных по качеству и скорости. Баланс: приватность vs удобство.
Законодательство по персональным данным различается по странам. При обработке данных клиентов или сотрудников учитывайте местные требования.

FAQ: часто задаваемые вопросы

Можно ли отправлять в ChatGPT/Claude резюме с именем и телефоном?
Для черновика резюме часто достаточно обезличенного варианта (например, «Имя», «Телефон»). Если загружаете реальные контакты — понимайте, что они попадают на серверы провайдера. Для максимальной осторожности используйте плейсхолдеры до финальной вычитки.

Как обезличить текст перед отправкой в нейросеть?
Замените ФИО, телефоны, адреса и номера документов на маркеры (Клиент_A, Телефон_1 и т.д.). Можно делать вручную или скриптом. Промпт «обезличь текст» лучше применять к копии текста в доверенной среде, а в чат отправлять уже обезличенный вариант.

Что такое локальные LLM и когда они нужны?
Модели работают на вашем устройстве (Ollama, LM Studio и др.), данные не уходят в облако. Имеют смысл при регулярной работе с конфиденциальными или персональными данными.

Работодатель запрещает использовать публичные нейросети — что делать?
Следовать правилам компании. Использовать разрешённые корпоративные сервисы или локальные решения, если политика это допускает.

Где почитать про утечки данных и безопасность LLM?
В статье безопасность LLM: как предотвратить утечку личных данных. Для автоматизации в компании — автоматизация рутинных задач с LLM.

Заключение

Персональные данные и нейросети требуют отдельного режима: не загружать в публичные чаты то, что не готовы раскрыть, обезличивать текст при необходимости и использовать локальные или корпоративные контуры для чувствительных задач. Тогда работа с LLM останется и полезной, и безопасной.

Дополнительно: Основы ИИ для начинающих, безопасность LLM, инструменты с LLM, автоматизация с LLM, работа с русским текстом. Telegram: https://t.me/neyrowired/