LLM и персональные данные: как безопасно работать с ФИО, телефонами и документами
LLM и персональные данные: как безопасно работать с ФИО, телефонами и документами
Кратко: Нейросети помогают с письмами, резюме и анализом документов, но если в тексте есть персональные данные — сначала безопасность, потом удобство. В публичные чаты не загружайте то, что не готовы увидеть «снаружи». Ниже: что считать персональными данными, как обезличивать текст и когда выбирать локальные модели.
База: Основы искусственного интеллекта для начинающих. Подробнее про риски: безопасность LLM и утечки данных. Практика: инструменты с LLM, автоматизация с LLM.
Почему персональные данные и нейросети — отдельная тема
LLM (ChatGPT, Claude, Gemini, YandexGPT и др.) обрабатывают текст на стороне провайдера. Ввод может использоваться для обучения или храниться в логах. Если вы отправляете ФИО, телефоны, e-mail, реквизиты или фрагменты договоров, вы не контролируете, где эти данные окажутся. Поэтому работа с персональными данными в нейросетях строится по правилу: не отправлять в публичные чаты то, что не готовы раскрыть. Для чувствительных задач — обезличивание или локальный/корпоративный контур.
Что считается персональными данными (коротко)
- Идентификаторы человека: ФИО, телефон, e-mail, почтовый адрес, паспортные и иные идентификационные данные.
- Финансы и документы: данные о платежах, банковские реквизиты, номера договоров, логины и привязка к аккаунтам.
- Контекст, по которому можно узнать человека: переписки, обращения клиентов, упоминания с привязкой к месту работы или к конкретному кейсу.
Даже без прямого указания ФИО комбинация должности, компании, дат и обстоятельств может позволить идентифицировать человека. Поэтому перед отправкой текста в LLM оцените: есть ли там персональные данные в явном или скрытом виде.
Главное правило
Не отправляйте в публичные LLM то, что не готовы увидеть «снаружи». Если задача требует персональных данных — обезличьте текст (замените на маркеры) или используйте локальный/корпоративный контур с договором и политикой обработки данных.
Что нельзя отправлять в чат-боты
- Пароли, коды доступа, токены, API-ключи.
- Сканы паспортов, полные банковские реквизиты, договоры с данными сторон (ФИО, адреса, счета).
- Коммерческие секреты, закрытые спецификации, внутренние базы клиентов с контактами.
- Медицинские данные, сведения о детях и другие категории, защищённые законом — без правового основания и без обезличивания не загружать в публичные сервисы.
Как обезличивать данные (быстро и правильно)
Цель — сохранить смысл и структуру текста, но убрать идентификацию. Примеры замен:
- Иван Петров → Клиент A (или [ФИО_1])
- +7 9XX XXX-XX-XX → Телефон_1
- Конкретный адрес → Адрес_1 или «адрес в Москве»
- Точные суммы → диапазон (например, 90–110 тыс. руб.) или «сумма по договору»
- Номер договора, паспорта → Номер_договора_1, Серия_номер_1
Промпт для обезличивания: «Обезличь текст: замени ФИО, телефоны, адреса, номера документов на маркеры (Клиент_A, Телефон_1, Адрес_1, Номер_1). Смысл и структура должны сохраниться. Верни 2 версии: обезличенный текст и таблицу замен.» Важно: сам исходный текст с персональными данными в такой промпт лучше не вставлять в публичный чат — обезличивание делайте локально или в доверенной среде, а в чат отправляйте уже обезличенный вариант при необходимости.
Когда стоит выбрать локальные модели
Если вы регулярно работаете с чувствительными данными, разумно рассмотреть локальные (on-device) решения или корпоративные контуры с соглашением об обработке данных.
- Локально: Ollama, LM Studio и аналоги — модели работают на вашем устройстве, данные не уходят к провайдеру. Подходит для экспериментов и задач с конфиденциальным текстом.
- Корпоративный контур: сервисы с договором (DPA), логированием и ограничением доступа. Актуально для компаний при автоматизации с LLM (см. гайд по автоматизации).
Три безопасных сценария (без «сырых» персональных данных)
- Сводка обращения клиента — после обезличивания: «Клиент A запросил X, срок Y, ограничение Z.» Детали, по которым можно идентифицировать человека, в промпт не попадают.
- Черновик ответа по шаблону и правилам — без вставки реальных ФИО, телефонов и реквизитов в чат. Подставляйте персональные данные уже в готовый текст локально.
- Структурирование документа — извлечь пункты, чек-лист, таблицу без указания сторон и реквизитов. В чат отправлять обезличенный фрагмент.
Пошаговый чек-лист перед отправкой текста в LLM
- Есть ли в тексте идентификаторы человека? (ФИО, телефон, e-mail, адрес, номера документов)
- Есть ли коммерческие секреты или закрытые условия?
- Можно ли заменить данные маркерами без потери смысла задачи?
- Нужен ли локальный или корпоративный контур вместо публичного чата?
Если на 1 или 2 ответ «да» — не отправляйте как есть. Обезличьте или используйте доверенную среду.
Ошибки при работе с персональными данными в LLM
- Загружать полные договоры или сканы с ФИО и реквизитами в публичный чат. Риск утечки и нарушения требований к обработке персональных данных.
- Считать «это же только чат» безопасным. Провайдеры могут хранить и использовать ввод; политику смотрите в условиях использования.
- Обезличивать «на глаз» и оставлять уникальные детали. Комбинация должности, дат и обстоятельств может идентифицировать человека. Заменяйте всё, что ведёт к идентификации.
- Использовать один аккаунт для личного и рабочего с чувствительными данными без разграничения. Повышает риск случайной отправки не того контента.
- Игнорировать политику работодателя. В компаниях часто есть правила работы с ИИ и персональными данными — им нужно следовать.
Ограничения и риски
- Даже при обезличивании контекст может позволить восстановить личность. Минимизируйте объём и детализацию в запросах.
- Локальные модели обычно слабее облачных по качеству и скорости. Баланс: приватность vs удобство.
- Законодательство по персональным данным различается по странам. При обработке данных клиентов или сотрудников учитывайте местные требования.
FAQ: часто задаваемые вопросы
Можно ли отправлять в ChatGPT/Claude резюме с именем и телефоном?
Для черновика резюме часто достаточно обезличенного варианта (например, «Имя», «Телефон»). Если загружаете реальные контакты — понимайте, что они попадают на серверы провайдера. Для максимальной осторожности используйте плейсхолдеры до финальной вычитки.
Как обезличить текст перед отправкой в нейросеть?
Замените ФИО, телефоны, адреса и номера документов на маркеры (Клиент_A, Телефон_1 и т.д.). Можно делать вручную или скриптом. Промпт «обезличь текст» лучше применять к копии текста в доверенной среде, а в чат отправлять уже обезличенный вариант.
Что такое локальные LLM и когда они нужны?
Модели работают на вашем устройстве (Ollama, LM Studio и др.), данные не уходят в облако. Имеют смысл при регулярной работе с конфиденциальными или персональными данными.
Работодатель запрещает использовать публичные нейросети — что делать?
Следовать правилам компании. Использовать разрешённые корпоративные сервисы или локальные решения, если политика это допускает.
Где почитать про утечки данных и безопасность LLM?
В статье безопасность LLM: как предотвратить утечку личных данных. Для автоматизации в компании — автоматизация рутинных задач с LLM.
Заключение
Персональные данные и нейросети требуют отдельного режима: не загружать в публичные чаты то, что не готовы раскрыть, обезличивать текст при необходимости и использовать локальные или корпоративные контуры для чувствительных задач. Тогда работа с LLM останется и полезной, и безопасной.
Дополнительно: Основы ИИ для начинающих, безопасность LLM, инструменты с LLM, автоматизация с LLM, работа с русским текстом. Telegram: https://t.me/neyrowired/
