безопасность данных

Чтобы не утекло в сеть: как локально запустить умные чат-боты на своем компьютере

Валерий Зубанов

29 февр. 2024 г. • 2 min read

При использовании умных чат-ботов важно помнить о безопасности данных — ведь все запросы пользователей и ответы на них сохраняются на серверах провайдеров. Чтобы предотвратить утечки, можно попробовать запустить языковую модель локально — на своём компьютере. Как это сделать, разбирает в статье управляющий директор «Лаборатории Касперского» в Казахстане, Центральной Азии и Монголии Валерий Зубанов.

Популярные умные чат-боты, такие как ChatGPT и Midjourney, работают через облачную инфраструктуру компаний-владельцев. Поэтому важно понимать, что все данные, которые обрабатывает языковая модель, могут быть доступны и провайдеру. А в некоторых случаях —третьим лицам, поскольку всегда есть риск утечки. Например, в прошлом году в результате инцидента стала доступна история обращений некоторых пользователей ChatGPT.

Многое зависит от того, в каких целях используется чат-бот. Если с его помощью просто генерировать картинки для развлечения, то если эти данные попадут в открытый доступ, ничего страшного не случится. Но если в запросах содержатся личные данные, то их утечка может привести к серьёзным последствиям.

Чтобы этого избежать, лучше предварительно отфильтровывать данные. В частности, не сообщать чат-боту важной информации (например, пароли, данные банковской карты, номер телефона, домашний адрес), не загружать документы и пользоваться настройками конфиденциальности, чтобы минимизировать отслеживание данных.

Но в случаях, если пользователь всё-таки решает указать в запросе свои данные, или ему нужно ввести большое количество сведений, на проверку которых уйдёт много времени, защитится от утечек тоже можно. Для этого можноперенести обработку данных из облака провайдера на свой локальный компьютер, без подключения к интернету. Таким способом вряд ли удастся запустить свои версии популярных моделей вроде ChatGPT или Midjourney, но можно подобрать аналоги со схожим функционалом.

Как выбрать и запустить чат-бот

Чтобы выбрать языковую модель, сначала нужно ознакомиться с системными требованиями — для её запуска может потребоваться очень мощный компьютер. Если они слишком высокие, можно обратить внимание на упрощённые модели, которыми можно пользоваться даже на старом «железе».

Далее нужно определить, для каких практических целей нужен чат-бот. Некоторые из них хорошо подходят для генерации текстов (например, Mistral 7B), другие — для создания фрагментов кода (например, Code Llama 13B). Список бесплатных языковых моделей можно, например, посмотреть на ресурсе Hugging Face.

Но просто скачать на компьютер языковую модель недостаточно — для её запуска нужно установить специализированное ПО, например LLaMA.cpp. Также можно воспользоваться более простым инструментом — LM Studio. Пользователь может прямо в приложении выбрать нужную языковую модель, скачать её и запустить чат-бот.

Воспользоваться умными чат-ботами локально, не подключаясь к интернету, можно также с помощью «коробочного» инструмента GPT4All. С ним работать проще: пользователю нужно только скачать и запустить приложение и следовать подсказкам — никаких дополнительных действий и сложных настроек не требуется. Далее в нём можно выбрать подходящую языковую модель — их список ограничен, но зато большинство из них запустятся даже не на самых мощных компьютерах.

Насколько это безопасно

Подобные приложения запускаются полностью локально — то есть не отправляют данные на серверы и могут запускаться без подключения к интернету. Поэтому обрабатывать личную информацию с их помощью безопаснее. Но важно помнить, что утечка данных может произойти не только из языковой модели, но и с компьютера. Поэтому мы рекомендуем установить надёжное защитное решение, которое поможет защитить личные данные, и предупредит пользователей об уже случившихся утечках, чтобы оперативно принять меры — например, сменить пароль от учётной записи.