Claude научился самостоятельно завершать токсичные диалоги

Компания Anthropic объявила о новом обновлении своего ИИ-ассистента Claude. Теперь модель способна самостоятельно прерывать разговоры, если посчитает их вредными или оскорбительными. Это изменение направлено на повышение безопасности взаимодействия пользователей с искусственным интеллектом.

Ранее Claude мог лишь отклонять отдельные провокационные запросы, но продолжал диалог. Теперь же система при определённых условиях может полностью завершить сессию. Такой шаг позволяет предотвратить эскалацию агрессивного или токсичного общения.

Anthropic не уточнила точные критерии, по которым ИИ решает прервать беседу. Однако в компании подчеркивают, что решение принимается на основе анализа контекста и поведения пользователя. Цель — снизить риск злоупотреблений и защитить как пользователей, так и саму модель.

Обновление уже внедряется для всех пользователей Claude в различных версиях — от бесплатной до Pro. Это часть более широкой стратегии Anthropic по созданию ИИ, способного устанавливать границы в общении. Компания считает, что подобные меры делают взаимодействие с искусственным интеллектом более этичным и устойчивым.

Границы разумного общения

Теперь Claude ведёт себя не как пассивный инструмент, а как активный участник диалога, способный защищать себя и собеседника. Это важный шаг в развитии безопасного ИИ, особенно на фоне роста случаев манипуляций и агрессивного поведения в чатах. Anthropic демонстрирует, что ответственный ИИ должен уметь не только отвечать, но и уходить из токсичных ситуаций.

Границы разумного общения

Похожие записи