Безопасность и этика в ИИ — подход Meltwater

Опубликовано: 2023-08-16

ИИ меняет наш мир, предлагая нам удивительные новые возможности, такие как автоматическое создание контента и анализ данных, а также персонализированные помощники ИИ. Хотя эта технология открывает беспрецедентные возможности, она также создает серьезные проблемы безопасности, которые необходимо решить, чтобы обеспечить ее надежное и справедливое использование.

В Meltwater мы считаем, что понимание и решение этих проблем безопасности ИИ имеет решающее значение для ответственного продвижения этой преобразующей технологии.

Основные проблемы безопасности ИИ связаны с тем, как мы делаем эти системы надежными, этичными и полезными для всех. Это связано с тем, что системы ИИ могут причинять непреднамеренный вред, принимать решения, не соответствующие человеческим ценностям, использоваться злонамеренно или становиться настолько мощными, что становятся неуправляемыми.

Оглавление

  • Надежность

  • Выравнивание

  • Предвзятость и справедливость

  • Интерпретируемость

  • Дрейф

  • Путь вперед к безопасности ИИ


Надежность

Надежность ИИ относится к его способности стабильно работать хорошо даже в изменяющихся или неожиданных условиях.

Если модель ИИ ненадежна, она может легко дать сбой или дать неточные результаты при воздействии новых данных или сценариев за пределами образцов, на которых она обучалась. Таким образом, ключевым аспектом безопасности ИИ является создание надежных моделей, способных поддерживать высокий уровень производительности в различных условиях.

В Meltwater мы обеспечиваем надежность ИИ как на этапах обучения, так и на этапах вывода. Несколько методов, таких как состязательное обучение, количественная оценка неопределенности и федеративное обучение, используются для повышения устойчивости систем ИИ в неопределенных или состязательных ситуациях.

Выравнивание

В этом контексте «согласование» относится к процессу обеспечения соответствия целей и решений систем ИИ человеческим ценностям. Эта концепция известна как согласование ценностей.

Смещенный ИИ может принимать решения, которые люди сочтут нежелательными или вредными, несмотря на то, что они оптимальны в соответствии с параметрами обучения системы. Чтобы добиться безопасного ИИ, исследователи работают над системами, которые понимают и уважают человеческие ценности в процессе принятия решений, даже когда они учатся и развиваются.

Создание систем искусственного интеллекта, ориентированных на ценность, требует постоянного взаимодействия и обратной связи с людьми. Meltwater широко использует методы Human In The Loop (HITL), включая обратную связь с человеком на разных этапах наших рабочих процессов разработки ИИ, включая онлайн-мониторинг производительности модели.

Такие методы, как обучение с обратным подкреплением, совместное обучение с обратным подкреплением и вспомогательные игры, используются для изучения и уважения человеческих ценностей и предпочтений. Мы также используем теорию агрегации и социального выбора, чтобы справляться с противоречивыми ценностями разных людей.

Предвзятость и справедливость

Одна из критических проблем с ИИ заключается в том, что он может усилить существующие предубеждения, что приведет к несправедливым результатам.

Предвзятость в ИИ может быть вызвана различными факторами, включая (но не ограничиваясь) данными, используемыми для обучения систем, дизайном алгоритмов или контекстом, в котором они применяются. Если система ИИ обучается на исторических данных, которые содержат предвзятые решения, система может непреднамеренно сохранить эти предубеждения.

Примером может служить ИИ для выбора работы, который может несправедливо отдавать предпочтение определенному полу, потому что он был обучен на прошлых решениях о найме, которые были предвзятыми. Борьба со справедливостью означает преднамеренные усилия, чтобы свести к минимуму предвзятость в ИИ, тем самым обеспечив равное отношение ко всем людям и группам.

Meltwater выполняет анализ систематической ошибки для всех наших обучающих наборов данных, как собственных, так и открытых, и состязательно запрашивает все модели большого языка (LLM) для выявления систематической ошибки. Мы широко используем поведенческое тестирование для выявления системных проблем в наших моделях настроений и применяем самые строгие настройки модерации контента для всех LLM, используемых нашими помощниками ИИ. Несколько статистических и вычислительных определений справедливости, включая (но не ограничиваясь) демографический паритет, равные возможности и индивидуальную справедливость, используются для минимизации влияния предвзятости ИИ в наших продуктах.

Интерпретируемость

Прозрачность в ИИ, которую часто называют интерпретируемостью или объяснимостью, является важным фактором безопасности. Это включает в себя способность понимать и объяснять, как системы ИИ принимают решения.

Без интерпретируемости рекомендации системы ИИ могут показаться черным ящиком, что затрудняет обнаружение, диагностику и исправление ошибок или предубеждений. Следовательно, обеспечение интерпретируемости в системах ИИ повышает подотчетность, повышает доверие пользователей и способствует более безопасному использованию ИИ. Meltwater использует стандартные методы, такие как LIME и SHAP, чтобы понять базовое поведение наших систем искусственного интеллекта и сделать их более прозрачными.

Дрейф

Дрейф ИИ, или дрейф концепции, относится к изменению шаблонов входных данных с течением времени. Это изменение может привести к снижению производительности модели ИИ, что повлияет на надежность и безопасность ее прогнозов или рекомендаций.

Обнаружение дрейфа и управление им имеет решающее значение для обеспечения безопасности и надежности систем ИИ в динамичном мире. Для эффективной обработки дрейфа требуется постоянный мониторинг производительности системы и обновление модели по мере необходимости.

Meltwater отслеживает распределение выводов, сделанных нашими моделями ИИ, в режиме реального времени, чтобы обнаруживать дрейф модели и возникающие проблемы с качеством данных.

Путь вперед к безопасности ИИ

Безопасность ИИ — это многогранная задача, требующая коллективных усилий исследователей, разработчиков ИИ, политиков и общества в целом.

Как компания, мы должны внести свой вклад в создание культуры, в которой безопасность ИИ является приоритетом. Это включает в себя установление общеотраслевых норм безопасности, формирование культуры открытости и подотчетности, а также твердую приверженность использованию ИИ для расширения наших возможностей в соответствии с наиболее глубоко укоренившимися ценностями Meltwater.

С этим постоянным обязательством приходит ответственность, и команды ИИ Meltwater разработали ряд этических принципов ИИ Meltwater, вдохновленных принципами Google и ОЭСР. Эти принципы составляют основу того, как Meltwater проводит исследования и разработки в области искусственного интеллекта, машинного обучения и науки о данных.

  1. Приносить пользу обществу всякий раз, когда появляются возможности, инклюзивными и устойчивыми способами.
  2. Смещения и дрейфы являются дефектами. Они подводят бизнес и наших клиентов.
  3. Безопасность, конфиденциальность и безопасность как первоклассные граждане.
  4. Отследить все и нести ответственность. Прозрачность является ключевым фактором.
  5. Мы ученые и инженеры; все должно быть проверено и испытано.
  6. По возможности используйте открытый исходный код; проверить все остальное и предположить, что это небезопасно.

Meltwater установила партнерские отношения и членство, чтобы еще больше укрепить свою приверженность содействию этическим методам искусственного интеллекта.

  • Компания Meltwater учредила Научный консультативный совет (SAB), который представляет собой группу выдающихся ученых-исследователей и профессионалов, предлагающих рекомендации по стратегии искусственного интеллекта Meltwater.
  • Meltwater придерживается руководства Совета по связям с общественностью для генеративного ИИ, которое было представлено в апреле 2023 года.
  • Meltwater помогает брендам соблюдать требования WAF GARM по обеспечению минимальной безопасности бренда и концепции пригодности, предоставляя несколько моделей искусственного интеллекта для обнаружения вредоносного, оскорбительного и небезопасного контента в тексте, аудио, изображениях и видео, включая случаи использования дезинформации в рамках нашего партнерства с Newsguard.

Мы очень гордимся тем, как далеко продвинулась компания Meltwater в предоставлении клиентам этического ИИ. Мы верим, что Meltwater готова и впредь предлагать революционные инновации, чтобы оптимизировать интеллектуальный путь в будущем, и рады продолжать играть ведущую роль в ответственном отстаивании наших принципов в разработке ИИ, содействуя постоянной прозрачности, что ведет к большему доверию среди клиентов.