人工智能的安全和道德 - Meltwater 的方法

已发表: 2023-08-16

人工智能正在改变我们的世界，为我们提供了令人惊叹的新功能，例如自动内容创建和数据分析以及个性化人工智能助手。虽然这项技术带来了前所未有的机遇，但它也带来了重大的安全问题，必须解决这些问题，以确保其可靠和公平的使用。

在 Meltwater，我们相信理解和应对这些人工智能安全挑战对于负责任地推进这一变革性技术至关重要。

人工智能安全的主要关注点围绕着我们如何使这些系统变得可靠、合乎道德并造福于所有人。这源于人工智能系统可能造成意外伤害、做出与人类价值观不符的决策、被恶意使用或变得如此强大以至于无法控制。

稳健性
结盟
偏见与公平
可解释性
漂移
人工智能安全的未来之路

稳健性

人工智能的鲁棒性是指即使在不断变化或意外的条件下也能始终保持良好表现的能力。

如果人工智能模型不稳健，那么当暴露于训练样本之外的新数据或场景时，它可能很容易失败或提供不准确的结果。因此，人工智能安全的一个核心方面是创建强大的模型，可以在不同的条件下保持高性能水平。

在 Meltwater，我们在训练和推理阶段解决人工智能的鲁棒性问题。采用对抗性训练、不确定性量化和联邦学习等多种技术来提高人工智能系统在不确定或对抗性情况下的恢复能力。

结盟

在这种情况下，“一致性”是指确保人工智能系统的目标和决策与人类价值观同步的过程，这一概念称为价值一致性。

错位的人工智能可能会做出人类认为不受欢迎或有害的决策，尽管根据系统的学习参数是最佳的。为了实现安全的人工智能，研究人员正在研究能够在整个决策过程中理解和尊重人类价值观的系统，即使在人类学习和进化的过程中也是如此。

构建价值一致的人工智能系统需要人类的持续互动和反馈。 Meltwater 广泛使用人机参与 (HITL) 技术，在人工智能开发工作流程的不同阶段纳入人类反馈，包括模型性能的在线监控。

人们正在采用逆强化学习、合作逆强化学习和辅助游戏等技术来学习和尊重人类的价值观和偏好。我们还利用聚合和社会选择理论来处理不同人之间的价值观冲突。

偏见与公平

人工智能的一个关键问题是它有可能放大现有的偏见，导致不公平的结果。

人工智能中的偏差可能是由多种因素造成的，包括（但不限于）用于训练系统的数据、算法的设计或其应用环境。如果人工智能系统接受包含有偏见决策的历史数据的训练，该系统可能会无意中使这些偏见永久化。

一个例子是工作选择人工智能，它可能会不公平地偏向特定性别，因为它是根据过去有偏见的招聘决策进行训练的。解决公平问题意味着刻意努力尽量减少人工智能中的偏见，从而确保它公平对待所有个人和群体。

Meltwater 对我们所有的训练数据集（包括内部数据集和开源数据集）进行偏差分析，并以对抗性方式提示所有大型语言模型 (LLM) 识别偏差。我们广泛使用行为测试来识别情绪模型中的系统性问题，并对人工智能助理使用的所有法学硕士实施最严格的内容审核设置。我们正在利用多种统计和计算公平定义，包括（但不限于）人口平等、机会均等和个人公平，以最大限度地减少人工智能偏见对我们产品的影响。

可解释性

人工智能的透明度，通常称为可解释性或可解释性，是一个至关重要的安全考虑因素。它涉及理解和解释人工智能系统如何做出决策的能力。

如果没有可解释性，人工智能系统的建议看起来就像一个黑匣子，很难检测、诊断和纠正错误或偏见。因此，增强人工智能系统的可解释性可以增强问责制，提高用户信任度，并促进更安全地使用人工智能。 Meltwater 采用 LIME 和 SHAP 等标准技术来了解人工智能系统的底层行为并使其更加透明。

漂移

人工智能漂移或概念漂移是指输入数据模式随时间的变化。这种变化可能会导致人工智能模型性能下降，影响其预测或建议的可靠性和安全性。

检测和管理漂移对于在动态世界中保持人工智能系统的安全性和稳健性至关重要。有效处理漂移需要持续监控系统性能并在必要时更新模型。

Meltwater 实时监控我们的人工智能模型的推论分布，以检测模型漂移和新出现的数据质量问题。

人工智能安全的未来之路

人工智能安全是一个多方面的挑战，需要研究人员、人工智能开发人员、政策制定者和整个社会的集体努力。

作为一家公司，我们必须致力于营造一种优先考虑人工智能安全的文化。这包括制定全行业的安全规范、培育开放和问责的文化，以及坚定地致力于利用人工智能以符合 Meltwater 最根深蒂固的价值观的方式增强我们的能力。

伴随着这种持续的承诺，责任也随之而来，Meltwater 的人工智能团队在 Google 和 OECD 的启发下，制定了一套 Meltwater 道德人工智能原则。这些原则构成了 Meltwater 如何进行人工智能、机器学习和数据科学研究和开发的基础。

每当机会以包容性和可持续的方式出现时，造福社会。
偏差和漂移都是缺陷。他们辜负了企业和我们的客户。
作为一等公民的安全、隐私和保障。
追踪一切并承担责任。透明度是关键。
我们是科学家和工程师；一切都必须经过证明和测试。
尽可能使用开源；检查其他所有东西并假设它是不安全的。

Meltwater 建立了合作伙伴关系和会员资格，以进一步加强其对促进道德人工智能实践的承诺。

Meltwater成立了科学顾问委员会（SAB），该委员会由杰出的科研人员和专业人士组成的团队，为Meltwater的人工智能战略提供指导
Meltwater 遵守 PR Council 于 2023 年 4 月推出的生成式 AI 指南
Meltwater 通过提供多种 AI 模型来检测文本、音频、图像和视频中的有害、滥用和不安全内容，包括通过我们的 Newsguard 合作伙伴提供的错误信息用例，帮助品牌遵守 WAF GARM 的品牌安全底线和适用性框架。

我们对 Meltwater 在向客户提供合乎道德的人工智能方面取得的进展感到非常自豪。我们相信 Meltwater 准备继续提供突破性创新，以简化未来的智能之旅，并很高兴能够继续发挥领导作用，负责任地倡导我们的人工智能开发原则，促进持续的透明度，从而增强客户之间的信任。