ความปลอดภัยและจริยธรรมใน AI - แนวทางของ Meltwater

เผยแพร่แล้ว: 2023-08-16

AI กำลังเปลี่ยนแปลงโลกของเรา โดยมอบความสามารถใหม่ที่น่าทึ่งให้กับเรา เช่น การสร้างเนื้อหาอัตโนมัติและการวิเคราะห์ข้อมูล และผู้ช่วย AI ส่วนบุคคล แม้ว่าเทคโนโลยีนี้จะนำมาซึ่งโอกาสที่ไม่เคยมีมาก่อน แต่ก็ยังก่อให้เกิดข้อกังวลด้านความปลอดภัยที่สำคัญซึ่งต้องได้รับการแก้ไขเพื่อให้แน่ใจว่ามีการใช้งานที่เชื่อถือได้และเท่าเทียมกัน

ที่ Meltwater เราเชื่อว่าการทำความเข้าใจและจัดการกับความท้าทายด้านความปลอดภัยของ AI เหล่านี้เป็นสิ่งสำคัญสำหรับความก้าวหน้าอย่างรับผิดชอบของเทคโนโลยีที่เปลี่ยนแปลงนี้

ข้อกังวลหลักเกี่ยวกับความปลอดภัยของ AI นั้นเกี่ยวข้องกับวิธีที่เราทำให้ระบบเหล่านี้มีความน่าเชื่อถือ มีจริยธรรม และเป็นประโยชน์ต่อทุกคน สิ่งนี้เกิดจากความเป็นไปได้ที่ระบบ AI จะก่อให้เกิดอันตรายโดยไม่ตั้งใจ การตัดสินใจที่ไม่สอดคล้องกับคุณค่าของมนุษย์ ถูกใช้ในทางที่ผิด หรือมีพลังมากจนควบคุมไม่ได้

สารบัญ

ความทนทาน
การจัดตำแหน่ง
ความลำเอียงและความเป็นธรรม
การตีความ
ดริฟท์
เส้นทางข้างหน้าเพื่อความปลอดภัยของ AI

ความทนทาน

ความทนทานของ AI หมายถึงความสามารถในการทำงานได้ดีอย่างต่อเนื่องแม้ในสภาวะที่เปลี่ยนแปลงหรือไม่คาดคิด

หากแบบจำลอง AI ไม่แข็งแกร่ง อาจล้มเหลวได้ง่ายหรือให้ผลลัพธ์ที่ไม่ถูกต้องเมื่อสัมผัสกับข้อมูลหรือสถานการณ์ใหม่นอกตัวอย่างที่ได้รับการฝึกอบรม ดังนั้น ประเด็นหลักของความปลอดภัยของ AI คือการสร้างโมเดลที่แข็งแกร่งซึ่งสามารถรักษาระดับประสิทธิภาพสูงในสภาวะต่างๆ

ที่ Meltwater เรารับมือกับความแข็งแกร่งของ AI ทั้งในขั้นตอนการฝึกฝนและการอนุมาน มีการใช้เทคนิคหลายอย่าง เช่น การฝึกอบรมคู่ต่อสู้ การวัดปริมาณความไม่แน่นอน และการเรียนรู้แบบรวมศูนย์เพื่อปรับปรุงความยืดหยุ่นของระบบ AI ในสถานการณ์ที่ไม่แน่นอนหรือสถานการณ์ที่เป็นปฏิปักษ์

การจัดตำแหน่ง

ในบริบทนี้ "การจัดตำแหน่ง" หมายถึงกระบวนการในการทำให้มั่นใจว่าเป้าหมายและการตัดสินใจของระบบ AI นั้นสอดคล้องกับคุณค่าของมนุษย์ ซึ่งเป็นแนวคิดที่เรียกว่าการจัดตำแหน่งคุณค่า

AI ที่ไม่ตรงแนวสามารถทำการตัดสินใจที่มนุษย์เห็นว่าไม่พึงปรารถนาหรือเป็นอันตราย แม้ว่าจะเหมาะสมที่สุดตามพารามิเตอร์การเรียนรู้ของระบบก็ตาม เพื่อให้ได้ AI ที่ปลอดภัย นักวิจัยกำลังทำงานบนระบบที่เข้าใจและเคารพคุณค่าของมนุษย์ตลอดกระบวนการตัดสินใจ แม้ว่าพวกเขาจะเรียนรู้และพัฒนาก็ตาม

การสร้างระบบ AI ที่สอดคล้องกับคุณค่าจำเป็นต้องมีการโต้ตอบและข้อเสนอแนะจากมนุษย์อย่างต่อเนื่อง Meltwater ใช้เทคนิค Human In The Loop (HITL) อย่างกว้างขวาง โดยรวบรวมความคิดเห็นจากมนุษย์ในขั้นตอนต่างๆ ของเวิร์กโฟลว์การพัฒนา AI ของเรา รวมถึงการตรวจสอบประสิทธิภาพของโมเดลแบบออนไลน์

มีการนำเทคนิคต่างๆ เช่น การเรียนรู้การเสริมแรงแบบผกผัน การเรียนรู้การเสริมแรงแบบผกผันแบบร่วมมือ และเกมช่วยเหลือมาใช้เพื่อเรียนรู้และเคารพคุณค่าและความพึงพอใจของมนุษย์ นอกจากนี้ เรายังใช้ประโยชน์จากทฤษฎีการรวมตัวและการเลือกทางสังคมเพื่อจัดการกับค่านิยมที่ขัดแย้งกันระหว่างมนุษย์ที่แตกต่างกัน

ความลำเอียงและความเป็นธรรม

ปัญหาสำคัญประการหนึ่งของ AI คือศักยภาพในการเพิ่มอคติที่มีอยู่ ซึ่งนำไปสู่ผลลัพธ์ที่ไม่ยุติธรรม

อคติใน AI อาจเป็นผลมาจากปัจจัยต่างๆ รวมถึง (แต่ไม่จำกัดเพียง) ข้อมูลที่ใช้ในการฝึกระบบ การออกแบบอัลกอริทึม หรือบริบทที่นำไปใช้ หากระบบ AI ได้รับการฝึกอบรมเกี่ยวกับข้อมูลประวัติที่มีการตัดสินใจที่มีอคติ ระบบอาจขยายเวลาความลำเอียงเหล่านี้โดยไม่ได้ตั้งใจ

ตัวอย่างคือ AI การเลือกงานซึ่งอาจเข้าข้างเพศใดเพศหนึ่งอย่างไม่เป็นธรรม เนื่องจาก AI ได้รับการฝึกฝนเกี่ยวกับการตัดสินใจจ้างงานในอดีตที่มีความลำเอียง การกล่าวถึงความยุติธรรมหมายถึงการใช้ความพยายามโดยเจตนาเพื่อลดอคติใน AI เพื่อให้มั่นใจว่า AI ปฏิบัติต่อบุคคลและกลุ่มทั้งหมดอย่างเท่าเทียมกัน

Meltwater ทำการวิเคราะห์อคติในชุดข้อมูลการฝึกอบรมทั้งหมดของเรา ทั้งแบบภายในองค์กรและแบบโอเพ่นซอร์ส และกระตุ้นให้ Large Language Models (LLM) ทั้งหมดระบุอคติในทางตรงข้าม เราใช้การทดสอบพฤติกรรมอย่างกว้างขวางเพื่อระบุปัญหาเชิงระบบในแบบจำลองความคิดเห็นของเรา และเราบังคับใช้การตั้งค่าการควบคุมเนื้อหาที่เข้มงวดที่สุดใน LLM ทั้งหมดที่ใช้โดยผู้ช่วย AI ของเรา คำจำกัดความความยุติธรรมทางสถิติและการคำนวณหลายรายการ รวมถึง (แต่ไม่จำกัดเพียง) ความเท่าเทียมกันทางประชากร โอกาสที่เท่าเทียมกัน และความเป็นธรรมส่วนบุคคล ถูกนำมาใช้เพื่อลดผลกระทบของอคติ AI ในผลิตภัณฑ์ของเรา

การตีความ

ความโปร่งใสใน AI ซึ่งมักเรียกว่าการตีความหรืออธิบายได้ ถือเป็นข้อพิจารณาด้านความปลอดภัยที่สำคัญ มันเกี่ยวข้องกับความสามารถในการเข้าใจและอธิบายว่าระบบ AI ตัดสินใจอย่างไร

หากปราศจากการตีความ คำแนะนำของระบบ AI อาจดูเหมือนกล่องดำ ทำให้ตรวจจับ วินิจฉัย และแก้ไขข้อผิดพลาดหรืออคติได้ยาก ดังนั้น การส่งเสริมความสามารถในการตีความในระบบ AI จึงช่วยเพิ่มความรับผิดชอบ ปรับปรุงความไว้วางใจของผู้ใช้ และส่งเสริมการใช้ AI อย่างปลอดภัยยิ่งขึ้น Meltwater ใช้เทคนิคมาตรฐาน เช่น LIME และ SHAP เพื่อทำความเข้าใจพฤติกรรมเบื้องหลังของระบบ AI ของเราและทำให้โปร่งใสยิ่งขึ้น

ดริฟท์

AI ดริฟท์ หรือ ดริฟต์แนวคิด หมายถึงการเปลี่ยนแปลงรูปแบบข้อมูลอินพุตเมื่อเวลาผ่านไป การเปลี่ยนแปลงนี้อาจทำให้ประสิทธิภาพของโมเดล AI ลดลง ส่งผลต่อความน่าเชื่อถือและความปลอดภัยของการคาดการณ์หรือคำแนะนำ

การตรวจจับและจัดการการเลื่อนเป็นสิ่งสำคัญในการรักษาความปลอดภัยและความทนทานของระบบ AI ในโลกที่ไม่หยุดนิ่ง การจัดการการดริฟต์อย่างมีประสิทธิภาพจำเป็นต้องมีการตรวจสอบประสิทธิภาพของระบบอย่างต่อเนื่องและอัปเดตโมเดลเมื่อจำเป็น

Meltwater ตรวจสอบการกระจายของการอนุมานที่สร้างโดยโมเดล AI ของเราแบบเรียลไทม์ เพื่อตรวจหาการเบี่ยงเบนของโมเดลและปัญหาด้านคุณภาพข้อมูลที่เกิดขึ้นใหม่

เส้นทางข้างหน้าเพื่อความปลอดภัยของ AI

ความปลอดภัยของ AI เป็นความท้าทายหลายแง่มุม ซึ่งต้องใช้ความพยายามร่วมกันของนักวิจัย นักพัฒนา AI ผู้กำหนดนโยบาย และสังคมโดยรวม

ในฐานะบริษัท เราต้องมีส่วนร่วมในการสร้างวัฒนธรรมที่ให้ความสำคัญกับความปลอดภัยของ AI ซึ่งรวมถึงการกำหนดบรรทัดฐานด้านความปลอดภัยทั่วทั้งอุตสาหกรรม การส่งเสริมวัฒนธรรมของการเปิดกว้างและความรับผิดชอบ และความมุ่งมั่นอย่างแน่วแน่ในการใช้ AI เพื่อเพิ่มความสามารถของเราในลักษณะที่สอดคล้องกับค่านิยมที่ยึดถืออย่างลึกซึ้งที่สุดของ Meltwater

ด้วยความมุ่งมั่นอย่างต่อเนื่องนี้มาพร้อมกับความรับผิดชอบ และทีม AI ของ Meltwater ได้จัดตั้งชุดหลักการ AI อย่างมีจริยธรรมของ Meltwater ซึ่งได้รับแรงบันดาลใจจากหลักการเหล่านั้นจาก Google และ OECD หลักการเหล่านี้เป็นพื้นฐานสำหรับวิธีที่ Meltwater ดำเนินการวิจัยและพัฒนาในด้านปัญญาประดิษฐ์ การเรียนรู้ของเครื่อง และวิทยาศาสตร์ข้อมูล

สร้างประโยชน์แก่สังคมทุกครั้งที่มีโอกาสอย่างมีส่วนร่วมและยั่งยืน
อคติและความเลื่อนลอยเป็นข้อบกพร่อง พวกเขาทำให้ธุรกิจและลูกค้าของเราล้มเหลว
ความปลอดภัย ความเป็นส่วนตัว และการรักษาความปลอดภัยในฐานะพลเมืองชั้นหนึ่ง
ติดตามทุกอย่างและรับผิดชอบ ความโปร่งใสเป็นกุญแจสำคัญ
เราเป็นนักวิทยาศาสตร์และวิศวกร ทุกอย่างต้องได้รับการพิสูจน์และทดสอบ
ใช้โอเพ่นซอร์สทุกครั้งที่ทำได้ ตรวจสอบทุกอย่างอื่นและถือว่าไม่ปลอดภัย

Meltwater ได้สร้างความร่วมมือและการเป็นสมาชิกเพื่อเสริมสร้างความมุ่งมั่นในการส่งเสริมการปฏิบัติด้าน AI อย่างมีจริยธรรม

Meltwater จัดตั้ง Scientific Advisory Board (SAB) ซึ่งเป็นทีมนักวิจัยและผู้เชี่ยวชาญทางวิทยาศาสตร์ที่มีชื่อเสียงซึ่งให้คำแนะนำเกี่ยวกับกลยุทธ์ AI ของ Meltwater
Meltwater ปฏิบัติตามคำแนะนำของ PR Council สำหรับ Generative AI ซึ่งเปิดตัวในเดือนเมษายน 2023
Meltwater ช่วยให้แบรนด์ต่าง ๆ ยึดมั่นใน Brand Safety Floor & Suitability Framework ของ WAF GARM โดยจัดหาโมเดล AI หลายตัวเพื่อตรวจจับเนื้อหาที่เป็นอันตราย ไม่เหมาะสม และไม่ปลอดภัยในข้อความ เสียง ภาพ และวิดีโอ รวมถึงกรณีการใช้ข้อมูลที่ผิดผ่านการเป็นพันธมิตรกับ Newsguard

เราภูมิใจอย่างยิ่งที่ Meltwater สามารถส่งมอบ AI ที่มีจริยธรรมให้กับลูกค้าได้ไกลเพียงใด เราเชื่อว่า Meltwater พร้อมที่จะนำเสนอนวัตกรรมที่ก้าวล้ำต่อไปเพื่อปรับปรุงเส้นทางข่าวกรองในอนาคต และรู้สึกตื่นเต้นที่จะมีบทบาทเป็นผู้นำในการสนับสนุนหลักการของเราในการพัฒนา AI อย่างมีความรับผิดชอบ ส่งเสริมความโปร่งใสอย่างต่อเนื่อง ซึ่งนำไปสู่ความไว้วางใจที่มากขึ้นในหมู่ลูกค้า