נקודות חשובות מההנחיות החדשות של NIST בנושא איומי בינה מלאכותית

22 פבואר 2024

תוכן עניינים:

1) ארבעה סוגי התקפה
2) כיצד למתן את ההתקפות הללו
3) יצירת הקשר רחב יותר
4) עוד עבודה שעדיין לעשות

יש מושג בבינה מלאכותית (AI) שנקרא "יישור", המבטיח שמערכת בינה מלאכותית תמיד עוקבת אחר כוונות וערכים אנושיים. אבל מה קורה אם מישהו מתפשר על מערכת בינה מלאכותית כדי לעשות משהו שיוצריה לא רצו?

דוגמאות לאיום הזה, המכונה בינה מלאכותית אדוורסרית, נעות בין איפור שמתעתע בכוונה במערכות זיהוי פנים, ועד להטעות מכוניות אוטונומיות לסטות מעבר לכביש. זהו תחום של סיכון פוטנציאלי עבור בוני מערכות בינה מלאכותית והמשתמשים שלהם, אך חלק ניכר מהמחקר סביבו הוא עדיין אקדמי.

בינואר, המכון הלאומי לתקנים וטכנולוגיה של ארה"ב (NIST) פרסם מסמך שניסה לזקק את המחקר הזה. זה היה פרויקט ארוך. הטיוטה הראשונה של למידת מכונה יריבית: טקסונומיה וטרמינולוגיה של התקפות והקלות הופיעה ב-2019. הגרסה האחרונה הזו היא הסופית, והיא עשויה להיות מסמך יסוד חשוב עבור מפתחי בינה מלאכותית המעוניינים להטמיע את המוצרים שלהם.

ארבעה סוגי התקפה

הטקסונומיה מחלקת התקפות AI יריבות למספר קטגוריות:

1) התקפות התעללות

אלה מתרחשים עוד לפני שאימון המודל מתחיל על ידי התעסקות בנתונים לפני איסוףם - הזנת המודל בנתונים שקריים או מניפולטיביים שנועדו להשפיע על התוצאות שלו. בניגוד לאחרים, צורת התקפה זו ייחודית למערכות בינה מלאכותית (GenAI).

כבר ראינו כמה דוגמאות חדשניות לכך בקרב על קניין רוחני ב-GenAI. לילית, פרויקט של חוקרים מאוניברסיטת שיקגו, הוא כלי שבו אמנים ומאיירים יכולים להשתמש כדי לשנות בעדינות את עבודתם באינטרנט מבלי לשנות את החוויה החזותית של הצופים.

השינויים של Nightshade גורמים למודלים לאימון GenAI לפרש לא נכון אובייקטים בו (הוא עשוי לראות בפרה כטוסטר, למשל). זה מבלבל מודלים של GenAI המסתמכים על נתוני ההדרכה האלה כדי ליצור יצירות אמנות 'חדשות'. Nightshade מתייחס למה שהצוות רואה כגניבה לא מורשית של נתונים למטרות הדרכה על ידי הפיכתה לבעייתית כלכלית עבור חברות GenAI.

2) התקפי הרעלה

אלה מתייחסים גם לתהליך האימון בינה מלאכותית, אך באופן שמשחית בכוונה נתונים שכבר נאספו כדי להטות את מודל האימון הסופי. אנו עשויים לדמיין מישהו פורץ נתונים חזותיים המשמשים לאימון רכבים אוטונומיים ומשנה או מתייג כוזב תמונות של תמרורים, והופך אותם לאור ירוק.

3) התקפות התחמקות

גם אם מודל בינה מלאכותית מאומן במדויק על הנתונים הנכונים, תוקפים עדיין יכולים למקד את מערכת הבינה המלאכותית לאחר פריסתה. התקפת התחמקות מכוונת לתהליך ההסקה שלה - פעולת ניתוח נתונים חדשים באמצעות המודל המאומן - על ידי מניפולציה של נתונים חדשים שמודל הבינה המלאכותית אמור לפרש. בדוגמה לנהיגה אוטונומית שלנו, מישהו עשוי להוסיף סימונים לתמרורי עצירה ברחוב שמונעים מרכב לזהות אותם, מה שמנחה אותו להמשיך בנסיעה.

4) התקפות פרטיות

התקפות מסוימות עוסקות בקצירת נתונים במקום לעיוות את הפרשנות של המודל לגביהם. התקפת פרטיות תחקור מודל בינה מלאכותית במהלך שלב ההסקה כדי לאסוף מידע רגיש מנתוני האימון שלו. חוקרים כבר עשו זאת מצאו דרכים כדי לשכנע את דגמי GPT-3.5 Turbo ו-GPT4 של OpenAI לוותר על כתובות דוא"ל של משתמשים אחרים.

כיצד למתן את ההתקפות הללו

מסמך NIST מציע אמצעי הפחתה טכניים שיסייעו להתמודד עם ניצול לרעה זה של AI. אלה כוללים אימון יריב, במסגרתו מדעני נתונים מכניסים פריטי נתונים למערך האימונים המסכלים התקפות התחמקות. עם זאת, בדרך כלל יש לאלה פשרות בתחומים כמו דיוק מודל ההדרכה, מודה המסמך, המתאר פתרונות לפשרות אלה כ"שאלה פתוחה".

אמצעי ההפחתה הבלתי חד משמעיים מחזקים את עמדתו של מסמך זה כסקר של עבודה אקדמית על בינה מלאכותית אדוורסרית וזיקוקו לטקסונומיה מפורטת שאנשים יכולים להשתמש בה כדי להבטיח שהם מתארים את אותם הדברים כשהם מדברים על הבעיות הללו. זה לא מדריך למתרגלים להתמודד עם איום הבינה המלאכותית היריב, מזהיר נתן ואנהודנוס, מדען בכיר בלימודי מכונה ומנהל מעבדה בחטיבת CERT של המכון להנדסת תוכנה באוניברסיטת קרנגי מלון.

יצירת הקשר רחב יותר

"אני חושב שיהיה מקום לקבל מדריך ממוקד יותר במתרגל עכשיו, לאחר שהם עשו את העבודה הקשה להרכיב טקסונומיה", הוא אומר ל-ISMS.online. "הדברים שהייתי רוצה לראות במדריך מהסוג הזה יהיו לא רק לשקול את שכבת למידת המכונה, אלא את כל הערימה של מערכת AI."

מחסנית זו משתרעת מעבר לשכבת הנתונים, החל מחומרת ה-GPU הבסיסית לסביבות הענן שבהן היא פועלת ומנגנוני האימות המשמשים במערכות AI, הוא מסביר.

NIST כבר נקטה בצעדים משמעותיים כדי לעזור לאלה המיישמים AI עם עצות מעשיות יותר. המכון, שיצר את מרכז משאבי הבינה המלאכותית האמין והאחראי שלו במרץ 2023, פרסם מסגרת ניהול סיכונים בינה מלאכותית בינואר 2023 יחד עם ספר משחק שנועד לסייע בניהול קשת מלאה של סיכונים אינדיבידואליים, ארגוניים וחברתיים מ-AI.

בתחילת פברואר 2024 פרסמה NIST RFI כשביקשה עזרה כיצד לעמוד באחריות שלה במסגרת ההוראה המבצעת של הבית הלבן מאוקטובר 2023 על פיתוח ושימוש בטוח, מאובטח ואמין בבינה מלאכותית. זה כולל פיתוח יכולות ביקורת בינה מלאכותית והנחיות לגבי שיתוף פעולה אדום בינה מלאכותית.

למרות שהמידע על AI יריבות מ-NIST עד כה הוא אקדמי יותר, VanHoudnos מצביע על משאבים משלימים אחרים. ל-MITER יש את שלו נוף איום יריב למערכות בינה מלאכותית (אטלס) יוזמה, אשר אוספת טכניקות מהעולם האמיתי בשלבים שונים של שרשרת התקפות הבינה המלאכותית האדוורסרית, מהסיור ועד להשפעה.

השמיים ברית סיכון ופגיעות בינה מלאכותית, שהוא מאמץ בקוד פתוח בקרב חוקרי בינה מלאכותית, יש גם טקסונומיה של פגיעויות בינה מלאכותית יחד עם מסד נתונים של סוגי התקפות ספציפיים המקושרים לאותה טקסונומיה (למשל AVID-2023-V005: Camera Hijack Attack on Facial Recognition System). ההבדל העיקרי בין הטקסונומיה של AVID לזו של NIST הוא שהיא ממפה רשמית פגיעויות טכניות לסיכונים מסדר גבוה בתחומים כמו אבטחה (למשל דליפות מידע), אתיקה (למשל מידע שגוי) וביצועים (למשל בעיות נתונים או השלכות פרטיות).

הקישור בין האתגרים היריביים לסיכונים מסדר גבוה אלה הוא חלק מרכזי בעבודה המתהווה על מחקר הבשלה של הסכנות סביב AI, מציע VanHoudnos. אחרי הכל, ההשלכות החברתיות של כישלון בינה מלאכותית - הן בכוונה או אחרת - הן עצומות.

"הסיכון העיקרי [של מערכות בינה מלאכותיות] הוא הנזק הבלתי מכוון שהן יגרמו", מסביר VanHoudnos. זה יכול לנוע בין משקר בטעות ללקוחות דרך עד מאשימה שלא בצדק אנשים בהונאת מס והפלת ממשלה או לשכנע אדם להתאבד.

בהקשר זה הוא מזכיר גם את המרכז לאבטחה וטכנולוגיה מתעוררת, אשר ניסה לסווג ולמסד את הנזקים הללו בדו"ח שלו על הוספת מבנה ל-AI Harm.

עוד עבודה שעדיין לעשות

מסמך ה-NIST הוא סקר מקיף של מונחים וטכניקות בתחום שישמש השלמה שימושית לעבודה שכבר מתעדת סיכונים ופגיעות בינה מלאכותית יריבות באזור. עם זאת, VanHoudnos חושש שעדיין יש לנו עבודה לעשות באימוץ הסיכונים הללו מנקודת מבט של מתרגל.

"רק בקיץ שעבר אנשים באמת התחילו לקחת ברצינות את הרעיון שאבטחת AI היא אבטחת סייבר", הוא מסכם. "לקח זמן עד שהם הבינו שבינה מלאכותית היא רק אפליקציה שפועלת על מחשבים המחוברים לרשתות, כלומר זו הבעיה של ה-CISO."

הוא מאמין שלתעשייה עדיין אין מסגרת פרוצדורלית חזקה ליישום צעדי נגד יריבים. ביניהן, CMU ו-SEI עומדות מול צוות תגובה לאירועי אבטחה בינה מלאכותית (ASIRT), יוזמה המיועדת לארגוני ביטחון לאומי ולבסיס התעשייתי הביטחוני, שתתמקד במחקר ופיתוח גישות רשמיות לאבטחת מערכות בינה מלאכותית נגד יריבים.

סוג זה של מאמץ לא יכול להגיע מהר מספיק, במיוחד בהתחשב בקביעה של NIST ש"עדיין לא קיימת שיטה חסינת תקלות להגנה על AI מפני הכוונה שגויה." שוב, אנו צפויים ליפול לקרב אינסופי עם יריבים בעת הגנה על מערכות ה-AI שלנו מחתרנות. ככל שנתחיל מוקדם יותר ברצינות, כך ייטב.

מְחַבֵּר

דני ברדברי

דני ברדבורי הוא עיתונאי דפוס המתמחה בטכנולוגיה מאז 1989 וכותב עצמאי מאז 1994. הוא כתב עבור פרסומים לאומיים משני צדי האוקיינוס האטלנטי וזכה בפרסים על עבודתו העיתונות החוקרת בתחום אבטחת הסייבר.

צפה בכל הפוסטים של דני ברדבורי