בינה מלאכותית מוצאת את דרכה לכל דבר, החל מדש חתולים ועד גריל 'חכם' בחצר האחורית - וכמובן, אינך יכול לפתוח שום תוכנה ארגונית מודרנית מבלי לראות איזשהו עוזר בינה מלאכותית המופעל על ידי מודל שפה גדול (LLM). אבל ככל שקשה להימנע מהטכנולוגיה, אולי כדאי שנחשוב על איך אנשים עלולים לנצל אותה לרעה.
אנחנו לא מדברים על האופן שבו פושעי סייבר עשויים להשתמש במודלים של שפה גדולה (LLMs) כדי לכתוב מיילים דיוג או לפרוץ אתרי אינטרנט כאן. במקום זאת, אנו שוקלים כיצד תוקפים יכולים לסכן מערכות AI לגיטימיות כדי לגנוב נתונים, להפיץ מידע שגוי, או אפילו לשלוח מכונות בשקט.
הפגיעויות האורבות ב-LLMs
אחת ההתקפות הנפוצות ביותר מסוג זה כוללת מניפולציה מיידית. תוקפים הדגימו כיצד לעקוף את מעקות הבטיחות של LLMs שונים (הידועים כפריצת כלא) באמצעות טכניקות כמו משחק תפקידים ואפילו נכנסים לג'יבריש.
זריקות מיידיות יכולות לעשות יותר מאשר לקבל LLM לספק הוראות לפעילויות לא חוקיות או לכתוב הודעות דיוג. חוקרים השתמשו בהם לסילוק נתונים. לדוגמה, חברת אבטחת הבינה המלאכותית PromptArmor מְרוּמֶה עוזר הבינה המלאכותית של סלאק לדליפת סודות כמו מפתחות API מערוצים פרטיים.
הנדסה מהירה יוצרת הזדמנויות לגניבת נתונים. מערכות בינה מלאכותית יכולות לחשוף בטעות נתונים רגישים באמצעות באגים או פגמי עיצוב. לפעמים אלו יכולות להיות תקלות, כמו באג ChatGPT דלף המידע הפרטי של המשתמשים, כולל פרטי תשלום, במרץ 2023. התקפות אחרות משתמשות בהזרקה מיידית עם טקטיקות ערמומיות כמו שינוי טקסט כך שהנחיה זדונית משכנעת LLM למסור נתונים תוך שהיא בלתי מובנת לקורבנות אנושיים.
בתרחישים מסוימים, חוקרים עשויים להיות מסוגלים להשתמש בהנדסה מהירה כדי לחשוף את נתוני ההדרכה המקוריים של המודל. בהתקפת היפוך מודל, יריב יכול לחקור את ה-LLM, באמצעות התגובות כדי להסיק דברים על נתוני האימון ובסופו של דבר לבצע הנדסה לאחור של חלק מהנתונים האלה לאחר מעשה.
חלקם הציעו להשתמש בהיפוך מודל כדי לחלץ קירובים קרובים של התמונות המשמשות לאימון מודלים של זיהוי פנים. זה מסתכן בזיהוי אנשים רגישים או פגיעים או במתן גישה לא מורשית למשאבים.
זה לא חייב להיות רק קלט מבוסס טקסט שמייצר תוצאות זדוניות. גם לתמונות ונתונים אחרים יכולים להיות השפעות שליליות על AI. לדוגמה, חוקרים אילצו מכוניות בנהיגה עצמית להתעלם מתמרורי עצור מוסיף להם מדבקות ולראות שלטי עצור שלא נמצאים שם ליד מקרין כמה מסגרות על שלט חוצות - לשניהם עלולות להיות תוצאות קטסטרופליות על הכביש.
הרעלה במעלה הזרם
לחלופין, תוקפים יכולים להתעסק בזרימות עבודה של בינה מלאכותית במעלה הזרם על ידי הרעלת הנתונים שמהם לומדות מערכות בינה מלאכותית. זה יכול לשנות את האופן שבו המודל מתנהג, ולזהם את התוצאות הסופיות. חלק מהתקפות אלו נעשות מסיבות כלכליות או פוליטיות. חוקרים פיתחו כלי אחד, לילית, כדי לעזור לאמנים לשנות בעדינות את התמונות הדיגיטליות שלהם על ידי הוספת פיקסלים בלתי נראים כמחאה נגד הכשרת LLMs על חומר המוגן בזכויות יוצרים. זה גורם לתוכניות ליצירת תמונות לייצר תוצאות בלתי צפויות.
הרעלת נתונים לא צריכה להיות נפוצה כדי להשפיע, וכאשר היא מיושמת על מערכי נתונים ספציפיים כמו אלה המשמשים במערכות רפואיות, התוצאות עלולות להיות קטסטרופליות. מחקר אחד מצא ששינוי של רק 0.001% מאסימוני האימון עם מידע שגוי רפואי הגדיל משמעותית את הסבירות לטעויות רפואיות.
ככל שה-AI ממשיך לחלחל בחיי היומיום, הפוטנציאל של פשרות מערכתיות להשפיע על החברה עולה. תוקף נבון יכול לעשות הכל, החל מיצירת דיסאינפורמציה ועד גרימת תאונות בכביש, השפעה על החלטות קריטיות לבטיחות בתחומים כמו רפואה, או מניעת AI מזיהוי עסקאות הונאה.
הגנה על דגמי AI
האפשרויות להתפשרות בינה מלאכותית נפוצות מספיק - וההשלכות שלהן רחבות מספיק - כך שגישה רב-גונית לממשל בינה מלאכותית היא חיונית. ISO 42001, תקן בינלאומי למערכות ניהול בינה מלאכותית, נוקט בגישה הוליסטית, כולל תחומים כמו ההקשר הארגוני של בינה מלאכותית ומעורבות מנהיגותית. זה כולל גם תכנון, תמיכה, תפעול והערכה ושיפור מתמשכים. הוא מכתיב פיתוח של מפרטים טכניים, כולל אבטחה ואיכות נתונים, יחד עם תיעוד של פרוטוקולי אבטחה להגנה מפני איומים כמו הרעלת נתונים והתקפות היפוך מודלים.
ממשלות עברו להטיל הגבלות בטיחות על AI. חוק ה-AI של האיחוד האירופי מחייב הערכת התאמה למערכות בסיכון גבוה, הכוללת התאמה לדרישות הבדיקה שעדיין בפיתוח. בארה"ב, למכון הלאומי לתקנים וטכנולוגיה (NIST) כבר היה מסגרת ניהול סיכונים בינה מלאכותית (RMF) לפני שממשל ביידן פרסם את הוראת ביצוע 14110 בנושא בטיחות בינה מלאכותית באוקטובר 2023 (בוטל כעת על ידי ממשלת טראמפ). זה הצריך משאב משלים לניהול סיכונים בינה מלאכותית, אשר NIST לאור יוני האחרון.
בניגוד ל-AI RMF של NIST, ISO 42001 ניתן לאשרה. בעוד ש-NIST מתמקדת רבות בבטיחות ובאבטחה של מערכות בינה מלאכותית, ISO 42001 בוחן את תפקידן בהקשר עסקי רחב יותר.
למה ממשל AI חשוב עכשיו
מסגרות כמו אלה הופכות יותר ויותר חיוניות ככל שספקי המודלים הבסיסיים של LLM מתחרים לספק תכונות חדשות שמדהימות את הצרכנים. בכך, הם מגדילים את משטח ההתקפה של דגמי הבינה המלאכותית, ומאפשרים לחוקרי אבטחה למצוא מעללים חדשים. לדוגמה, חברות כולל OpenAI ו-Google הכניסו יכולות זיכרון לטווח ארוך ל-LLMs שלהן, מה שמאפשר להן להכיר את המשתמשים בצורה אינטימית יותר ולספק תוצאות טובות יותר. זה אפשר לחוקר יוהן רהברגר להשתמש בהזרקה מהירה שיכולה צמח זיכרונות ארוכי טווח כוזבים ב-Google Gemini LLM.
כדאי גם לחקור את האבטחה של דגמי AI בהקשר של היגיינת סייבר בסיסית. בינואר 2025, חוקרים חשפו פרצת מידע בקרן היסוד של הנדסה סינית LLM DeepSeek, שכבשה את דמיונו של הציבור עם הביצועים הגבוהים שלה. הסיבה לפריצת הנתונים לא הייתה קשורה להנדסה מיידית, היפוך מודלים או כל יכולות AI קסומות; זה נבע מא מסד נתונים ענן שנחשף בפומבי המכיל היסטוריית צ'אט ופרטי משתמש. בעולם החדש והמרגש של בינה מלאכותית, כמה מהפגיעויות המזיקות ביותר הן מהבית הספר הישן והמדכא.










