מהי תבנית סיכום הדרכת תוכן?
הנציבות האירופית פרסמה לאחרונה הודעת הסבר ותבנית כדי לסייע לספקי מודלים של בינה מלאכותית למטרות כלליות (GPAI) לסכם את התוכן המשמש לאימון המודלים שלהם. התבנית תומכת בספקי GPAI לעמוד בהתחייבויותיהם לפי סעיף 53 של חוק AI של האיחוד האירופי, והופך סיכום של התוכן המשמש לאימון כל מודלי GPAI לזמין לציבור.
באופן מכריע, זהו גם צעד נוסף לקראת בניית אמון בבינה מלאכותית על ידי הגברת השקיפות, בהתאם למטרות הרגולציה.
בעוד שסיכום המידע אודות מודל GPAI המסופק באמצעות התבנית זמין לציבור, הנציבות התחשבה בצורך להגן על סודות מסחריים ומידע עסקי סודי. לפיכך, הודעת ההסבר מבהירה כי הסיכום צריך להיות "מקיף באופן כללי בהיקפו במקום מפורט מבחינה טכנית כדי להקל על צדדים בעלי אינטרסים לגיטימיים, כולל בעלי זכויות יוצרים, לממש ולאכוף את זכויותיהם במסגרת חוק האיחוד".
סעיף ראשון: מידע כללי
החלק הראשון של התבנית כולל מידע כללי על ספק ומודל ה-GPAI, כולל פרטי קשר של הספק, שם מודל GPAI בגירסה, תלויות במודל ותאריך בו המודל הוכנס לשוק האיחוד. על הספקים לפרט את השיטות הקיימות בנתוני האימון ככל שניתן לזהות אותן, כולל:
- טקסט
- תמונה
- אודיו
- וִידֵאוֹ
- אחר
ספקים חייבים לפרט את גודל נתוני האימון על ידי בחירת טווחים בתוך גודל הנתונים הכולל המשוער עבור כל שיטת למידה. עליהם גם לתאר את סוגי התוכן עבור כל שיטת למידה שנבחרה, לדוגמה:
- טקסט בדיוני
- טקסט עיון
- טקסט מדעי
- צילום
- יצירות אמנות חזותיות
- אינפוגרפיקה
- תמונות ברשתות חברתיות
- יצירות מוזיקליות
- אודיו
- תקשורת שמע פרטית
- סרטוני מוסיקה
- סרטים
- תוכניות טלוויזיה
- משחקי וידאו
- סרטונים ברשתות החברתיות.
לבסוף, ספקים חייבים לשתף את התאריך האחרון של רכישת או איסוף נתונים לצורך אימון מודלים וכל מידע נוסף אודות איסוף נתוני האימון.
חלק שני: מקורות נתונים
החלק השני, והגדול ביותר, של התבנית דורש מספקים לפרט מקורות נתונים ספציפיים המשמשים לאימון מודל GPAI. ארגונים צריכים לציין את המודל או המודים של התוכן המכוסה על ידי מערכי הנתונים הרלוונטיים בכל חלק, ולאחר מכן לענות על שאלות ספציפיות עבור כל סוג של מקור נתונים.
סעיף זה מסווג את המונח "מערך נתונים" כאוסף נתונים יחיד וארוז מראש; נתונים שסוננו ועובדו מראש מאותו אוסף ארוז מראש לא צריכים להיחשב כמערך נתונים חדש שיש לחשוף בנפרד. אם מערך נתונים נופל ליותר מקטגוריה אחת, על הספקים לבחור את הקטגוריה הרלוונטית ביותר.
ספקי GPAI חייבים לספק פרטים על מערכי הנתונים המשמשים לאימון המודל:
- מערכי נתונים זמינים לציבור
- מערכי נתונים שנאספו על ידי צד שלישי זמינים לציבור בחינם וניתנים להורדה בקלות בשלמותם או בחלקים מוגדרים מראש.
- מערכי נתונים פרטיים שאינם זמינים לציבור שהתקבלו מצדדים שלישיים
- מערכי נתונים ברישיון מסחרי על ידי בעלי הזכויות או נציגיהם.
- מערכי נתונים פרטיים שהתקבלו מצדדים שלישיים אחרים.
- נתונים שנסרקו וגרדו ממקורות מקוונים
- נתונים שנסרקו, שנגרדו או נתונים שנאספו בדרך אחרת ממקורות מקוונים, למעט מערכי נתונים זמינים לציבור שכבר מכוסים.
- זמן משתמש
- נתוני משתמשים שנאספו על ידי כל השירותים והמוצרים של הספק, לא כולל נתונים ברישיון של משתמשים על סמך הסכמי עסקאות מסחריים או נתוני לקוחות, לצורך כוונון עדין של מודלים למטרות ספציפיות.
- נתונים סינתטיים שנוצרו על ידי בינה מלאכותית
- נתונים שנוצרו לצורך אימון המודל על פלטים של מודל אחר, כגון משוב בינה מלאכותית באמצעות למידת חיזוקים, לא כולל שימוש במודלים של בינה מלאכותית לניקוי או העשרת נתונים.
- מקורות נתונים אחרים
- נתונים שאינם נופלים תחת אף אחת מהקטגוריות הקודמות, לדוגמה נתונים שנאספו ממקורות לא מקוונים, מדיה שעברה דיגיטציה עצמית, מערכי נתונים שתויגו על ידי בני אדם שהוזמנו על ידי הספק.
סעיף שלישי: היבטי עיבוד נתונים
החלק השלישי של התבנית מתמקד באמצעים שהספק יישם כדי לזהות ולעמוד בכל הסתייגות זכויות במסגרת החריג או ההגבלה של כריית טקסט ונתונים (TDM) המפורטים בסעיף 4 להנחיית זכויות יוצרים בשוק הדיגיטלי היחיד. אמצעים אלה צריכים להיות תואמים גם למדיניות זכויות היוצרים של הספק, כנדרש בסעיף 53 לחוק הבינה המלאכותית של האיחוד האירופי.
זה כולל תיאור של אמצעים שהספק יישם לפני אימון המודל כדי לכבד את שמירות הזכויות מחריג או הגבלת TDM:
- אמצעים שבוצעו לפני ובמהלך איסוף הנתונים
- פרוטוקולים ופתרונות של ביטול הסכמה שמכובדים על ידי הספק
- פרוטוקולים ופתרונות של ביטול הצטרפות (opt-out) שכובד על ידי צדדים שלישיים שמהם הושגו מערכי נתונים.
ספקי GPAI חייבים לספק תיאור כללי של האמצעים שנקטו כדי להימנע או להסיר תוכן בלתי חוקי על פי חוקי האיחוד מנתוני ההדרכה. עם זאת, הם אינם נדרשים לחשוף פרטים ספציפיים על נוהלי העסקים הפנימיים שלהם או סודות מסחריים.
לבסוף, התבנית מספקת מדור אופציונלי שבו ספקים יכולים לשתף כל מידע רלוונטי אחר בנוגע לאמצעי עיבוד נתונים שננקטו לפני או אחרי אימון המודל.
השלבים הבא
עבור ספקי GPAI, חיוני לבחון את התיעוד והתהליכים הקיימים של מודל GPAI. כהכנה לשימוש בתבנית, על ארגונים להבטיח נראות פנימית ברורה של מקורות מערכי הנתונים, אופני מערכי הנתונים, גדלים וסוגי תוכן, ואמצעי עיבוד נתונים קיימים.
יישום שיטות עבודה מומלצות, כגון אלו המתוארות בניהול בינה מלאכותית תקן ISO 42001 בניית מערכת ניהול בינה מלאכותית אתית (AIMS), יכולה גם לסייע בהגברת השקיפות, בהפחתת סיכוני בינה מלאכותית, בהבטחת תיעוד ברור ובניית אמון בארגון ובמודלים של בינה מלאכותית.










