تقول شركة Apple إنها اتبعت نهجًا “مسؤولًا” في تدريب نماذج Apple Intelligence الخاصة بها
نشرت شركة Apple ورقة فنية توضح بالتفصيل النماذج التي طورتها لتشغيل Apple Intelligence، وهي مجموعة من ميزات الذكاء الاصطناعي التوليدية التي ستتجه إلى iOS وmacOS وiPadOS خلال الأشهر القليلة المقبلة.
في هذه الورقة، ترد شركة Apple على الاتهامات بأنها اتبعت نهجًا مشكوكًا فيه أخلاقياً في تدريب بعض نماذجها، مؤكدة أنها لم تستخدم بيانات المستخدم الخاصة واعتمدت على مجموعة من البيانات المتاحة للعامة والمرخصة لشركة Apple Intelligence.
“[The] تتكون مجموعة بيانات ما قبل التدريب من … البيانات التي قمنا بترخيصها من الناشرين، ومجموعات البيانات المتاحة للجمهور أو مفتوحة المصدر المنسقة والمعلومات المتاحة للجمهور التي تم الزحف إليها بواسطة زاحف الويب الخاص بنا، Applebot، “كتبت شركة Apple في الورقة البحثية. “نظرًا لتركيزنا على حماية خصوصية المستخدم، نلاحظ أنه لا يتم تضمين أي بيانات خاصة لمستخدمي Apple في خليط البيانات.”
في يوليو، ذكرت Proof News أن شركة Apple استخدمت مجموعة بيانات تسمى The Pile، والتي تحتوي على ترجمات لمئات الآلاف من مقاطع الفيديو على YouTube، لتدريب مجموعة من النماذج المصممة للمعالجة على الجهاز. لم يكن العديد من منشئي المحتوى على YouTube الذين ظهرت ترجماتهم في The Pile على علم بذلك ولم يوافقوا عليه؛ أصدرت شركة Apple لاحقًا بيانًا قالت فيه إنها لا تنوي استخدام هذه النماذج لتشغيل أي ميزات الذكاء الاصطناعي في منتجاتها.
تؤكد الورقة الفنية، التي تكشف الستار عن النماذج التي كشفت عنها Apple لأول مرة في WWDC 2024 في يونيو، والتي تسمى Apple Foundation Models (AFM)، على أن بيانات التدريب الخاصة بنماذج AFM تم الحصول عليها بطريقة “مسؤولة” – أو مسؤولة من قبل شركة Apple. تعريف على الأقل.
تتضمن بيانات التدريب الخاصة بنماذج AFM بيانات الويب المتاحة للجمهور بالإضافة إلى البيانات المرخصة من ناشرين لم يتم الكشف عنهم. وفقًا لصحيفة نيويورك تايمز، تواصلت شركة Apple مع العديد من الناشرين في نهاية عام 2023، بما في ذلك NBC وCondé Nast وIAC، بشأن صفقات متعددة السنوات تبلغ قيمتها 50 مليون دولار على الأقل لتدريب العارضات على أرشيفات أخبار الناشرين. تم تدريب نماذج AFM من Apple أيضًا على كود مفتوح المصدر مستضاف على GitHub، وتحديدًا Swift وPython وC وObjective-C وC++ وJavaScript وJava وGo code.
يعد تدريب النماذج على التعليمات البرمجية دون إذن، حتى التعليمات البرمجية المفتوحة، نقطة خلاف بين المطورين. يجادل بعض المطورين بأن بعض قواعد التعليمات البرمجية مفتوحة المصدر غير مرخصة أو لا تسمح بتدريب الذكاء الاصطناعي في شروط الاستخدام الخاصة بها. لكن شركة Apple تقول إنها قامت “بتصفية الترخيص” للكود لمحاولة تضمين المستودعات فقط ذات الحد الأدنى من قيود الاستخدام، مثل تلك الموجودة تحت ترخيص MIT أو ISC أو Apache.
لتعزيز مهارات الرياضيات لنماذج AFM، أدرجت شركة Apple على وجه التحديد في مجموعة التدريب أسئلة وإجابات الرياضيات من صفحات الويب ومنتديات الرياضيات والمدونات والبرامج التعليمية والندوات، وفقًا للورقة البحثية. كما قامت الشركة أيضًا باستغلال مجموعات البيانات “عالية الجودة والمتاحة للجمهور” (والتي لم تذكرها الصحيفة بالاسم) مع “التراخيص التي تسمح باستخدام نماذج التدريب”، والتي تمت تصفيتها لإزالة المعلومات الحساسة.
أخيرًا، يبلغ وزن مجموعة بيانات التدريب لنماذج AFM حوالي 6.3 تريليون رمز. (الرموز عبارة عن أجزاء صغيرة من البيانات يسهل بشكل عام على نماذج الذكاء الاصطناعي التوليدية استيعابها.) للمقارنة، هذا أقل من نصف عدد الرموز المميزة – 15 تريليون – المستخدمة في Meta لتدريب نموذجها الرئيسي لإنشاء النص، Llama 3.1 405B .
حصلت Apple على بيانات إضافية، بما في ذلك البيانات المستمدة من التعليقات البشرية والبيانات الاصطناعية، لضبط نماذج AFM ومحاولة التخفيف من أي سلوكيات غير مرغوب فيها، مثل إطلاق السمية.
“تم إنشاء نماذجنا بهدف مساعدة المستخدمين على القيام بالأنشطة اليومية عبر منتجات Apple الخاصة بهم
تقول الشركة: “في القيم الأساسية لشركة Apple، ومتأصلة في مبادئ الذكاء الاصطناعي المسؤولة لدينا في كل مرحلة”.
لا يوجد دليل دامغ أو رؤية صادمة في هذه الورقة البحثية، وذلك من خلال التصميم الدقيق. نادرًا ما تكون مثل هذه الأوراق البحثية كاشفة للغاية، وذلك بسبب الضغوط التنافسية وأيضًا بسبب الإفصاح أيضاً الكثير يمكن أن يضع الشركات في مشاكل قانونية.
تؤكد بعض نماذج تدريب الشركات عن طريق استخراج بيانات الويب العامة أن ممارساتها محمية بموجب مبدأ الاستخدام العادل. لكنها مسألة محل نقاش كبير وموضوع لعدد متزايد من الدعاوى القضائية.
تشير شركة Apple في الورقة إلى أنها تسمح لمشرفي المواقع بمنع الزاحف الخاص بها من نسخ بياناتهم. لكن هذا يترك المبدعين الأفراد في مأزق. ما الذي يجب على الفنان فعله، على سبيل المثال، إذا تمت استضافة محفظته الاستثمارية على موقع يرفض منع Apple من جمع البيانات؟
ستقرر معارك قاعات المحكمة مصير نماذج الذكاء الاصطناعي التوليدية وطريقة تدريبها. في الوقت الحالي، تحاول شركة أبل وضع نفسها كلاعب أخلاقي مع تجنب التدقيق القانوني غير المرغوب فيه.
اكتشاف المزيد من مجلة كوكان
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.