أفادت التقارير أن شركات Apple وAnthropic وغيرها من شركات الذكاء الاصطناعي قامت بتدريب نماذج الذكاء الاصطناعي على الآلاف من مقاطع الفيديو على YouTube
[ad_1]
يقال إن شركات آبل وأنثروبك وغيرها من شركات الذكاء الاصطناعي الكبرى قامت بتدريب نماذج الذكاء الاصطناعي على بيانات من مئات الآلاف من مقاطع الفيديو على موقع يوتيوب. يزعم تقرير جديد أن العديد من شركات الذكاء الاصطناعي استخدمت مجموعة بيانات متاحة للجمهور تسمى Pile والتي تحتوي على نص عادي لترجمات مقاطع الفيديو دون أي صور فيديو. تم جمع البيانات من منشئي المحتوى المشهورين على YouTube مثل MrBeast وMarques Brownlee وPewDiePie بالإضافة إلى منشئي المحتوى الهنود على YouTube مثل CarryMinati وBB ki Vines وAshish Chanchlani.
تم الإبلاغ عن تدريب العديد من نماذج الذكاء الاصطناعي على مقاطع فيديو YouTube
أجرت Proof News تحقيقًا لتجد أن بيانات الترجمة لما يصل إلى 1,73,536 مقطع فيديو على YouTube تم أخذها من أكثر من 48,000 قناة. وفقًا للتقرير، قام EleutherAI، وهو مختبر أبحاث غير ربحي للذكاء الاصطناعي، برعاية مجموعة البيانات هذه. لاحقًا، تم استخدامه من قبل شركات مثل Apple وAnthropic وNvidia وSalesforce والمزيد. والجدير بالذكر أن مختبر الذكاء الاصطناعي نشر ورقة بحثية تسلط الضوء على تفاصيل مجموعة البيانات.
أنشأت EleutherAI مستودع بيانات بسعة 800 جيجابايت أطلق عليه اسم Pile وجعلته متاحًا للعامة لأولئك الذين أرادوا تدريب نماذج الذكاء الاصطناعي ولكنهم لا يستطيعون تحمل تكاليف مجموعات البيانات الكبيرة. تم أخذ غالبية مجموعة البيانات من مصادر متاحة للجمهور مثل ويكيبيديا الإنجليزية والكتب الإلكترونية والمزيد. ومع ذلك، فقد احتوى أيضًا على ترجمات من جميع مقاطع الفيديو المجمعة في مجموعة بيانات تسمى YouTube Subtitles.
وزعم التقرير أنه تم استخدام الكومة لتدريب نموذج Apple OpenELM AI، على أساس وصف الورقة البحثية. وبحسب ما ورد تشير الأوراق البحثية لنماذج Salesforce وNvidia وAnthropic’s AI إلى استخدام مجموعة البيانات.
وقالت المتحدثة باسم الأنثروبي جينيفر مارتينيز للنشر في بيان: “يتضمن The Pile مجموعة فرعية صغيرة جدًا من ترجمات YouTube. تغطي شروط YouTube الاستخدام المباشر لمنصته، والذي يختلف عن استخدام مجموعة بيانات Pile. فيما يتعلق بالانتهاكات المحتملة لشروط خدمة YouTube، يتعين علينا إحالتك إلى مؤلفي Pile.
والجدير بالذكر أن شروط خدمة YouTube تحظر على أي شخص الوصول إلى مقاطع الفيديو الموجودة على النظام الأساسي باستخدام وسائل آلية مثل الروبوتات أو شبكات الروبوت أو أدوات الكشط. ستندرج ترجمات YouTube ضمن فئة الكشط. أخبر متحدث باسم Google Proof News في رد عبر البريد الإلكتروني أن عملاق التكنولوجيا قد اتخذ “إجراءات على مر السنين لمنع الاستخلاص المسيء وغير المصرح به”. ومع ذلك، لم يتم تقديم أي تعليقات حول استخدام شركات الذكاء الاصطناعي للبيانات.
في منشور على موقع X (المعروف سابقًا باسم Twitter)، انتقد ماركيز براونلي شركة Apple للحصول على البيانات من الشركات التي تضمنت نصوص مقاطع الفيديو الخاصة به، لكنه أبرز أيضًا أن ذلك لم يكن خطأ صانع iPhone نظرًا لأنهم لم يجمعوا البيانات.
حصلت شركة Apple على بيانات الذكاء الاصطناعي الخاصة بها من العديد من الشركات
قام أحدهم بجمع الكثير من البيانات/النصوص من مقاطع فيديو YouTube، بما في ذلك مقاطع الفيديو الخاصة بي
تتجنب شركة Apple من الناحية الفنية “الخطأ” هنا لأنها ليست من يقوم بالتخلص
لكن هذه ستكون مشكلة متطورة لفترة طويلة https://t.co/U93riaeSlY
– ماركيز براونلي (@MKBHD) 16 يوليو 2024
بينما تم جمع مجموعة البيانات هذه وتوزيعها علنًا، فمن الممكن أن تكون هناك حالات أخرى لجمع البيانات على منصات مثل YouTube. ومع سعي شركات الذكاء الاصطناعي جاهدة للعثور على المزيد من البيانات لتدريب نماذجها اللغوية الكبيرة (LLMs)، قد يستمر شراء البيانات في دخول مناطق رمادية مماثلة من الناحية القانونية.
[ad_2]