هل تم تدريب LLM على الويب المظلم؟ ربما يكون الباحثون قد فتحوا سلاحًا جديدًا ضد المتسللين
النماذج اللغوية الكبيرة شائعة هذه الأيام وتظهر نماذج جديدة كل يوم. يتم تدريب معظم هؤلاء العملاقين اللغويين ، بما في ذلك ChatGPT من OpenAI و Google’s Bard ، على البيانات النصية من جميع أنحاء الإنترنت – مواقع الويب والمقالات والكتب ، سمها ما شئت. هذا يعني أن نتاجهم عبارة عن حقيبة مختلطة من العبقرية.
ولكن ماذا لو تم تدريب LLM على الويب المظلم بدلاً من الويب؟ لقد فعل الباحثون ذلك بالضبط مع DarkBERT لبعض النتائج المدهشة. لنلقي نظرة.
ما هو داركبيرت؟
أصدر فريق من الباحثين الكوريين الجنوبيين ورقة توضح بالتفصيل كيف قاموا ببناء LLM على مجموعة ويب مظلمة واسعة النطاق تم جمعها عن طريق الزحف إلى شبكة Tor. تضمنت البيانات مجموعة من المواقع المشبوهة من فئات مختلفة بما في ذلك العملات المشفرة والمواد الإباحية والقرصنة والأسلحة وغيرها. ومع ذلك ، نظرًا للمخاوف الأخلاقية ، لم يستخدم الفريق البيانات كما هي. للتأكد من أن النموذج لم يتم تدريبه على البيانات الحساسة بحيث لا يتمكن الفاعلون السيئون من استخراج تلك المعلومات ، قام الباحثون بصقل مجموعة ما قبل التدريب من خلال التصفية ، قبل إطعامها إلى DarkBERT.
إذا كنت تتساءل عن الأساس المنطقي وراء اسم DarkBERT ، فإن LLM يعتمد على بنية RoBERTa ، وهو نموذج قائم على المحولات تم تطويره في عام 2019 من قبل باحثين في Facebook.
وصفت Meta RoBERTa بأنها “طريقة محسّنة بشكل قوي للتدريب المسبق لأنظمة معالجة اللغة الطبيعية (NLP)” والتي تعمل على تحسين نظام BERT ، الذي تم إصداره بواسطة Google في عام 2018. بعد أن جعلت Google LLM مفتوح المصدر ، تمكنت Meta من تحسين أدائها .
بالقطع إلى الوقت الحاضر ، قام الباحثون الكوريون بتحسين النموذج الأصلي بشكل أكبر من خلال تزويده ببيانات من الويب المظلم على مدار 15 يومًا ، ووصلوا في النهاية إلى DarkBERT. تسلط الورقة البحثية الضوء على أنه تم استخدام جهاز مزود بوحدة معالجة مركزية Intel Xeon Gold 6348 و 4 وحدات معالجة رسومات NVIDIA A100 بسعة 80 جيجابايت لهذا الغرض.
ما هو الغرض من داركبيرت؟
على الرغم من أن اسم DarkBERT يبدو مشؤومًا ، إلا أنه مخصص لتطبيقات الأمن وإنفاذ القانون وليس لأي مخططات شائنة.
نظرًا لأن النموذج تم تدريبه على الويب المظلم ، وهو موطن المواقع المشبوهة حيث توجد مجموعات بيانات ضخمة من كلمات المرور المسروقة غالبًا ، فإن DarkBERT أكثر فاعلية في تطبيقات الأمن السيبراني / CTI من نماذج اللغة الحالية. أظهر الباحثون وراء النموذج استخدامه لاكتشاف مواقع تسرب برامج الفدية.
غالبًا ما يقوم المتسللون ومجموعات برامج الفدية بتحميل بيانات حساسة مسربة مثل كلمات المرور والمعلومات المالية إلى الويب المظلم بغرض بيعها. تقترح الورقة البحثية أن DarkBERT يمكن أن تكون مفيدة للباحثين الأمنيين للتعرف تلقائيًا على مثل هذه المواقع. يمكن أيضًا استخدامه للزحف عبر عدد كبير من منتديات الويب المظلمة ومراقبتها بحثًا عن أي تبادل للمعلومات غير القانونية.
ولكن في حين أن DarkBERT مناسبة بشكل أفضل لـ “المهام الخاصة بمجال الويب المظلم” من النماذج الأخرى ، يقر الباحثون أنه نظرًا لنقص البيانات الخاصة بمهمة Dark Web المتاحة للجمهور ، فقد تتطلب بعض المهام بعض الضبط الدقيق.
هل DarkBERT متاح لعامة الناس؟
اعتبارًا من الآن ، لا يتوفر DarkBERT للجمهور. يقول الباحثون إن خطط إطلاق النسخة المعالجة مسبقًا من DarkBERT – النسخة التي لم يتم تدريبها على البيانات الحساسة – موجودة على البطاقات. لكنهم لم يحددوا متى.
بغض النظر ، يمثل DarkBERT المستقبل حيث يتم تصميم نماذج الذكاء الاصطناعي لمهام محددة من خلال التدريب على بيانات محددة للغاية. على عكس ChatGPT و Google Bard ، اللذان يشبهان السكاكين السويسرية متعددة الأغراض ، فإن DarkBERT هو سلاح متخصص لإحباط المتسللين.
اكتشاف المزيد من موقع 5 كيلو
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.