لا تصبح النماذج اللغوية واسعة النطاق مفيدة لمجرد أنها تحتوي على المزيد من المعلمات؛ تصبح مفيدة لأنها تتعلم من نص واسع ومتنوع ومعالج بعناية. الزحف المشترك تشتهر لأنها تقدم لمحة هائلة من شبكة الإنترنت العامة، ولكنها ليست سوى قطعة واحدة من أحجية بيانات التدريب. من أجل التطوير الجاد للبرمجة اللغوية العصبية وماجستير القانون، غالبًا ما تجمع الفرق بين عمليات الزحف على الويب والمجموعات المنسقة والمعرفة الموسوعية والنص الأكاديمي والتعليمات البرمجية والكتب ومجموعات البيانات متعددة اللغات لتحسين التغطية والتفكير والواقعية وأداء المجال.
تلدر: إذا كان Common Crawl هو المحيط الخام لنصوص الويب، فإن أفضل مجموعات بيانات LLM هي الأنهار والبحيرات والخزانات التي تضيف البنية والجودة والتنوع. وتشمل البدائل والمكملات القوية ج4, الكومة, بيجامة حمراء, أوسكار, بيانات ويكيبيديا ويكيميديا، و دولما. يتمتع كل مصدر بنقاط قوة مختلفة: بعضها أفضل للتغطية متعددة اللغات، وبعضها للغات الأكاديمية والتقنية، والبعض الآخر للتدريب المفتوح القابل للتكرار. إن النهج الأذكى لا يتمثل في اختيار مجموعة بيانات واحدة، بل في بناء مزيج بيانات شفاف ومفلتر ومراجع قانونيًا.
لماذا تعتبر مصادر البيانات مهمة بقدر أهمية هندسة النماذج؟
في تطوير LLM، تحدد بيانات التدريب الكثير مما يمكن للنموذج أن يفهمه ويولده ويفكر فيه. قد يتحول النموذج الذي يتم تدريبه في الغالب على صفحات الويب غير الرسمية إلى محادثة، ولكنه قد يواجه صعوبة في الكتابة العلمية، أو الفروق القانونية الدقيقة، أو التعليمات البرمجية، أو اللغات منخفضة الموارد. قد يكون النموذج الذي تم تدريبه على مواد فنية عالية التنسيق دقيقًا في المناطق الضيقة ولكنه أقل قابلية للتكيف في الحوار المفتوح.
وهذا هو سبب بناء فرق الذكاء الاصطناعي الحديثة مخاليط البيانات. فهم يأخذون عينات من مجموعات مختلفة، ويزيلون التكرارات، ويصفون البريد العشوائي، ويحددون اللغات، وينقحون المعلومات الشخصية حيثما أمكن ذلك، وغالبًا ما يعيدون وزن المصادر ذات الجودة الأعلى. والنتيجة ليست مجرد “المزيد من النصوص”، بل بيئة تعليمية أكثر توازناً.

1.C4: نسخة نظيفة من الويب
ج4، اختصار ل جسم زاحف نظيف هائل، هي واحدة من مجموعات البيانات المشتقة من الزحف المشترك الأكثر شهرة. تم تقديمه بواسطة Google كجزء من العمل البحثي T5 وهو في الأساس نسخة منقحة ومفلترة من نص الويب باللغة الإنجليزية من Common Crawl.
أهميتها تأتي من فكرة بسيطة: بيانات الويب الأولية فوضوية. يحتوي على نص تنقل نمطي، ومقالات مكررة، ورسائل غير مرغوب فيها، ومحتوى للبالغين، وترميز معطل، وصفحات نائبة، وغير هامة يتم إنشاؤها آليًا. يطبق C4 قواعد التصفية لإزالة بعض هذا التشويش، مما يجعله أكثر ملاءمة لنماذج اللغة التي يتم تدريبها مسبقًا.
لماذا هو مفيد:
- أنظف من الزحف الشائع الخام: يقوم بإزالة العديد من الصفحات ذات الجودة المنخفضة والأجزاء المتكررة.
- ثبت في البحوث الرئيسية: وقد تم استخدامه في العمل المؤثر حول نماذج تحويل النص إلى نص.
- جيد للغة الإنجليزية العامة: يوفر تغطية واسعة للغة نمط الويب.
ومع ذلك، C4 ليست مثالية. لاحظ الباحثون أن التصفية العدوانية يمكن أن تزيل اللهجات وأنماط لغات الأقليات والمحتوى من المجتمعات الممثلة تمثيلا ناقصا. لتطوير LLM، من الأفضل التعامل مع C4 على أنه خط أساس قوي، وليس تمثيلاً كاملاً للغة البشرية.
2. الكومة: مجموعة بيانات متنوعة للغة العامة والتقنية
الكومة، التي أنشأتها EleutherAI، عبارة عن مجموعة بيانات مفتوحة بسعة 800 جيجابايت مصممة لتدريب نماذج اللغات الكبيرة. على عكس مجموعة البيانات التي تعتمد في الغالب على صفحات الويب التي يتم الزحف إليها، يجمع The Pile العديد من المصادر المتميزة، بما في ذلك الأوراق الأكاديمية والكتب والتعليمات البرمجية والعناوين الفرعية والمنتديات والمستندات القانونية ونصوص الويب.
هذا التنوع يجعلها مثيرة للاهتمام بشكل خاص. يمكن للنموذج الذي تم تدريبه على The Pile أن يواجه كل شيء بدءًا من الملخصات العلمية الرسمية وحتى المناقشات غير الرسمية عبر الإنترنت. يمكن أن يساعد هذا النطاق في تحسين التعميم، خاصة عندما يكون الهدف هو بناء نموذج يؤدي أداءً جيدًا عبر العديد من المهام.
تشمل المكونات البارزة ما يلي:
- آركايف: مفيد للغة الرياضية والعلمية والتقنية.
- بوبمد سنترال: قيمة للبرمجة اللغوية العصبية (NLP) الطبية الحيوية والموجهة نحو البحث.
- جيثب: مفيدة لفهم التعليمات البرمجية وتوليدها.
- OpenWebText2: يتم تنظيم محتوى الويب بطريقة مستوحاة من الصفحات المرتبطة عالية التفاعل.
- القانون الحر: نص قانوني يمكنه دعم فهم لغة المجال القانوني.
يحظى The Pile بشعبية خاصة في أبحاث LLM المفتوحة لأنه يشجع على التكاثر. يمكن للفرق دراسة كيفية تأثير فئات البيانات المختلفة على سلوك النموذج، بدلاً من الاعتماد على أوصاف غامضة لمزيج التدريب الخاص.
3. RedPajama: إعادة إنشاء خليط تدريب LLM مفتوح
بيجامة حمراء هو مشروع بيانات مفتوحة تم إنشاؤه لإعادة إنتاج مجموعات بيانات مماثلة لتلك المستخدمة في ماجستير إدارة الأعمال البارزين. ويتضمن بيانات من Common Crawl وC4 وGitHub وWikipedia والكتب وarXiv وStack Exchange. أصبح المشروع مهمًا لأنه ساعد مطوري المصادر المفتوحة على تدريب النماذج باستخدام مزيج من البيانات التي كانت أكثر شفافية وأسهل في الفحص.
الميزة الرئيسية لـ RedPajama ليست فقط حجمها، ولكن أيضًا حجمها هيكل يشبه الوصفة. فبدلاً من تقديم البيانات ككتلة عملاقة غير متمايزة، فإنها تفصل المصادر حسب الفئة. وهذا يساعد الباحثين على التحكم في نسبة الكود والكتابة الأكاديمية والنص الموسوعي ونص الويب المستخدم أثناء التدريب.

لماذا يحب المطورون RedPajama:
- الشفافية: يتم توثيق فئات المصدر بشكل أكثر وضوحًا مما هو الحال في العديد من مجموعات البيانات المغلقة.
- إمكانية تكرار نتائج: وهو يدعم التجارب المفتوحة والتدريب على النماذج المماثلة.
- تغطية واسعة: فهو يجمع بين لغة الويب العامة والمصادر المتخصصة.
بالنسبة لتطوير البرمجة اللغوية العصبية على نطاق واسع، يكون RedPajama مفيدًا عندما يكون الهدف هو بناء أو تقييم نظام بيئي نموذجي مفتوح. إنها أيضًا نقطة انطلاق جيدة لفهم كيفية تجميع مخاليط التدريب الحديثة عمليًا.
4. OSCAR: بيانات الويب متعددة اللغات على نطاق واسع
أوسكار، أو افتح coRpus المجمعة الزاحفة الكبيرة جدًا، هي مجموعة بيانات متعددة اللغات مشتقة من Common Crawl. قوتها الرئيسية هي التغطية اللغوية. في حين أن العديد من مجموعات بيانات LLM المبكرة ركزت بشكل كبير على اللغة الإنجليزية، فإن OSCAR توفر نصًا عبر العديد من اللغات، مما يجعلها ذات قيمة في البرمجة اللغوية العصبية متعددة اللغات وتطوير النماذج متعددة اللغات.
بالنسبة للمطورين الذين يعملون في مجال الترجمة، أو روبوتات الدردشة متعددة اللغات، أو البحث العالمي، أو فهم اللغة للأسواق غير الإنجليزية، يمكن أن يكون OSCAR موردًا قويًا. فهو يساعد على تقليل التحيز المتمركز حول اللغة الإنجليزية الذي يظهر في العديد من النماذج التي تم تدريبها بشكل أساسي على بيانات الويب باللغة الإنجليزية.
تشمل التطبيقات المفيدة ما يلي:
- التدريب المسبق متعدد اللغات: بناء نماذج تفهم وتولد النص بالعديد من اللغات.
- أبحاث تحديد اللغة: دراسة كيفية التمييز بين النماذج بين اللغات والنصوص.
- التجريب منخفض الموارد: العثور على بيانات للغات الممثلة تمثيلا ناقصا في المجموعات الرئيسية.
التحدي الرئيسي الذي يواجه OSCAR هو اختلاف الجودة. تحتوي بعض اللغات على نصوص نظيفة وفيرة، بينما قد تحتوي لغات أخرى على استخلاص أكثر ضجيجًا، أو مشكلات في التشفير، أو محتوى مصنف بشكل خاطئ. يجب أن يتضمن أي مسار تدريبي جدي تصفية خاصة باللغة، وإلغاء البيانات المكررة، والتقييم من قبل متحدثين أصليين أو أدوات آلية موثوقة.
5. بيانات ويكيبيديا وويكيميديا: منظمة، وواقعية، ومتعددة اللغات
ويكيبيديا أصغر بكثير من Common Crawl، لكنها واحدة من أكثر المجموعات قيمة في البرمجة اللغوية العصبية. يتم تحرير مقالاتها وتنظيمها وربطها وتصنيفها ومتوفرة بالعديد من اللغات. بالنسبة لماجستير القانون، تعد ويكيبيديا مفيدة لتعلم الأسلوب الموسوعي، والملخصات الواقعية، وعلاقات الكيانات، والمفاهيم متعددة اللغات.
أبعد من مقالات ويكيبيديا، على نطاق أوسع ويكيميديا يتضمن النظام البيئي ويكي بيانات، وويكي الكتب، وويكي مصدر، وويكي الأخبار، وغيرها من الموارد. ويكي بيانات مهم بشكل خاص لأنه يخزن الحقائق المنظمة في شكل يمكن قراءته آليًا. في حين أن النص الخام يعلم أنماط اللغة، فإن المعرفة المنظمة يمكن أن تدعم ربط الكيانات، وزيادة الاسترجاع، وبناء الرسم البياني المعرفي، والتقييم الواقعي.
نقاط قوة مصادر ويكيميديا:
- نسبة إشارة إلى ضوضاء عالية: يكون المحتوى عمومًا أكثر تماسكًا من صفحات الويب العشوائية.
- محاذاة متعددة اللغات: توجد العديد من المواضيع عبر اللغات، مما يدعم التعلم بين اللغات.
- البيانات الوصفية الغنية: تحتوي الصفحات على روابط وفئات ومراجع وتاريخ المراجعة.
- مفيد للتقييم: يمكن أن تساعد بيانات ويكيميديا في إنشاء معايير حقيقية لضمان الجودة والتعرف على الكيانات.
ومع ذلك، فإن ويكيبيديا لها حدود. إنه يعكس السياسات التحريرية والتركيبة السكانية للمساهمين وشعبية الموضوع. قد يتم تغطية الثقافة الشعبية والتكنولوجيا بشكل كبير، في حين أن المعرفة المحلية والتقاليد الشفهية والمجتمعات المهمشة قد تكون ممثلة تمثيلا ناقصا. أفضل استخدام لويكيبيديا هو أن تكون مكونًا عالي الجودة، وليس كمصدر وحيد للحقيقة.
6. دولما: مجموعة حديثة مفتوحة للتدريب المسبق على نموذج اللغة
دولما، الذي أصدره معهد Allen للذكاء الاصطناعي، هو مجموعة كبيرة مفتوحة تم تطويرها لتدريب نماذج اللغة مثل OLMo. يتضمن صفحات الويب والأوراق الأكاديمية والأكواد والكتب والبيانات الموسوعية وفئات النصوص الأخرى. ما يجعل Dolma بارزًا هو تركيزها على الانفتاح والتوثيق وسهولة استخدام الأبحاث.
يتم تدريب العديد من حاملي الماجستير في القانون الأقوياء على مجموعات البيانات التي تم وصفها على نطاق واسع فقط. ربما يعرف المطورون أن النموذج استخدم “بيانات الويب والكتب والتعليمات البرمجية”، ولكن ليس النسب الدقيقة أو المرشحات أو قوائم المصادر. تهدف دولما إلى جعل هذه التفاصيل أكثر وضوحًا، مما يساعد الباحثين على فهم العلاقة بين بيانات التدريب والسلوك النموذجي.
لماذا دولما مهمة:
- العلم المفتوح: وهو يدعم إمكانية تكرار نتائج وتحليل أعمق لبيانات التدريب.
- الخلطة المجهزة: فهو يجمع بين أنواع مختلفة من النص بدلاً من الاعتماد على مصدر واحد.
- ترابط النموذج: لقد تم تصميمه جنبًا إلى جنب مع تطوير النموذج المفتوح، مما يجعله عمليًا لسير عمل التدريب الحقيقي.

تعتبر Dolma ذات صلة بشكل خاص بالفرق التي تهتم بتوثيق عملية تطوير النماذج الخاصة بها. في عصر التدقيق المتزايد حول أنظمة الذكاء الاصطناعي، يمكن أن تكون معرفة ما تم إدخاله في النموذج لا تقل أهمية عن النتيجة المعيارية للنموذج.
كيفية اختيار مصدر بيانات التدريب المناسب
لا توجد مجموعة بيانات “أفضل” عالمية. يحتاج برنامج الدردشة الآلي لدعم العملاء، ونموذج الإجابة على الأسئلة الطبية الحيوية، ومحرك البحث متعدد اللغات، ومساعد الكود، إلى استراتيجيات بيانات مختلفة. يعتمد الاختيار الصحيح على التغطية اللغوية ومتطلبات الترخيص واحتياجات المجال وميزانية الحوسبة وتحمل المخاطر.
عند مقارنة المصادر، خذ بعين الاعتبار ما يلي:
- التراخيص والأذونات: تأكد من إمكانية استخدام البيانات للغرض المقصود.
- جودة البيانات: التحقق من عدم وجود رسائل غير مرغوب فيها، والازدواجية، والتنسيق، والصفحات ذات القيمة المنخفضة.
- تغطية المجال: قم بتضمين بيانات متخصصة إذا كان النموذج يجب أن يتعامل مع الطب أو القانون أو المالية أو العلوم أو الكود.
- التوازن اللغوي: تجنب إنشاء نموذج يقدم أداءً جيدًا باللغة الإنجليزية فقط عن طريق الخطأ.
- التحيز والتمثيل: قم بتقييم الأصوات والمناطق والمجتمعات المفقودة أو الممثلة بشكل زائد.
- الخصوصية والأمان: استخدم المرشحات والمراجعات لتقليل البيانات الشخصية والمحتوى السام والمواد الضارة.
الجودة أكثر أهمية من المقياس الخام
غالبًا ما احتفل تطوير LLM المبكر بحجم مجموعة البيانات: مليارات الرموز، ثم مئات المليارات، ثم تريليونات. لا يزال الحجم مهمًا، لكن المجال تعلم ذلك الجودة، وإلغاء البيانات المكررة، وتصميم الخليط يمكن أن يؤثر بشكل كبير على أداء النموذج. يمكن أن يؤدي التدريب المتكرر على الصفحات المكررة إلى إهدار الحساب والتسبب في الحفظ. إن التدريب على الرسائل غير المرغوب فيها التي لم تتم تصفيتها يمكن أن يجعل النماذج أقل موثوقية. يمكن أن يؤدي تجاهل التوازن متعدد اللغات والمجال إلى إنشاء نقاط عمياء.
يشتمل خط البيانات القوي عادةً على عدة مراحل: التجميع، والاستخراج، والتطبيع، واكتشاف اللغة، وتصفية المستندات، وإلغاء البيانات المكررة، وتصفية السمية، ومعالجة معلومات التعريف الشخصية، وأخذ العينات، والتحقق من صحة الخليط النهائي. تغير كل خطوة شخصية وقدرة النموذج الناتج.
الأفكار النهائية
تظل Common Crawl واحدة من أهم الموارد في تدريب الذكاء الاصطناعي لأنها توفر تغطية لا مثيل لها على نطاق الويب. لكن تطوير LLM الحديث نادرًا ما يعتمد على بيانات الزحف الأولية وحدها. مجموعات البيانات مثل ج4, الكومة, بيجامة حمراء, أوسكار, بيانات ويكيبيديا ويكيميديا، و دولما أظهر مدى تنوع مشهد بيانات التدريب.
يتم إنشاء أفضل أنظمة الذكاء الاصطناعي من مجموعات بيانات مختارة بعناية تعكس غرض النموذج. بالنسبة للذكاء العام، التنوع مهم. من أجل الموثوقية الواقعية، فإن التنظيم مهم. لتحقيق فائدة عالمية، تعتبر التغطية متعددة اللغات مهمة. ومن أجل الثقة، التوثيق مهم. في النهاية، بيانات التدريب ليست مجرد وقود لماجستير في القانون؛ إنها البيئة التي يتعلم فيها النموذج كيف تبدو اللغة والمعرفة والتواصل البشري.