إصلاح: فشل في تهيئة NVML “خطأ غير معروف”

إصلاح: فشل في تهيئة NVML “خطأ غير معروف”

مواجهة رسالة الخطأ “فشل في تهيئة NVML: خطأ غير معروف” يمكن أن يكون الأمر محبطًا بشكل خاص، خاصة عندما تعتمد على وحدة معالجة الرسومات الخاصة بك للقيام بمهام مثل التعلم الآلي أو العرض أو استخراج العملات المشفرة. يظهر هذا الخطأ عادةً عند محاولة التفاعل مع وحدات معالجة الرسومات NVIDIA، غالبًا من خلال أدوات مثل نفيديا-smi، ويمكن أن يؤدي إلى توقف الكثير من العمليات العادية. على الرغم من أن السبب لا يكون دائمًا واضحًا على الفور، إلا أن هناك خطوات موثقة جيدًا لاستكشاف هذه المشكلة وإصلاحها.

ليرة تركية؛ د

تشير رسالة “فشل تهيئة NVML: خطأ غير معروف” عادةً إلى وجود مشكلة في برامج تشغيل NVIDIA أو وحدات kernel أو الجهاز نفسه. ابدأ بإعادة تشغيل جهازك والتحقق من تثبيت برنامج تشغيل GPU. إذا استمرت المشكلة، فحاول إعادة تثبيت برامج تشغيل NVIDIA والتحقق من محاذاة DKMS ورؤوس kernel مع إصدار kernel الخاص بنظامك. يمكن للمستخدمين المتقدمين أيضًا التحقق من سجلات dmesg والنظام بحثًا عن أخطاء الأجهزة.

ما هو NVML ولماذا هو مهم

مكتبة إدارة NVIDIA (NVML) عبارة عن واجهة برمجة تطبيقات قائمة على لغة C لمراقبة وإدارة الحالات المختلفة داخل وحدات معالجة الرسومات NVIDIA. مرافق النظام الأساسية مثل نفيديا-smi الاعتماد على NVML لجمع وعرض المعلومات حول استخدام وحدة معالجة الرسومات، وتخصيص الذاكرة، ودرجة الحرارة. عندما تفشل عملية تهيئة NVML، قد تصبح هذه الأدوات غير قابلة للاستخدام، مما يحد من قدرتك على إدارة وحدة معالجة الرسومات الخاصة بك بشكل صحيح أو حتى اكتشافها.

الأسباب الجذرية الشائعة

يعد فهم السبب الذي قد يسبب هذه المشكلة أمرًا بالغ الأهمية لاستكشاف الأخطاء وإصلاحها بشكل فعال. وفيما يلي الجناة الأكثر شيوعا:

  • تثبيت برنامج التشغيل غير صحيح أو غير متوافق
  • فشل وحدة النواة
  • رؤوس Kernel المفقودة أو مشكلات DKMS
  • ملفات السائق التالفة
  • أخطاء على مستوى الأجهزة أو وحدة معالجة الرسومات غير المعترف بها

تتطلب كل مشكلة من هذه المشكلات أسلوبًا مختلفًا، ولكن إذا تم تشخيصها بشكل صحيح، فيمكن حلها جميعًا دون الحاجة إلى تبديل الأجهزة المتقدمة.

دليل التثبيت خطوة بخطوة

الخطوة 1: إعادة تشغيل النظام

قد يبدو الأمر واضحًا، لكن إعادة تشغيل النظام يمكنها غالبًا حل مشكلات NVML، خاصة إذا كانت قد بدأت مؤخرًا. أثناء عملية التمهيد، يجب تحميل وحدات kernel الصحيحة تلقائيًا.

sudo reboot

الخطوة 2: التحقق من تثبيت برنامج التشغيل باستخدام nvidia-smi

بمجرد إعادة تشغيل النظام، قم بتشغيل:

nvidia-smi

إذا استمر حدوث الخطأ، فقد حان الوقت للتعمق أكثر.

الخطوة 3: التحقق من وحدات Kernel

تحقق من تحميل وحدة NVIDIA kernel:

lsmod | grep nvidia

إذا لم تشاهد أي نتائج، فهذا يعني أن برنامج تشغيل NVIDIA لم يتم تحميله بنجاح. يمكنك محاولة إعادة تحميله:

sudo modprobe nvidia

إذا فشل هذا، فمن المحتمل أن ترى رسالة خطأ وصفية أكثر يمكنها توجيهك نحو الخطوة التالية.

الخطوة 4: تحقق من dmesg بحثًا عن أخطاء الأجهزة

استخدم com.dmesg الأمر للبحث عن أي مشاكل فورية في اكتشاف GPU:

dmesg | grep -i nvidia

ابحث عن رسائل مثل “NVRM: لم يتم اكتشاف وحدة معالجة الرسومات”، مما قد يشير إلى وجود مشكلة في الأجهزة أو PCIe.

إصلاح: فشل في تهيئة NVML “خطأ غير معروف”

الخطوة 5: التحقق من رؤوس Kernel وDKMS

قد تفشل عمليات إنشاء برنامج التشغيل إذا كانت رؤوس kernel الخاصة بك لا تتطابق مع kernel قيد التشغيل:

uname -r

ثم قارن مع:

dpkg -l | grep linux-headers

إذا لم تتم محاذاتهم، فقم بتثبيت الرؤوس المناسبة:

sudo apt install linux-headers-$(uname -r)

تأكد من تثبيت DKMS وتشغيله:

sudo apt install dkms

ثم حاول إعادة بناء وحدة NVIDIA kernel:

sudo dkms autoinstall

الخطوة 6: إعادة تثبيت برامج تشغيل NVIDIA

غالبًا ما تتسبب برامج التشغيل الفاسدة أو المثبتة جزئيًا في فشل NVML. أعد تثبيت أحدث برامج تشغيل NVIDIA الرسمية. على أوبونتو، يمكنك القيام بما يلي:


sudo apt purge nvidia-*
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
sudo apt install nvidia-driver-XXX

يستبدل XXX برقم الإصدار الذي يدعم طراز GPU الخاص بك. بعد التثبيت:

sudo reboot

ثم اختبر مع:

nvidia-smi

الخطوة 7: تعطيل Nouveau (التداخل المؤقت)

يمكن أن يتعارض برنامج التشغيل Nouveau مفتوح المصدر مع برامج تشغيل NVIDIA الخاصة. تحقق مما إذا كان قد تم تحميله:

lsmod | grep nouveau

إذا كان موجودًا، قم بتعطيله عن طريق إنشاء قائمة سوداء:


sudo nano /etc/modprobe.d/blacklist-nouveau.conf

أضف الأسطر التالية:


blacklist nouveau
options nouveau modeset=0

ثم قم بتحديث initramfs للنواة:

sudo update-initramfs -u

أعد التشغيل وتحقق مرة أخرى.

الخطوة 8: التحقق على مستوى الأجهزة

إذا فشل كل شيء آخر، فقد تواجه مشكلات على مستوى الأجهزة. جرب ما يلي:

  • قم بإزالة وحدة معالجة الرسومات وإعادة تركيبها
  • تحقق من عدم وجود غبار أو حطام في فتحة PCIe
  • اختبار GPU في جهاز آخر
  • تأكد من أن مصدر الطاقة لديك كافٍ

اعتبارات خاصة بـ Docker والبيئات الافتراضية

إذا كنت تواجه هذا الخطأ داخل بيئة حاوية مثل Docker، فتأكد من ذلك مجموعة أدوات حاوية NVIDIA و نفيديا دوكر2 تم تثبيتها بشكل صحيح. أيضا، استخدم -GPUS الكل أثناء إطلاق الحاوية:


docker run --gpus all nvidia/cuda:12.1-base nvidia-smi

فشل داخل الحاوية أثناء تشغيل المضيف نفيديا-smi غالبًا ما يشير الأمر غرامة إلى وقت تشغيل تم تكوينه بشكل خاطئ.

التدابير الوقائية

تجنب مشكلات تهيئة NVML المستقبلية من خلال الإرشادات التالية:

  • قم دائمًا بمطابقة إصدارات برنامج التشغيل مع طراز kernel وGPU الخاص بك
  • قم بتعطيل التمهيد الآمن في حالة استخدام وحدات kernel غير الموقعة
  • تجنب الخلط بين برامج التشغيل (على سبيل المثال، المصدر المفتوح + الملكية)
  • تحديث مكتبات وحزم النظام بانتظام

الأفكار النهائية

عادةً ما يتم حل مشكلة “فشل تهيئة NVML: خطأ غير معروف” من خلال التشخيص المنهجي والإجراءات التصحيحية. على الرغم من أن سبب ذلك غالبًا هو عدم تطابق برامج التشغيل أو وحدات kernel المفقودة، إلا أنه قد يشير في بعض الأحيان إلى شيء أكثر خطورة على مستوى الأجهزة. من خلال الخطوات الموضحة أعلاه، يجب أن تكون مجهزًا إما لحل المشكلة بالكامل أو على الأقل عزل المشكلة الأساسية لإجراء تحقيق أعمق.

تعد وحدة معالجة الرسومات الخاصة بك جزءًا مهمًا من نظامك. تعامل مع الأمر وفقًا لذلك من خلال تحديث برامج التشغيل لديك وضمان توافق النظام بعد كل تحديث رئيسي.

لا يوجد اعجابات