كيف يعمل البحث المرئي بالذكاء الاصطناعي: شرح التكنولوجيا بعبارات بسيطة

كيف يعمل البحث المرئي بالذكاء الاصطناعي: شرح التكنولوجيا بعبارات بسيطة

تخيل أنك توجه هاتفك نحو زوج من الأحذية وتكتشف على الفور مكان شرائه. أو تحميل صورة نبات ومعرفة اسمه في ثواني. تسمى تلك الخدعة السحرية البحث البصري بالذكاء الاصطناعي. إنه شعور مستقبلي. لكن الطريقة التي تعمل بها أسهل في الفهم مما قد تعتقد.

تلدر: يتيح البحث المرئي بتقنية الذكاء الاصطناعي لأجهزة الكمبيوتر فهم الأشياء والعثور عليها داخل الصور. وهو يعمل عن طريق تحويل الصور إلى بيانات، وتحديد الأنماط، ومقارنتها بملايين الصور الأخرى. يتم تدريب نماذج التعلم الآلي على التعرف على الأشكال والألوان والأشياء وحتى السياق. والنتيجة هي بحث سريع وذكي يعتمد على الصور ويشبه الإنسان.

دعونا نقسمها خطوة بخطوة. لا توجد درجة مطلوبة في مجال الروبوتات.


الخطوة 1: تحويل الصور إلى أرقام

أجهزة الكمبيوتر لا ترى مثلنا. إنهم لا يرون “ثوبًا أحمر”. يرون أرقام.

كل صورة مكونة من نقاط صغيرة تسمى بكسل. يحمل كل بكسل معلومات حول:

  • لون
  • سطوع
  • موضع

عندما تقوم بتحميل صورة، يقوم الذكاء الاصطناعي بتحويلها إلى شبكة عملاقة من الأرقام. فكر في الأمر مثل ترجمة صورة إلى لغة رياضية سرية.

كلما زادت جودة الصورة، زاد عدد البكسلات. كلما زاد عدد البكسلات، زادت البيانات.

لكن بيانات البكسل الأولية فوضوية. لذلك يحتاج الذكاء الاصطناعي إلى تبسيط الأمر.


الخطوة 2: البحث عن أنماط في الفوضى

هذا هو المكان التعلم الآلي يأتي.

تستخدم أنظمة البحث المرئي شيئًا يسمى أ الشبكة العصبية التلافيفية (سي إن إن). هذا يبدو مخيفا. ولكن هنا النسخة البسيطة:

CNN هو برنامج يقوم بمسح الصورة في أقسام صغيرة. إنه يبحث عن الأنماط. مرارا وتكرارا.

في البداية، يكتشف أشياء بسيطة:

  • الحواف
  • خطوط
  • منحنيات
  • يتغير اللون

ثم يجمعها في أفكار أكبر:

وأخيرًا، يتعرف على العناصر الكاملة مثل:

ويتعلم هذا من خلال التدريب على الملايين من الصور المسمى.

على سبيل المثال، إذا عرضت عليه 10 ملايين صورة تحت عنوان “قطة”، فإنه يبدأ في ملاحظة الشكل الذي تبدو عليه القطط عادةً. آذان مدببة. شعيرات. أشكال وجه معينة. مع مرور الوقت، يصبح أفضل وأفضل.

كيف يعمل البحث المرئي بالذكاء الاصطناعي: شرح التكنولوجيا بعبارات بسيطة


الخطوة 3: إنشاء “خريطة الميزات”

بمجرد أن يفهم الذكاء الاصطناعي ما هو موجود داخل الصورة، فإنه يقوم بإنشاء شيء يسمى ناقلات الميزة.

فكر في هذا كبصمة للصورة.

لا تقوم بصمة الإصبع هذه بتخزين الصورة الكاملة. وبدلاً من ذلك، فإنه يحتفظ بتفاصيل مهمة مثل:

  • أنواع الكائنات
  • أنماط الشكل
  • توزيع اللون
  • نمط الملمس

قد تبدو وكأنها قائمة طويلة من الأرقام. لكن هذه الأرقام تمثل المعنى.

على سبيل المثال:

  • قيمة عالية لـ “شكل دائري”
  • قيمة متوسطة لـ “لون أحمر ساطع”
  • قيمة منخفضة لـ “نسيج معدني”

وهذا يجعل البحث أسرع بكثير. وبدلاً من مقارنة الصور الكاملة، يقوم النظام بمقارنة بصمات الأصابع المدمجة هذه.


الخطوة 4: البحث عن التطابقات

الآن يأتي الجزء الممتع.

عندما تقوم بتحميل صورة، يقوم الذكاء الاصطناعي بمقارنة بصمة إصبعه بملايين (أو مليارات) بصمات الأصابع المخزنة.

ويحسب شيئا يسمى درجة التشابه.

كلما اقتربت بصمات الأصابع من التطابق، زادت النتيجة.

تتم هذه العملية في ثوان.

لهذا السبب يمكنك:

  • التقط صورة للسترة وابحث عن صور مماثلة عبر الإنترنت
  • التقط صورة للأثاث وابحث عن القطع المطابقة
  • قم بتحميل العمل الفني واكتشف فنانه

يقوم النظام بترتيب النتائج من الأكثر تشابهًا إلى الأقل تشابهًا.


كيف يفهم الذكاء الاصطناعي السياق

وهنا تصبح الأمور أكثر ذكاءً.

البحث المرئي الحديث لا يتعرف على الأشياء فقط. إنه يفهم سياق.

على سبيل المثال، تخيل صورة:

  • شخص يحمل فنجان قهوة
  • الجلوس على مكتب خشبي
  • مع جهاز كمبيوتر محمول مفتوح

يمكن للذكاء الاصطناعي التعرف على كائنات متعددة في وقت واحد. ويفهم العلاقات بينهما.

وهذا ممكن من خلال شيء يسمى كشف الكائن.

بدلاً من تحليل الصورة بأكملها ككتلة واحدة، يرسم الذكاء الاصطناعي مربعات غير مرئية حول كائنات مختلفة. ثم يسمي كل واحد.

وهذا يسمح بإجراء بحث أكثر تفصيلاً. يمكنك البحث عن:

  • “”كوب قهوة سيراميك أبيض””
  • ”إعداد مكتب خشبي بسيط“
  • “كمبيوتر محمول فضي رفيع”

يقوم الذكاء الاصطناعي بعزل كل كائن وإجراء مطابقات مستهدفة.


التدريب: كيف يصبح الذكاء الاصطناعي ذكيًا جدًا

أنظمة البحث المرئي التي تعمل بالذكاء الاصطناعي لا تولد ذكية. لقد تم تدريبهم.

يتضمن التدريب ثلاثة مكونات رئيسية:

  1. بيانات
  2. التسميات
  3. تعليق

أولاً، يقوم المطورون بتغذية الذكاء الاصطناعي بملايين الصور.

ثانيًا، يقوم البشر بتسمية تلك الصور بشكل صحيح.

على سبيل المثال:

  • هذا هو حذاء رياضة.
  • هذا هو المسترد الذهبي.
  • هذه هي العمارة الحديثة

ثالثًا، يقوم الذكاء الاصطناعي بعمل تنبؤات. إذا كان التخمين خاطئًا، يقوم النظام بتصحيحه. يضبط النموذج.

تسمى عملية التعديل هذه الانتشار العكسي. فكر في الأمر مثل ضبط الجيتار. كل تصحيح يجعل الصوت أفضل.

وبمرور الوقت، تتقلص معدلات الخطأ. تتحسن الدقة.


البحث المرئي مقابل التعرف على الصور

هذين المصطلحين مرتبطان. ولكن ليست متطابقة.

التعرف على الصور الإجابات:

“ماذا يوجد في هذه الصورة؟”

البحث البصري الإجابات:

“ابحث عني أكثر مثل هذا.”

التعرف يحدد الأشياء. البحث يقارن ويستعيد نتائج مماثلة.

يعتمد البحث المرئي على تقنية التعرف. ويضيف مقارنة واسعة النطاق ومطابقة قاعدة البيانات.


حيث يتم استخدام البحث المرئي اليوم

ربما كنت تستخدمه بالفعل.

فيما يلي بعض التطبيقات الشائعة:

1. التسوق

  • البحث عن الملابس من لقطة الشاشة
  • تطابق أنماط الأثاث
  • اكتشف منتجات مماثلة

2. الطبيعة والتعليم

  • التعرف على النباتات
  • التعرف على الحيوانات
  • تحليل القطع الأثرية التاريخية

3. الأمن

  • التعرف على الوجه
  • مسح لوحة الترخيص

4. الرعاية الصحية

  • تحليل الفحوصات الطبية
  • الكشف عن التشوهات في الأشعة السينية

5. وسائل التواصل الاجتماعي

  • وضع علامات تلقائية على الصور
  • العثور على محتوى مرئي مماثل


لماذا تشعر بهذه السرعة؟

تبدو مقارنة مليارات الصور بطيئة. ولكن الأمر ليس كذلك.

إليكم السبب:

  • يتم تحويل الصور إلى بصمات أصابع مدمجة.
  • تم تحسين قواعد البيانات للمقارنة السريعة.
  • تعمل الأجهزة الخاصة على تسريع العمليات الحسابية.
  • تنتشر الحوسبة السحابية عبر العديد من الخوادم.

هذا المزيج يجعل البحث فوريًا تقريبًا.


العنصر السري: التضمين

هناك مفهوم آخر مهم: التضمينات.

التضمين هو وسيلة لتمثيل الصور في مساحة متعددة الأبعاد.

تخيل خريطة ثلاثية الأبعاد عملاقة. باستثناء أنه بدلاً من الأبعاد الثلاثة، هناك المئات.

الصور المتشابهة تجلس بالقرب من بعضها البعض. الصور المختلفة جدًا متباعدة.

إذا قمت بتحميل صورة لحذاء رياضي أحمر، فسيقوم الذكاء الاصطناعي بالعثور على نقاط البيانات القريبة في هذه المساحة. تمثل تلك النقاط القريبة منتجات مماثلة.

هذه هي الطريقة التي يصبح بها التشابه قابلاً للقياس.


تحديات الذكاء الاصطناعي لا تزال تواجهها

البحث البصري بالذكاء الاصطناعي قوي. لكنها ليست مثالية.

تشمل بعض التحديات ما يلي:

  • اختلافات الإضاءة
  • صور ضبابية
  • زوايا غير عادية
  • الانسداد (الأشياء مخفية جزئيا)
  • التحيز في بيانات التدريب

إذا تم تدريب النظام في الغالب على أنماط أو مناطق معينة، فقد يواجه مشاكل مع أنماط أو مناطق أخرى.

وهذا هو سبب أهمية بيانات التدريب المتنوعة.


مستقبل البحث المرئي

أصبح البحث المرئي أكثر ذكاءً كل عام.

تجمع الأنظمة الأحدث بين:

  • فهم النص
  • الإدخال الصوتي
  • تحليل الصور

سيكون بإمكانك أن تقول:

“ابحث لي عن أريكة كهذه، ولكن باللون الأزرق وبسعر أقل من 500 دولار.”

سيجمع الذكاء الاصطناعي بين:

  • الصورة التي تم تحميلها
  • طلبك الصوتي
  • قوائم المنتجات
  • مرشحات التسعير

دفعة واحدة.

وهذا ما يسمى الذكاء الاصطناعي متعدد الوسائط. إنه يعمل عبر أنواع مختلفة من البيانات.


وضع كل ذلك معا

إذًا كيف يعمل البحث المرئي بالذكاء الاصطناعي حقًا؟

إليك التدفق البسيط:

  1. قمت بتحميل الصورة.
  2. يقوم الذكاء الاصطناعي بتحويلها إلى أرقام.
  3. تقوم الشبكة العصبية بالبحث عن الأنماط.
  4. يخلق بصمة مميزة.
  5. ويقارن النظام تلك البصمة بملايين البصمات الأخرى.
  6. تحصل على نتائج مرتبة في ثوان.

وراء الكواليس، إنها الرياضيات. بيانات. التعرف على الأنماط.

ولكن بالنسبة لنا، يبدو الأمر وكأنه سحر.

وهذا هو جمال التكنولوجيا الجيدة.

إنه يخفي التعقيد ويمنحنا البساطة.

في المرة القادمة التي تلتقط فيها صورة للبحث عن شيء ما، تذكر: جهازك لا ينظر إلى الصورة فقط. إنها قراءة لغة مكونة من أنماط وأشكال وروابط.

البحث البصري لمنظمة العفو الدولية لا يرى في الواقع.

لكنه يفهم أكثر كل يوم.

لا يوجد اعجابات