ديب سيك الصينية: ثورة في عالم الذكاء الاصطناعي مفتوح المصدر

المقدسي

عضو جديد
إنضم
7 مارس 2024
المشاركات
175
التفاعل
486 6 0
الدولة
Palestine
ديب سيك (DeepSeek) هي شركة ذكاء اصطناعي صينية تأسست في عام 2023 كإحدى الشركات التابعة لصندوق التحوط الكمي "هاي فلاير"، المعروف بكونه من أبرز صناديق التحوط في الصين. منذ انطلاقها، ركزت ديب سيك على تطوير نماذج الذكاء الاصطناعي العام (AGI) والارتقاء بقدرات نماذج اللغة واسعة النطاق (LLM)، مع التزامها الكامل بجعل تقنياتها مفتوحة المصدر ومتاحة للجميع.

Chinese start-up DeepSeek launches AI model that outperforms Meta, OpenAI  products | South China Morning Post


مؤخراً، أطلقت الشركة نموذجها الثوري DeepSeek-V3، الذي اعتُبر نقلة نوعية في عالم الذكاء الاصطناعي، حيث يتميز هذا النموذج بأنه مفتوح المصدر بالكامل، ويحتوي على 671 مليار معلمة (Parameter) ويعتمد على بنية "خليط الخبراء" (MoE). هذه البنية المتقدمة تتيح تفعيل الشبكات العصبية ذات الصلة فقط عند معالجة المهام المختلفة، مما يساهم في تحسين الكفاءة وتقليل استهلاك الموارد. تم تدريب DeepSeek-V3 على بيانات ضخمة بلغت 14.8 تريليون رمز، وتمكنت الشركة من إتمام عملية التدريب في أقل من شهرين وهو ما يعتبر وقتاً قصيراً جداً، بتكلفة إجمالية منخفضة نسبياً وصلت إلى 5.576 مليون دولار.


من الناحية التقنية، أظهر DeepSeek-V3 أداءً متقدماً تجاوز به العديد من النماذج مفتوحة المصدر الشهيرة مثل Llama-3.1 وQwen 2.5، وحقق نتائج تضاهي نماذج مغلقة المصدر مثل GPT-4o وClaude 3.5 Sonnet. يأتي هذا الأداء بفضل الابتكارات التقنية التي طورتها ديب سيك، ومنها استراتيجية موازنة الحمل التي تعزز من كفاءة النموذج، وتقنية التنبؤ متعدد الوحدات (MTP) التي تتيح توليد نصوص أسرع وأكثر دقة، بالإضافة إلى اعتماد التدريب مختلط الدقة FP8 الذي ساعد في تقليل التكاليف بشكل كبير.


Image

DeepSeek-v3 يتفوق على Claude 3.5 sonnet الجديد وOpenAI o1-mini — وفقًا لـ LiveBench


لم تكتف ديب سيك بتطوير نموذجها الأساسي فقط، بل قدمت أيضاً نماذج متخصصة لتلبية احتياجات مختلفة. من بين هذه النماذج، DeepSeek-Coder الذي يركز على البرمجة وتوليد الأكواد، وDeepSeek-VL المصمم لتحليل النصوص والصور معاً. كما وفرت الشركة واجهات برمجة تطبيقات (API) بأسعار تنافسية، مما جعل تقنياتها في متناول الشركات الصغيرة والكبيرة على حد سواء.



Image

DeepSeek v3 مع 685b تفوقت على Claude Sonnet 3.5، وفقًا لقائمة المتصدرين Aider

من خلال هذا الإنجاز، تمكنت ديب سيك من تقليص الفجوة بين النماذج مفتوحة المصدر وتلك المغلقة، مما ساهم في تعزيز دور المصدر المفتوح في تطوير تقنيات الذكاء الاصطناعي، حيث تسعى الشركة إلى دفع عجلة التقدم نحو الذكاء الاصطناعي العام (AGI)، وهو الهدف الذي قد يُحدث تحولاً جذرياً في كيفية تعامل الذكاء الاصطناعي مع المهام الذهنية التي تتطلب قدرات شبيهة بالبشر.


 
ويحتوي على 671 مليار معلمة (Parameter)


المعلمة أو Parameter: هي قيمة أو وزن يُستخدم في الشبكات العصبية لتحديد كيفية تأثير المدخلات على المخرجات أثناء عملية التعلم.


ويعتمد على بنية "خليط الخبراء" (MoE)

بنية "خليط الخبراء" (MoE): هي طريقة في الشبكات العصبية حيث يتم تنشيط مجموعة من الشبكات العصبية المتخصصة فقط بناءً على المهمة المطلوبة.. و هذا يساعد في تقليل استهلاك الموارد وتحسين الكفاءة، حيث لا يتم تنشيط النموذج بالكامل في كل مرة، بل يتم استخدام الأجزاء الأكثر تخصصًا فقط.
 
يأتي هذا الأداء بفضل الابتكارات التقنية التي طورتها ديب سيك، ومنها استراتيجية موازنة الحمل التي تعزز من كفاءة النموذج، وتقنية التنبؤ متعدد الوحدات (MTP) التي تتيح توليد نصوص أسرع وأكثر دقة، بالإضافة إلى اعتماد التدريب مختلط الدقة FP8 الذي ساعد في تقليل التكاليف بشكل كبير.


استراتيجية موازنة الحمل: هذه التقنية تهدف إلى توزيع العمل بين الوحدات المختلفة في النموذج بطريقة متوازنة دون الحاجة لاستخدام خسائر مساعدة.. الهدف هو تحسين الأداء بشكل عام دون التأثير على دقة النتائج أو زيادة استهلاك الموارد.

التنبؤ متعدد الوحدات (MTP): هذه التقنية تسمح للنموذج بتوليد عدة وحدات لغوية في وقت واحد بدلاً من توليد وحدة واحدة في كل مرة.. هذه الطريقة تساعد على زيادة سرعة التنبؤ وتحسين الكفاءة في معالجة النصوص.

التدريب مختلط الدقة FP8: تعتمد هذه التقنية على استخدام دقة منخفضة (FP8) بدلاً من دقة أعلى مثل FP16 أو FP32.. هذا يقلل من استهلاك الذاكرة والتكلفة بشكل كبير أثناء التدريب، مما يسمح بتدريب النماذج الكبيرة بكفاءة أكبر.
 
سؤال لو شركه مثل قوقل
انتجت برنامج ذكاء اصطناعي
مستنده على الكميه المهوله من قاعدة البيانات
والمعلومات عندها

وش راح يكون وضع هذا البرنامج
 
ثروة وكنز المستقبل الحقيقي سوف يكون انظمة الذكاء الصناعي في المنطقة العربية المهتمين بقوة ومن يستثمر بهذا المجال هم الاشقاء في السعودية والامارات وبقية الدول العربية في سابع نومة
 
سؤال لو شركه مثل قوقل
انتجت برنامج ذكاء اصطناعي
مستنده على الكميه المهوله من قاعدة البيانات
والمعلومات عندها

وش راح يكون وضع هذا البرنامج
الي اعرفه chatgbt أصلا بكبره ورقه بحثية من قوقل ناس كانو يشتغلون في قوقل طلعو وفتحو chatgbt
 
سؤال لو شركه مثل قوقل
انتجت برنامج ذكاء اصطناعي
مستنده على الكميه المهوله من قاعدة البيانات
والمعلومات عندها

وش راح يكون وضع هذا البرنامج

اعتقد حينها لن يكون التأثير مقتصر على الشركات الأجنبية بل الأمريكية حتى مثل OpenAi، لكن هذا الموضوع معقد بسبب عدة تحديات مثل الخصوصية والمخاوف الأخلاقية.
 
سؤال لو شركه مثل قوقل
انتجت برنامج ذكاء اصطناعي
مستنده على الكميه المهوله من قاعدة البيانات
والمعلومات عندها

وش راح يكون وضع هذا البرنامج​

يوجد بالاصل منصة ذكاء صناعي تابعة لغوغل


 
بناءً على تجربتي الشخصية، هناك مزايا كثيرة في هذا النموذج وأهمها: يُمكنك رفع ملفات مختلفة، بحجم أقصى 100MB لكل ملف وهو حجم ضخم جداً يؤهلك من رفع كتب ضخمة ومجلدات ودراسات واوراق ابحاث ضخمة والعمل عليها، وهذه العملية غير محدودة، حيث يمكنك فعلها بشكل متكرر ومفتوح ومجاني على عكس Chatgbt الذي يقيدك بحدود يومية بالنسخة المجانية.

1735332378902.png


خاصية البحث عبر الذكاء الإصطناعي:

1735332754513.png




وأخيراً أكثر ما لفت إنتباهي هي خاصية التفكير العميق والمنطقي، والتي رأيناها بإصدار O1 المدفوع من OpenAi.. تقدمها اليوم DeepSeek الصينية بشكل مفتوح ومجاني للجميع:

حيث طرحت عليه سؤال رياضي ومنطقي بنفس الوقت والسؤال هو:
يبلغ عدد أخوة أحمد 6، وتبلغ الفترة الزمنية بين كل أخ 2 سنة، وتعد هدى الأصغر بينهم وتبلغ من العمر 7 سنوات، فكم يبلغ عمر أحمد؟

وطرحت السؤال على نموذج chatgpt 4o الأحدث من OpenAI، لكنه فشل بالإجابة على السؤال واعطاني اجابة خاطئة كما هو موضح بالصورة بالأسفل، والسبب لأنه نموذج لغوي تم تدريبه على بيانات ضخمة جداً، بحيث لم يعتمد على التفكير المنطقي والمتسلسل بإجابته بل اعطاني الإجابة بشكل سريع معتمداً على الرياضيات وهذا غير كافي للإجابة على اسئلة تتطلب التفكير المنطقي والعميق..


1735333345019.png



وعند طرحي لنفس السؤال على DeepSeek مع تفعيل خاصية الـ DeepThinking، بدأ النموذج بالتفكير المنطقي قبل اعطائي الإجابة وهو عكس ما تفعله النماذج اللغوية بالعادة حيث تقوم بالإجابة تلقائياً بناءآ على بنك المعلومات التي تم تدريبها عليها.. هُنا بدأ النموذج بالتفكير قبل الإجابة..


1735333113026.png




استغرقت عملية التفكير 18 ثانية فقط قبل اعطائي الإجابة الصحيحة وهي 19 سنة.

1735333501847.png


وهذا كله مفتوح ومجاني للجميع..
 

يوجد بالاصل منصة ذكاء صناعي تابعة لغوغل



كان يقصد في حالة قيام جوجل بأستخدام بنك المعلومات الضخم التي تمتلكه لتدريب نماذج جديدة، لأنه لا يوجد اي شركة بالعالم تمتلك بنك معلومات مشابه لما تمتلكه جوجل، ببساطة جوجل تمتلك تاريخ الإنترنت كله بين يديها.. ولا اعتقد انها استخدمت شيء يُذكر مما تمتلكه لتدريب Gemini.
 
عودة
أعلى