![]() |
معركة جديدة حول بيانات المستخدمين
في خطوة أثارت الكثير من الجدل في أوساط التكنولوجيا أعلنت منصة Reddit عن رفع دعوى قضائية ضد شركة الذكاء الاصطناعي الناشئة Anthropic تدور القضية حول اتهامات بأن Anthropic استخدمت محتوى Reddit – الذي يتضمن منشورات وتعليقات المستخدمين – لتدريب نماذج الذكاء الاصطناعي الخاصة بها دون إذن أو تعويض مالي
لكن ما الذي يجعل هذه القضية بالغة الأهمية؟ ولماذا قد تكون نقطة تحول في مستقبل العلاقة بين شركات الذكاء الاصطناعي ومصادر المحتوى على الإنترنت؟
خلفية القضية: من أين بدأت القصة؟
Reddit ليست مجرد موقع تواصل اجتماعي عادي بل تُعد أرشيفاً ضخما للنقاشات البشرية في جميع المجالات من التكنولوجيا وحتى الطبخ مرورًا بالسياسة وحتى الشكاوى الشخصية على مدار السنوات أصبحت المنصة وجهة للمطورين والباحثين الذين يبحثون عن بيانات بشرية حقيقية لتدريب نماذج الذكاء الاصطناعي
هنا تظهر Anthropic وهي شركة ناشئة أسسها باحثون سابقون من OpenAI تُعرف بنموذج الذكاء الاصطناعي الخاص بها Claude وفقاً لادعاءات Reddit قامت الشركة بجمع المحتوى من منصتها بكثافة – عبر وسائل تُشبه الزحف الآلي scraping – لاستخدامه في تدريب Claude دون أي اتفاق رسمي أو حتى إخطار مسبق
لماذا الغضب من Reddit؟
قد يتساءل البعض أليس محتوى Reddit عامًا؟ نظريًا نعم ولكن قانونيًا الأمر أكثر تعقيدًا Reddit تفرض شروط استخدام واضحة منها حظر الاستخدام التجاري للمحتوى دون ترخيص والأسوأ بحسب الدعوى أن Anthropic واصلت جمع البيانات حتى بعد أن أبلغت Reddit بأنها ستتوقف
وبنبرة حازمة قالت Reddit في بيان رسمي
نحن نحترم الابتكار لكن لا يمكننا تجاهل استغلال محتوى مجتمعنا بهذه الطريقة دون إذن أو مقابل
تأثير القضية: هل ينهار نموذج الويب المفتوح؟
هذه القضية ليست مجرد نزاع قانوني بين شركتين بل هي تمثل صراعاً أكبر حول من يملك البيانات العامة على الإنترنت هل يجوز لشركات الذكاء الاصطناعي أن تستخدم المحتوى المتاح للجميع دون تعويض؟ أم أن هذا يُعد سرقة فكرية؟
في السنوات الأخيرة اعتمدت نماذج الذكاء الاصطناعي مثل ChatGPT وClaude وGemini على كميات هائلة من البيانات المستقاة من الإنترنت والآن بدأت الشركات المالكة لتلك البيانات – مثل Reddit وStack Overflow وحتى New York Times – بالمطالبة بمقابل
هل Reddit وحدها في هذا الموقف؟
على العكس تمامًا في الأشهر القليلة الماضية شهدنا دعاوى قضائية من مواقع إعلامية مثل نيويورك تايمز ضد OpenAI وMicrosoft وكذلك من شركات برمجيات ضد جهات تستخدم شفرتهم لتدريب نماذج AI كما أن Stack Overflow أيضًا أعلنت أنها ستمنع استخدام محتواها لأغراض التدريب إلا إذا تم الترخيص رسميًا
حتى Google بدأت تدفع مقابل الحصول على بيانات Reddit لتدريب نماذجها في صفقة قيل إن قيمتها وصلت إلى 60 مليون دولار سنويًا وهذا ما يجعل Reddit أكثر حدة في موقفها لماذا تدفع لنا Google بينما تظن Anthropic أنها فوق هذا القانون؟
ردّ Anthropic: الدفاع عن المعرفة المفتوحة
من جانبها لم تصدر Anthropic بيانًا مطولًا لكنها نفت جميع الاتهامات وأكدت التزامها بالشفافية وحقوق المستخدمين وقال مصدر داخلي – طلب عدم الكشف عن اسمه – إن الشركة تؤمن بأن المعرفة العامة يجب أن تكون متاحة لتطوير الذكاء الاصطناعي من أجل الخير العام
لكن هذا الدفاع وإن كان يبدو نبيلاً لا يصمد كثيراً أمام التحديات القانونية المتصاعدة حول الملكية الفكرية على الإنترنت
خلاصة: هل تتغير قواعد اللعبة؟
هذه القضية قد تكون بداية لموجة جديدة من التنظيمات عصر الإنترنت المفتوح بدأ يتصدع خاصة مع صعود الذكاء الاصطناعي وربما سنشهد تحولاً كبيرًا من نماذج تدريب تعتمد على بيانات الإنترنت المجانية إلى اتفاقات مرخصة ومدفوعة وربما حتى قوانين جديدة لحماية المحتوى الرقمي
في النهاية سواء ربحت Reddit هذه القضية أم لا فإن الرسالة وصلت لم يعد بالإمكان تجاهل حقوق منصات المحتوى ولا يمكن بناء الذكاء الاصطناعي على أكتاف الآخرين دون إذن
الاسالة شائعة
ما سبب رفع Reddit دعوى قضائية ضد Anthropic؟
اتهمت Reddit شركة Anthropic باستخدام محتوى المستخدمين المنشور على منصتها لتدريب نماذج الذكاء الاصطناعي دون إذن أو تعويض مالي، وهو ما اعتبرته انتهاكًا لشروط الاستخدام الخاصة بها.
هل محتوى Reddit يُعتبر عامًا ويمكن استخدامه بحرية؟
رغم أن محتوى Reddit متاح علنًا، إلا أن شروط الاستخدام الخاصة به تمنع الاستخدام التجاري لهذا المحتوى دون ترخيص أو اتفاق مسبق.
ما موقف الشركات الأخرى من استخدام بياناتها في تدريب الذكاء الاصطناعي؟
شركات مثل New York Times وStack Overflow اتخذت مواقف مماثلة، ورفعت دعاوى قضائية أو وضعت قيودًا على استخدام محتواها لأغراض تدريب نماذج الذكاء الاصطناعي دون إذن أو تعويض.
هل تدفع شركات مثل Google مقابل استخدام بيانات Reddit؟
نعم، ورد أن Google عقدت صفقة مع Reddit بقيمة تصل إلى 60 مليون دولار سنويًا للحصول على حق استخدام بيانات Reddit في تدريب نماذجها الذكية.
هل ستؤثر هذه القضايا على مستقبل الذكاء الاصطناعي؟
نعم، من المتوقع أن تؤدي هذه النزاعات إلى تغييرات كبيرة في طريقة جمع البيانات وتدريب النماذج، بما في ذلك فرض تراخيص مدفوعة وتطوير قوانين جديدة لحماية المحتوى الرقمي.