احذر من السرقة.. منصات الذكاء الاصطناعي تسرب بياناتكم بهذه الطريقة

20/06/2023

أوضح عدد من العلماء في جامعات أميركية وسويسرية بالتنسيق مع شركة "غوغل" وشركتها الفرعية DeepMind، كيف يمكن أن تتسرب البيانات من منصات تصميم الصور التي تعتمد في عملها إلى نماذج الذكاء الاصطناعي التوليدي مثل: DALL-E أو Imagen أو Stable Diffusion.

تقوم كافة هذه المنصات بعملها بالطريقة نفسها التي تستند على ما يكتبه المستخدم بطريقة نصية معينة، على سبيل المثال: "كرسي بذراعين على شكل ثمرة أفوكادو"، ويحصل على صورة مصممة من النص في ثوانٍ.

ويشار إلى أن نماذج الذكاء الاصطناعي التوليدي المستخدمة في هذه المنصات، صممت على العديد من الصور التي تعتمد وصفًا محددًا موقت سابقًا، وتشكل الفكرة الأساسية للشبكات العصبية في قدرتها على تصميم صور جديدة وفريدة عقب معالجة كمية كبيرة للغاية من بيانات التدريب.

سرقة البيانات

وعلى الرغم من ذلك، كشفت دراسة حديثة، إلا أن هذه الصور ليست فريدة تمامًا، وفي الكثير من الحالات، يمكن أن تقوم الشبكة العصبية بتصميم الصورة من صورة سابقة أخرى مطابقة تمامًا لصورة سابقة في التدريب، وهذا يعني أن الشبكات العصبية قد تتسبب في كشف البيانات الخاصة بك دون قصد.

تتحدى هذه "الدراسة" فكرة أن نماذج الذكاء الاصطناعي المستخدمة لإنشاء الصور لا تحتفظ ببيانات التدريب الخاصة بها وأن بيانات التدريب يمكن أن تظل، لاسيما إذا لم يتم الكشف عنها.

تقديم المزيد من البيانات

وربما تكون نتائج أنظمة التعلم العميق مذهلة للغاية لغير المتخصصين، ويمكن أن يظنوا أنها مدهشة وتتم بطريقة سحرية، ولكن في الحقيقة، ليس هناك أي سحر في الأمر.

إذ تعتمد كافة "الشبكات العصبية" في عملها على نفس المبدأ، وهو التدريب على كمية كبيرة من البيانات ووصف دقيق لكل صورة، مثلًا: مجموعة من صور القطط والكلاب.

طريقة سرقة البيانات

وبحسب ما ذكره "الباحثون"، توفر هذه الميزة إمكانية تصميم نفس الصور ذات جودة جيدة، لكن العيب المحتمل – بالمقارنة مع الخوارزميات في الشبكات التنافسية التوليدية، على سبيل المثال – هو ميلها الأكبر لتسريب البيانات، حيث يمكن استخراج البيانات الأصلية منها بـ 3 طرق متنوعة على الأقل، وهي:

- ادخال كلمات استعلامية معينة لإجبار الشبكة العصبية على إخراج صورة مصدر محدد، وليس شيئًا فريدًا تم إنشاؤه اعتمادًا على آلاف الصور.

- يمكن اعادة تصميم وإنشاء الصورة الأصلية حتى لو وجود جزء منها فقط.

- يمكن تحديد إذا كانت صورة معينة مُضمنة في بيانات التدريب أم لا، بطريقة بسيطة.

وفي أغلب الأحيان، تكون الشبكات العصبية كسولة، وبدلاً من تصميم صورة جديدة فريدة، فإنها تختار صورة من مجموعة التدريب إذا كان يتضمن على عدة نسخ مكررة من الصورة نفسها.

إذا تكررت صورة في سلسلة التدريب أكثر من مائة مرة، فمن المحتمل جدًا أن تتسرب في شكلها القريب من الشكل الأصلي.

خطوات لتعزيز الخصوصية

وبالرغم من ذلك، قدم "الباحثون"، العديد من الطرق تساهم في استرداد صور التدريب التي ظهرت مرة واحدة فقط في المجموعة الأصلية، فمن بين 500 صورة اختبرها الباحثون، أعادت الخوارزمية بشكل عشوائي تصميم 3 منها.

لذا، أوصى "الباحثون"، بعدد من الخطوات لتعزيز خصوصية مجموعة التدريب الأصلية:

1- الابتعاد عن التكرار في مجموعات التدريب.

2- إعادة معالجة صور التدريب، على سبيل المثال: من خلال إضافة تشويش أو تغيير السطوع؛ ويجعل هذا تسريب البيانات أقل احتمالًا.

3- اختبار الخوارزمية باستخدام صور تدريبية خاصة، ثم التحقق من أنها لا تعيد إنتاجها بدقة دون قصد.

العربية

رابط مختصر

تم نسخ الرابط بنجاح.

احذر من السرقة.. منصات الذكاء الاصطناعي تسرب بياناتكم بهذه الطريقة

سرقة البيانات

تقديم المزيد من البيانات

طريقة سرقة البيانات

خطوات لتعزيز الخصوصية

الأكثر قراءة

ارتفاع جديد على سعر الدولار مقابل الشيكل.. وهذه العملة تقفز

التعليم العالي تعلن عن منح دراسية في دولة أوروبية لهذه التخصصات لعام 2025/2026.. وإليك رابط التقديم

فرنسا تُعلّق إجلاء فلسطينيي غزة وتُراجع ملفات من تم اجلائهم لهذا السبب

مصر تفتح الباب لمفاجأة أممية في غزة.. ما القصة؟