هوش مصنوعی (AI) به سرعت در حال تبدیل شدن به بخشی جداییناپذیر از زندگی ماست؛ از دستیارهای صوتی و خودروهای خودران گرفته تا تشخیص پزشکی و سیستمهای امنیتی. اما با افزایش قدرت و نفوذ این تکنولوژی، یک نگرانی بزرگ نیز مطرح میشود: امنیت. حمله به مدلهای هوش مصنوعی که به آن حمله تخاصمی (Adversarial Attack) نیز گفته میشود، یکی از جدیترین تهدیدها در این حوزه است. در این مقاله به طور کامل بررسی میکنیم که این حملات چه هستند، چگونه کار میکنند و چطور میتوان با آنها مقابله کرد.
هوش مصنوعی، بهویژه شاخه یادگیری ماشین (Machine Learning)، بر اساس یادگیری از دادهها کار میکند. یک مدل AI با تحلیل هزاران یا میلیونها نمونه داده، الگوها را یاد میگیرد و سپس از این الگوها برای تصمیمگیری در مورد دادههای جدید استفاده میکند. برای مثال، یک مدل تشخیص تصویر، با دیدن هزاران عکس از گربهها یاد میگیرد که گربه چیست.
آسیبپذیری دقیقاً از همین نقطه شروع میشود. مدلهای هوش مصنوعی دنیا را مانند انسانها “درک” نمیکنند. آنها تنها به دنبال الگوهای ریاضی در دادهها هستند. یک مهاجم میتواند با ایجاد تغییرات بسیار کوچک و جزئی که اغلب برای چشم انسان نامرئی است، این الگوها را مختل کرده و مدل را به اشتباه بیندازد. اینجاست که حمله هوش مصنوعی شکل میگیرد.
حمله تخاصمی به هوش مصنوعی به زبان ساده، تکنیکی برای فریب دادن یک مدل هوش مصنوعی با ارائه ورودیهای دستکاری شده است. هدف مهاجم این است که مدل را وادار به گرفتن یک تصمیم اشتباه کند.
یک مثال کلاسیک و معروف در این زمینه، تصویر یک پاندا است. محققان توانستند با اضافه کردن مقدار بسیار کمی “نویز” دیجیتالی که برای چشم انسان قابل تشخیص نیست، یک مدل پیشرفته تشخیص تصویر را فریب دهند. نتیجه این بود که مدل با اطمینان ۹۹٪ تصویر پاندا را به عنوان یک “گیبون” (نوعی میمون) شناسایی کرد! این نشان میدهد که هوش مصنوعی حمله پذیر است و میتوان آن را با روشهای هوشمندانه فریب داد.
حملات هوش مصنوعی را میتوان بر اساس اطلاعاتی که مهاجم از مدل دارد و همچنین هدف حمله، دستهبندی کرد.
در این نوع حمله، مهاجم دسترسی کاملی به ساختار داخلی مدل، معماری، پارامترها و دادههای آموزشی آن دارد. این اطلاعات به او اجازه میدهد تا یک حمله هوش مصنوعی بسیار دقیق و مؤثر را طراحی کند. اگرچه این سناریو در دنیای واقعی کمتر رخ میدهد، اما برای تست و ارزیابی امنیت مدلها بسیار مهم است.
این نوع حمله بسیار رایجتر و واقعیتر است. در اینجا، مهاجم هیچ اطلاعاتی درباره ساختار داخلی مدل ندارد. او فقط میتواند ورودیهایی را به مدل بدهد و خروجی آن را مشاهده کند. مهاجم با آزمون و خطا و تحلیل پاسخهای مدل، سعی میکند نقاط ضعف آن را پیدا کرده و از آنها برای حمله به مدل هوش مصنوعی استفاده کند.
این رایجترین نوع حمله است. هدف در اینجا ایجاد یک ورودی دستکاری شده برای فرار از تشخیص مدل در زمان اجراست. مثالهایی مانند تغییر در ایمیلهای اسپم برای عبور از فیلترها یا دستکاری علائم راهنمایی و رانندگی برای فریب خودروهای خودران، در این دسته قرار میگیرند.
این یک حمله هوش مصنوعی بسیار خطرناکتر است. در اینجا مهاجم دادههای آموزشی مدل را دستکاری میکند. او دادههای مخرب و مسموم را به مجموعه دادههای آموزشی تزریق میکند تا یک “در پشتی” یا نقطه ضعف در مدل ایجاد کند. بعدها، مهاجم میتواند با استفاده از ورودیهای خاصی، این نقطه ضعف را فعال کرده و سیستم را مجبور به انجام کارهای مورد نظر خود کند.
خوشبختانه، جامعه تحقیقاتی هوش مصنوعی به طور فعال در حال کار بر روی روشهای دفاعی برای مقابله با این حملات است.
یکی از مؤثرترین روشهای دفاعی، آموزش دادن مدل با نمونههای تخاصمی است. در این روش، نمونههای دستکاری شده (مانند تصویر پاندای تغییر یافته) به همراه برچسب صحیح آنها (پاندا) به مدل داده میشود. این کار به مدل کمک میکند تا در برابر این نوع دستکاریها مقاومتر شود و الگوهای قویتری را یاد بگیرد.
در این تکنیک، یک مدل بزرگتر و پیچیدهتر برای “آموزش” یک مدل کوچکتر و سادهتر استفاده میشود. این فرآیند باعث میشود که سطح تصمیمگیری مدل نهایی صافتر شده و پیدا کردن نقاط ضعف برای مهاجم دشوارتر گردد.
یک راه دیگر، اعمال تغییرات و تبدیلهایی روی داده ورودی قبل از ارسال آن به مدل است. برای مثال، میتوان نویز تصویر را کاهش داد یا اندازه آن را کمی تغییر داد. این کارها میتوانند دستکاریهای مخرب مهاجم را از بین ببرند.
حمله به مدلهای هوش مصنوعی یک واقعیت انکارناپذیر و یک چالش بزرگ است. همانطور که سیستمهای AI قدرتمندتر و فراگیرتر میشوند، مهاجمان نیز روشهای پیچیدهتری برای فریب دادن آنها پیدا میکنند. این یک بازی موش و گربه دائمی بین متخصصان امنیت و مهاجمان است.
برای ساختن آیندهای امن با هوش مصنوعی، باید امنیت را از همان ابتدا در طراحی و توسعه مدلها در نظر بگیریم. سرمایهگذاری در تحقیقات، توسعه تکنیکهای دفاعی قویتر و افزایش آگاهی در مورد این تهدیدات، گامهای اساسی برای حفاظت از این تکنولوژی تحولآفرین هستند