آخرین پیروزی گوگل در بازی Go نشان داد: ماشین‌ها نه‌تنها یاد می‌گیرند، بلکه می‌توانند یاد هم بدهند

(+ویدیو) بیش از ۲۰ سال از اولین باری که یک کامپیوتر ، قهرمان جهانی شطرنج را شکست داد می‌گذرد. در آن زمان پیشرفته‌ترین کامپیوتر آی بی ام    IBM به نام دیپ بلو Deep Blue  از گاری کاسپاروف در یک رقابت تنگاتنگ ۳٫۵ به ۲٫۵ برد.

کمتر از یک دهه بعد دستگاه‌هایی به میدان آمد که برای پیروزی در بازی شطرنج ساخته شده بودند. دیپ فریتز نرم افزاری بود که روی کامپیوتر شخصی نصب می‌شد و توانست در سال ۲۰۰۶ بر ولادیمیر کرامینک پیروز شود. در حال حاضر توانایی کامپیوتر‌ها در تسلط بر بازی Go یک قدم جلوتر از انسان است، به طوری که برنامه AlphaGo گوگل، طی سه بار بازی، دو بار از کی جی، نفر اول دنیا در بازی Go برده است. این نقطه عطف مهمی ‌است که نشان می‌دهد کامپیوتر‌ها در بیست سال گذشته چقدر رشد کرده‌اند. پیروزی Deep Blue در شطرنج نشان داد که کامپیوتر‌ها در پردازش حجم زیادی از اطلاعات با چه سرعتی می‌توانند عمل کنند  و همین راه را برای انقلابی در زمینه داده‌های کلان هموار کرد. اما پیروزی AlphaGo نشان داد که چطور به وسیله ماشینی که الگوها یا الگاریتم‌ها را تشخیص می‌‌دهد و بلد است بهترین پاسخ را به آنها بدهد، می‌توان هوش مصنوعی را توسعه داد. همین موضوع می‌تواند به تحول جدیدی در زمینه  AI تبدیل شود، که در آن کامپیوترها نه فقط یاد می‌گیرند که چطور در مسابقه‌ها بر انسان پیروز شوند، بلکه می‌توانند به ما یاد بدهند که چطور بازی کنیم.

Go یکی از پیچیده‌ترین بازی‌های جهان است. این بازی هم مانند شطرنج یک بازی استراتژیک است اما چند تفاوت کلیدی دارد که آن را به بازی سخت‌تری برای یک کامپیوتر تبدیل می‌کند. قوانین بازی نسبتا ساده ، اما استراتژی‌های بازی بسیار پیچیده  است. همچنین پیش‌بینی برنده نهایی بسیار مشکل به نظر می‌رسد.

یک صفحه بزرگ (یک صفحه چارخانه ۱۹ در ۱۹ به جای صفحه ۸  در ۸) و تعداد نامحدودی ازمهره‌هایی که می‌توانند به شکل‌های مختلف روی صفحه قرار بگیرند. بازی به این صورت انجام می‌شود که دو بازیکن به نوبت مهره‌های سیاه و سفید خود را در خانه‌های صفحه بازی، ۳۶۱ نقطه، قرار می‌دهند.  هر بازی حداقل دو برابر شطرنج حرکت دارد. حتی گاهی تا ۶ بار هم می‌توان مهره‌ها را حرکت داد.

این ویژگی‌ها نشان می‌دهند که شما نمی‌توانید از همان تکنیک‌های شطرنج برای بازی Go استفاده کنید. گرایش در این بازی، استفاده از جستجوی گسترده brute force  و آنالیز حرکات احتمالی برای انتخاب بهترین حرکت است. فنگ هسیونگ هسو یکی از اعضای تیم DeepBlue در سال ۲۰۰۷ استدلال کرد که برای استراتژی‌های بازی Go باید سرعت پردازش DeepBlue را میلیون بار افزایش دهند تا بتواند در هر ثانیه ۱۰۰ تریلیون حرکت جدید را آنالیز کند.

یادگیری حرکت‌های جدید

استراتژی که سازندگان  AlphaGo در گوگل به کار بردند توسط شرکت زیرمجموعه آن به نام DeepMind ساخته شد که تخصص آن در زمینه‌ی نوعی از هوش مصنوعی است که می‌تواند حرکات مطلوب و مفید را از حرکات بی فایده تمیز دهد. به این معنی که لازم نیست تمام حرکات در هر نوبت آنالیز شوند. در اولین مسابقه آمادگی، بازی در مقابل برولی، بازیکن حرفه‌ای Go، حدود ۳۰۰ میلیون حرکت احتمالی بازیکنان حرفه‌ای توسط AlphaGo آنالیز شده بود. سپس تکنیک‌هایی که به آن یادگیری عمیق  deep learning و یادگیری تقویتی reinforcement learning می‌گفتند برای تشخیص حرکات مطلوب به کار گرفته شد.

اما اینها برای شکست دادن رقیب انسانی کافی نبود. این نرم‌افزار بر روی میکروچیپس که به طور خاص برای یادگیری ماشین‌ها طراحی شده به نام ( TPUs) اجرا شد تا میزان بالای محاسبات را پوشش دهد. این شبیه به همان روشی بود که طراحان DeepBlue به کار برده بودند که می‌توانست محاسبات زیادی انجام دهد. تفاوت آشکار آنها در این بود که میکروچیپس‌ها DeepBlue فقط برای شطرنج قابل استفاده بودند. گوگل از تراشه AlphaGo  قبلا برای مقاصد دیگری  مانند نشان دادن نمای خیابان و بهینه‌سازی وظایف در مرکز داده‌ها استفاده می‌کرد.

درس‌هایی برای همه ما

چیزی که بعد از پیروزی DeepBlue تغییر کرده، میزان احترامی ‌است که انسان‌ها برای حریفان کامپیوتری خود قائل شده‌اند. در بازی کامپیوتری با شطرنج، تکنیک‌هایی رایج بود که به آن  اصطلاحا «ضد کامپیوتری» می‌گفتند که شامل چند حرکت محافظه‌کارانه بود برای آنکه کامپیوتر نتواند موقعیت را به درستی ارزیابی کند.

با این حال AlphaGo در اولین مسابقه خود در برابر کی جی، تاکتیک‌هایی را که قبلا توسط حریف به کار رفته بود برای شکست دادنش به کار برد. هرچند تلاش موفقی نبود اما نشان می‌دهد که رویکرد بازیکنان نسبت به حریفان کامپیوتری خود در حال تغییر است. آنان یاد گرفته‌اند به جای دست کم گرفتن کامپیوتر‌ها، از شیوه‌ی بازی آنها یاد بگیرند.

در واقع دستگاه‌ها هم در حاضر تحت تاثیر بازیکنان حرفه‌ای Go هستند؛ AlphaGo  از استراتژی استاد بزرگان این رشته در طول مسابقات استفاده می‌کند.  کامپیوتر هم چیز جدیدی درباره این بازی ۲۵۰۰ ساله به انسان‌ها آموخته است.

چه آینده‌ای در انتظار AlphaGo است؟ موفقیت DeepBlue باعث تحولات سریع در زمینه پردازش داده‌های کلان شد. فن‌آوری AlphaGo می‌تواند در مسائلی که نیاز به درک الگوی خاصی هست کمک کند. مثلا از تکنیک مشابه در تشخیص سرطان گرفته تا باز کردن اتوماتیک درها توسط روبات‌ها و بسیاری برنامه‌های کاربردی دیگر. چارچوب اساسی مورد استفاده در  AlphaGo و TensorFlow در دسترس برنامه‌نویسان  ومحققان قرار دارد تا با سخت‌افزار موجود، برنامه‌های جدیدی با آن تولید کنند.

جالب‌تر آنکه از ترکیب آن با بسیاری کامپیوترهای موجود،  از طریق کلود می‌توان اَبَرکامپیوترهای آموزگار machine-learning ساخت. زمانی که این فن‌آوری کامل شود، پتانسیلی برای ایجاد ماشین‌های خودآموز (self-taught) به وجود می‌آید که می‌توانند نقش گسترده‌ای در وظایف مرتبط با تصمیم‌گیری‌های پیچیده بازی کنند. البته ممکن است بیشترین تاثیرات اجتماعی این ماشین‌ها، نه فقط در یادگیری خودشان، بلکه در فرآیند آموزش دادن به ما نیز باشد.

*منبع: The Conversation
*ترجمه از کیهان لندن

لینک کوتاه شده این نوشته:
https://kayhan.london/fa/?p=76871

دیدگاه خود را درباره این مطلب با ما و دیگران در میان بگذارید: