(+ویدیو) بیش از ۲۰ سال از اولین باری که یک کامپیوتر ، قهرمان جهانی شطرنج را شکست داد میگذرد. در آن زمان پیشرفتهترین کامپیوتر آی بی ام IBM به نام دیپ بلو Deep Blue از گاری کاسپاروف در یک رقابت تنگاتنگ ۳٫۵ به ۲٫۵ برد.
کمتر از یک دهه بعد دستگاههایی به میدان آمد که برای پیروزی در بازی شطرنج ساخته شده بودند. دیپ فریتز نرم افزاری بود که روی کامپیوتر شخصی نصب میشد و توانست در سال ۲۰۰۶ بر ولادیمیر کرامینک پیروز شود. در حال حاضر توانایی کامپیوترها در تسلط بر بازی Go یک قدم جلوتر از انسان است، به طوری که برنامه AlphaGo گوگل، طی سه بار بازی، دو بار از کی جی، نفر اول دنیا در بازی Go برده است. این نقطه عطف مهمی است که نشان میدهد کامپیوترها در بیست سال گذشته چقدر رشد کردهاند. پیروزی Deep Blue در شطرنج نشان داد که کامپیوترها در پردازش حجم زیادی از اطلاعات با چه سرعتی میتوانند عمل کنند و همین راه را برای انقلابی در زمینه دادههای کلان هموار کرد. اما پیروزی AlphaGo نشان داد که چطور به وسیله ماشینی که الگوها یا الگاریتمها را تشخیص میدهد و بلد است بهترین پاسخ را به آنها بدهد، میتوان هوش مصنوعی را توسعه داد. همین موضوع میتواند به تحول جدیدی در زمینه AI تبدیل شود، که در آن کامپیوترها نه فقط یاد میگیرند که چطور در مسابقهها بر انسان پیروز شوند، بلکه میتوانند به ما یاد بدهند که چطور بازی کنیم.
Go یکی از پیچیدهترین بازیهای جهان است. این بازی هم مانند شطرنج یک بازی استراتژیک است اما چند تفاوت کلیدی دارد که آن را به بازی سختتری برای یک کامپیوتر تبدیل میکند. قوانین بازی نسبتا ساده ، اما استراتژیهای بازی بسیار پیچیده است. همچنین پیشبینی برنده نهایی بسیار مشکل به نظر میرسد.
یک صفحه بزرگ (یک صفحه چارخانه ۱۹ در ۱۹ به جای صفحه ۸ در ۸) و تعداد نامحدودی ازمهرههایی که میتوانند به شکلهای مختلف روی صفحه قرار بگیرند. بازی به این صورت انجام میشود که دو بازیکن به نوبت مهرههای سیاه و سفید خود را در خانههای صفحه بازی، ۳۶۱ نقطه، قرار میدهند. هر بازی حداقل دو برابر شطرنج حرکت دارد. حتی گاهی تا ۶ بار هم میتوان مهرهها را حرکت داد.
این ویژگیها نشان میدهند که شما نمیتوانید از همان تکنیکهای شطرنج برای بازی Go استفاده کنید. گرایش در این بازی، استفاده از جستجوی گسترده brute force و آنالیز حرکات احتمالی برای انتخاب بهترین حرکت است. فنگ هسیونگ هسو یکی از اعضای تیم DeepBlue در سال ۲۰۰۷ استدلال کرد که برای استراتژیهای بازی Go باید سرعت پردازش DeepBlue را میلیون بار افزایش دهند تا بتواند در هر ثانیه ۱۰۰ تریلیون حرکت جدید را آنالیز کند.
یادگیری حرکتهای جدید
استراتژی که سازندگان AlphaGo در گوگل به کار بردند توسط شرکت زیرمجموعه آن به نام DeepMind ساخته شد که تخصص آن در زمینهی نوعی از هوش مصنوعی است که میتواند حرکات مطلوب و مفید را از حرکات بی فایده تمیز دهد. به این معنی که لازم نیست تمام حرکات در هر نوبت آنالیز شوند. در اولین مسابقه آمادگی، بازی در مقابل برولی، بازیکن حرفهای Go، حدود ۳۰۰ میلیون حرکت احتمالی بازیکنان حرفهای توسط AlphaGo آنالیز شده بود. سپس تکنیکهایی که به آن یادگیری عمیق deep learning و یادگیری تقویتی reinforcement learning میگفتند برای تشخیص حرکات مطلوب به کار گرفته شد.
اما اینها برای شکست دادن رقیب انسانی کافی نبود. این نرمافزار بر روی میکروچیپس که به طور خاص برای یادگیری ماشینها طراحی شده به نام ( TPUs) اجرا شد تا میزان بالای محاسبات را پوشش دهد. این شبیه به همان روشی بود که طراحان DeepBlue به کار برده بودند که میتوانست محاسبات زیادی انجام دهد. تفاوت آشکار آنها در این بود که میکروچیپسها DeepBlue فقط برای شطرنج قابل استفاده بودند. گوگل از تراشه AlphaGo قبلا برای مقاصد دیگری مانند نشان دادن نمای خیابان و بهینهسازی وظایف در مرکز دادهها استفاده میکرد.
درسهایی برای همه ما
چیزی که بعد از پیروزی DeepBlue تغییر کرده، میزان احترامی است که انسانها برای حریفان کامپیوتری خود قائل شدهاند. در بازی کامپیوتری با شطرنج، تکنیکهایی رایج بود که به آن اصطلاحا «ضد کامپیوتری» میگفتند که شامل چند حرکت محافظهکارانه بود برای آنکه کامپیوتر نتواند موقعیت را به درستی ارزیابی کند.
با این حال AlphaGo در اولین مسابقه خود در برابر کی جی، تاکتیکهایی را که قبلا توسط حریف به کار رفته بود برای شکست دادنش به کار برد. هرچند تلاش موفقی نبود اما نشان میدهد که رویکرد بازیکنان نسبت به حریفان کامپیوتری خود در حال تغییر است. آنان یاد گرفتهاند به جای دست کم گرفتن کامپیوترها، از شیوهی بازی آنها یاد بگیرند.
در واقع دستگاهها هم در حاضر تحت تاثیر بازیکنان حرفهای Go هستند؛ AlphaGo از استراتژی استاد بزرگان این رشته در طول مسابقات استفاده میکند. کامپیوتر هم چیز جدیدی درباره این بازی ۲۵۰۰ ساله به انسانها آموخته است.
چه آیندهای در انتظار AlphaGo است؟ موفقیت DeepBlue باعث تحولات سریع در زمینه پردازش دادههای کلان شد. فنآوری AlphaGo میتواند در مسائلی که نیاز به درک الگوی خاصی هست کمک کند. مثلا از تکنیک مشابه در تشخیص سرطان گرفته تا باز کردن اتوماتیک درها توسط روباتها و بسیاری برنامههای کاربردی دیگر. چارچوب اساسی مورد استفاده در AlphaGo و TensorFlow در دسترس برنامهنویسان ومحققان قرار دارد تا با سختافزار موجود، برنامههای جدیدی با آن تولید کنند.
جالبتر آنکه از ترکیب آن با بسیاری کامپیوترهای موجود، از طریق کلود میتوان اَبَرکامپیوترهای آموزگار machine-learning ساخت. زمانی که این فنآوری کامل شود، پتانسیلی برای ایجاد ماشینهای خودآموز (self-taught) به وجود میآید که میتوانند نقش گستردهای در وظایف مرتبط با تصمیمگیریهای پیچیده بازی کنند. البته ممکن است بیشترین تاثیرات اجتماعی این ماشینها، نه فقط در یادگیری خودشان، بلکه در فرآیند آموزش دادن به ما نیز باشد.
*منبع: The Conversation
*ترجمه از کیهان لندن