آموزش ربات برای یادگیری مانند کودکان

Three poses of BRETT robotبرت برکلی ربات برای از بین بردن کارهای خسته کننده.

14 آوریل سال 2020 توسط توماس لی | عکس توسط آدام لاو

این مقاله به نظر می رسد در برکلی مهندس , مجله بهار سال 2020

زمانی که کودکان با اسباب بازی بازی آنها یادگیری در مورد جهان اطراف آنها — و امروز روبات نیستند که متفاوت است. در UC برکلی ربات آزمایشگاه یادگیری گروه از روبات ها در حال کار به استاد همان نوع از کارهایی است که کودکان انجام دهید: قرار دادن بلوک چوب در صحیح اسلات شکل مرتب سازی مکعب اتصال یک پلاستیک آجر لگو به دیگری اتصال ولگرد قطعات به یک اسباب بازی هواپیما.

در عین حال نوآوری واقعی در اینجا این است آنچه که این روبات در حال انجام است اما نه در چگونه آنها در حال انجام آن می گوید: پیتر Abbeel استاد مهندسی برق و علوم کامپیوتر و مدیر ربات آزمایشگاه یادگیری.

مصرف با الهام از این راه است که کودکان به طور غریزی یادگیری و انطباق با طیف گسترده ای از غیر قابل پیش بینی محیط Abbeel و دستیار پروفسور سرگئی Levine در حال توسعه الگوریتم قادر می سازد که روبات ها برای یادگیری از تجارب گذشته — و حتی از دیگر روبات ها است. بر اساس یک اصل به نام عمیق تقویت یادگیری خود کار آوردن روبات گذشته حیاتی آستانه در نشان دادن انسان مانند هوش با توانایی به طور مستقل حل مشکلات و استاد کارهای جدید در یک سریعتر به شیوه ای کارآمد تر.

“اگر شما یک ربات انجام کاری از طریق تقویت یادگیری به این معنی که آن را در واقع می داند که چگونه برای به دست آوردن مهارت های جدید خود را از آزمون و خطا” Abbeel می گوید. “است که بسیار مهم تر از دستاورد وظیفه خاص آن را به اتمام.”

و در حالی که امروز پیشرفته ترین روبات هنوز هم نمی تواند مطابقت با قدرت مغز یک کودک نو پا این محققان در حال آماده کردن خود برای تجهیز روبات ها با برش لبه هوش مصنوعی (AI) قابلیت اجازه می دهد آنها را به تعمیم بین وظایف بداهه نوازی با اشیاء و مدیریت چالش های غیر منتظره در جهان اطراف آنها را.

EECS professor Pieter Abbeel

پیتر Abbeel

EECS professor Sergey Levine

سرگئی Levine

ساخت “خوب” تصمیم گیری

بیش از 80 سال گذشته به ظاهر نامربوط نوآوری در ریاضیات تئوری اقتصادی و هوش مصنوعی باید همگرا به فشار روبات tantalizingly نزدیک به چیزی نزدیک به هوش انسان است.

در سال 1947 جان فون نویمان ریاضیدان و اقتصاددان Oskar Morgenstern توسعه یک قضیه است که با تشکیل این اساس چیزی به نام انتظار ابزار تئوری. در یک کلام این نظریه بر آن است که هنگامی که با توجه به مجموعه ای از گزینه های سمت چپ به شانس فرد را انتخاب کنید گزینه ای که تولید یک نتیجه با حداکثر سطح فردی رضایت. ما می تواند نشانگر این است که نتیجه مورد نظر را به “پاداش” با یک مقدار عددی.

“که نشان دهنده تعداد آنها چه می خواهند” Abbeel می گوید. “پس این قضیه نشان می دهد که داشتن یک پاداش است که به طور کامل جهانی است. تنها چیزی که شما نیاز به یک عدد است.”

محققان سپس اعمال این نظریه به کامپیوتر توسط دادن به آنها عددی انگیزه برای یادگیری نحوه ی به بازی بازی های هیئت مدیره.

نگاهی به شطرنج است. اگر کامپیوتر هدف این است که برای کیش و مات حریف خود را به عنوان به سرعت به عنوان آن می تواند که نتیجه تخصیص داده شده است کمترین تعداد را در بازی. کامپیوتر بررسی آن را به حرکت می کند برای رسیدن به کیش و مات: “خوب” حرکت می کند را بدست آورده کامپیوتر تعداد بالا در حالی که “بد” حرکت تولید تعداد کم.

پس از انتخاب است که نشان دهنده افزایش تعداد ميانگين کامپیوتر را در رسیدن به هدف خود را با سرعت بیشتری با کامپیوتر می شود مهارت در شطرنج توسط سیستماتیک یادگیری از طریق آزمون و خطا به “خوب” تصمیم گیری در حالی که اجتناب از “بد” هستند.

با استفاده از این تقویت یادگیری تکنیک محققان ایجاد شده در رایانه است که می تواند شکست انسان قهرمان در بازی چکرز شطرنج و حتی آتاری بازی های ویدئویی است. در سال 2017 AlphaGo یک برنامه AI اختراع توسط گوگل, ضرب و شتم, بهترین بازیکن جهان در, رفتن, انتزاعی استراتژی بازی بسیار پیچیده تر از شطرنج و چکرز — کرک جدید آستانه در AI.

شبکه های عصبی

آموزش کامپیوتر برای برنده شدن در یک بازی ویدئویی در یک چیز است. آموزش ربات برای انجام یک عمل فیزیکی است که بسیار سخت تر است.

برای یک چیز نرم افزار کد وجود دارد در دنیای مجازی که بدان معنی است که هوش مصنوعی از برنامه های لذت بردن از فضای نامحدود برای کشف و یادگیری است. روبات ها در حال اشیاء فیزیکی عامل در فضای فیزیکی. آموزش ربات به درک و دستکاری اشیاء و یا حرکت در فضاهای بدون توفنده به یک کابینه نیاز به پر زحمت و خسته کننده برنامه نویسی کار می کنند.

Robot in a frame in EECS professor Sergey Levine's lab

ربات در یک قاب در EECS پروفسور سرگئی Levine آزمایشگاه.

محققان باید تغذیه ربات با یک پایگاه داده عظیم از تصاویر و آموزش آن به رسمیت شناختن الگوهای به طوری که آن را می توانید تشخیص از تصاویر صندلی از تصاویر از گربه ها. هنگامی که یک ربات رول به اتاق خود سنسور و یا “چشم” می تواند تشخیص یک شی مسدود کردن راه خود را. ربات مقایسه بصری داده ها به تصاویر مشابه را در پایگاه داده خود را قبل از آن را با موفقیت می تواند نتیجه گرفت که جسم در واقع یک صندلی.

“چنین آزمون و خطا طول می کشد یک مدت طولانی” لوین می گوید.

اما استفاده از شبکه های عصبی مصنوعی مجاز است روبات ها برای پردازش و تجزیه و تحلیل اطلاعات در بسیار سریعتر نرخ. این شبکه ها شامل متصل واحد و یا گره های که شبیه سلول های عصبی در مغز انسان است. هر گره می تواند سیگنال گره های دیگر برای اتصال به آن اجازه می دهد روبات ها به ایجاد روابط بین انواع مختلف داده ها.

با استفاده از این رویکرد در برکلی و محققان را قادر به انجام کارهایی مانند آموزش روبات چگونه به اجرا در کامپیوتر شبیه سازی و در زندگی واقعی است. ربات می آموزد بهینه اتصالات عصبی باید آن را به درخواست مقدار مناسب از نیروی موتور در آن بازوها و باسن و پاها.

“از طریق اجرا می شود متفاوت از ربات های مختلف تلاش می کند نقاط قوت اتصالات بین سلول های عصبی” Abbeel می گوید. “و اگر یک اتصال الگوی بهتر از دیگران ربات ممکن است حفظ آن و تنوع در آن اتصال و سپس تکرار تکرار تکرار.”

روبات ها درک کنند که برخی از اتصالات عصبی آنها را کسب پاداش به طوری که آنها همچنان در امتداد این مسیر تا دستیابی به این هدف است که به اجرا در سراسر یک اتاق بدون سقوط یا veering در جهت اشتباه است. الگوریتم برکلی محققان در نهایت تولید مجاز روبات ها نه تنها به یاد داشته باشید آنچه را که آنها آموخته شده از آزمون و خطا بلکه به ساخت بر تجارب خود را.

“قدرت ارتباطات بین سلول های عصبی که سلول های عصبی به هم متصل است که اساسا چگونه ما کمك تجربه” Abbeel می گوید. “شما نیاز به الگوریتم است که نگاهی به آن تجارب و rewires که این ارتباطات در شبکه به ربات را بهتر انجام دهد.”

در نهایت لوین می گوید: محققان ممکن است قادر به ایجاد آنچه که او خواستار “مادام العمر رباتیک سیستم” است که در آن روبات ها بهبود خود را به طور مداوم تجزیه و تحلیل قبلی خود را فردی پیروزی و اشتباهات و کسانی که از دیگر روبات ها است.

“هنگامی که مواجه با وظایف پیچیده روبات تبدیل خواهد شد مشاهدات خود را به عمل” او می گوید. “ما با ارائه آنها را با عنصر لازم برای آنها را به کسانی که اتصالات.”

چند tasking روبات

ترین روبات امروز هنوز هم نیاز انسان به مجموعه ای از پاداش. اما اگر روبات می تواند مجموعه ای از اهداف خود بدون نظارت شبیه به راه فرزندان خود را کشف محیط زیست ؟

پیشرفت بدون نظارت عمیق تقویت یادگیری می تواند منجر به دستاوردهای هنوز متوجه شدم در نظارت تنظیمات. بر خلاف دیگر مناطق عمیق, یادگیری رباتیک محققان فاقد مجموعه داده های بزرگ مورد نیاز برای آموزش ربات ها در یک مجموعه گسترده ای از مهارت ها است. اما مستقل اکتشاف می تواند کمک روبات یادگیری انواع کارهای بسیار سریع تر است.

EECS professor Pieter Abbeel is seen from the perspective of BRETT

Abbeel کار با برت, عمیق-یادگیری, ربات.

کار بیرون آمدن از برکلی نشان داده است چه این ممکن است مانند نگاه در سیستم های رباتیک طراحی و توسعه توسط Abbeel, لوین و چلسی فین (Ph. D.’18 EECS) در حال حاضر استادیار در دانشگاه استنفورد به عنوان دانشجوی محققان. روبات نقاشی بر روی داده های خود را و انسان دموی می توانید آزمایش به طور مستقل با اشیاء. برخی از مهارت های تسلط شامل ریختن آیتم ها از یک جام به دیگری درهم کوبیدن یک کلاه بر روی یک بطری و با استفاده از یک کفگیر برای برداشتن یک شی را در یک کاسه.

روبات حتی تدریس خود را به استفاده از یک شی روزمره مانند یک بطری آب به عنوان یک ابزار به حرکت آیتم های دیگر در سراسر یک سطح نشان می دهد که آنها می توانید بداهه نوازی. تحقیقات بیشتر توسط فین و لوین با همکاری محققان دانشگاه پنسیلوانیا نشان داد که روبات می تواند یاد بگیرند که چگونه به استفاده از ابزار با تماشای ویدئوها از انسان با استفاده از ابزار را با دست خود.

“آنچه مهم است نه خام مهارت های این روبات می تواند انجام دهد” فین می گوید: “اما کلیت این مهارت و چگونه آنها را می توان به بسیاری از وظایف مختلف است.”

یکی از چالش های اصلی است که محققان در حال رقیب با این است که چگونه به طور کامل به طور خودکار خود نظارت عمیق تقویت یادگیری است. روبات ممکن است یادگیری مانند یک کودک نو پا اما آنها اصلا قابل مقایسه مهارت های حرکتی.

“در عمل, آن را بسیار دشوار است به راه اندازی یک روبات آموزش سیستم است که می توانند یاد بگیرند که به طور مستمر در دنیای واقعی تنظیمات بدون گسترده دستی تلاش” لوین می گوید. “این است و نه فقط به این دلیل که زمینه الگوریتم نیاز به بهبود اما از آنجا که بسیاری از داربست و ماشین آلات در سراسر رباتیک یادگیری دستی است.”

برای مثال او می گوید: اگر یک ربات است که یادگیری برای تنظیم یک شی در آن دست و قطره آن شی و یا اگر یک ربات است که یادگیری به راه رفتن و سپس سقوط کردن یک انسان نیاز به گام و رفع آن است. اما در دنیای واقعی انسان به طور مداوم در یادگیری خود به خود و هر اشتباه تبدیل به یک فرصت یادگیری.

“به طور بالقوه یک multi-task view از یادگیری می تواند این موضوع که در آن ما ممکن است تصور کنید که این ربات با استفاده از هر اشتباه به عنوان یک فرصت برای نمونه و یادگیری مهارت های جدید است. اگر قهوه-تحویل ربات قطره, قهوه, آن را باید با استفاده از این فرصت به عمل تمیز کردن قهوه ریخته,” لوین می گوید.

“در صورتی که این موفقیت پس از آن چه ما می بینیم در طول چند سال آینده به طور فزاینده ای بیشتر و بیشتر مستقل آموزش هایی که روبات هستند که در واقع در واقع در دنیای واقعی و محیط های یادگیری به طور مستمر در کار است.”

ورود به دنیای واقعی

برخی از این پیشرفت در یادگیری تقویتی برای رباتیک در حال حاضر در حال ساخت راه خود را به بیرون از آزمایشگاه و به محل کار.

Blue, a low-cost, human-friendly robot

آبی, کم هزینه, انسان, دوستانه, ربات طراحی شده توسط EECS پروفسور پیتر Abbeel.

Obeta, یک, آلمانی, قطعات الکترونیک تولید کننده است که با استفاده از فن آوری توسعه یافته توسط Covariant.هوش مصنوعی یک شرکت تاسیس شده توسط Abbeel برای روبات ها به مرتب کردن بر اساس از طریق سطل هزار نفر از تصادفی اسباب بازی و قطعات است که عبور از طریق تسمه نقاله در انبار. این ربات می تواند انتخاب و مرتب سازی بر اساس بیش از 10 ، 000 آیتم های مختلف آن هرگز قبل از دیده می شود با بیش از 99 درصد دقت با توجه به Covariant. وجود دارد بدون نیاز به قبل از مرتب سازی بر اساس آیتم های ساخت این تکنولوژی بازی تعویض برای تولید.

“من فکر می کنم ما به احتمال زیاد روبات ها به تدریج نفوذ بیشتر و بیشتر در دنیای واقعی اما با شروع در ‘پایان’ از بخش تجاری و به تدریج منشعب از وجود نسبت کمتر و کمتر ساختار محیط” لوین می گوید.

ما ممکن است روبات انتقال از صنايع مانند کارخانه ها و انبارها به هوای محیط و یا مغازه های خرده فروشی. تصور کنید که ربات وجین نازک شدن و سمپاشی محصولات زراعی در مزارع; جوراب ساق بلند, فروشگاه مواد غذایی, قفسه; و ساخت تحویل در هتل ها و بیمارستان ها. در نهایت روبات می تواند مستقر در بیشتر بیرون رو نقش مانند موجودی کار در شرکت های تجاری.

لوین می گوید: به طور کامل مصرف کننده رو به خانه ربات است که برخی از راه های دور به عنوان روبات باید اول استاد پیچیده تر دامنه با تنوع. این نیز نیاز به یک کادر بشر کارشناسان در این زمینه قبل از آن را می توان به طور کامل تحقق یابد.

هر چه دامنه این محققان با هدف استفاده از روبات ها به کار مشترک با مردم و افزایش بهره وری به عنوان مخالف به جابجایی مردم از شغل. همراه, علمی, سیاسی و اقتصادی عوامل شایستگی توجه جدی و انتگرال به کار می کنند.

“هر تکنولوژی دارای پتانسیل برای هر دو مثبت و منفی نتایج و به عنوان محققان این مهم برای ما بود آگاه از این” لوین می گوید. “در نهایت من معتقدم که تا کنون قادر به روبات پتانسیل فوق العاده ای به زندگی مردم بهتر است که امکان این کار ارزشمند است.”

tinyurlis.gdv.gdv.htu.nuclck.rushrtco.detny.im

Leave a reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>