EITC/AI/ARL Advanced Reinforcement Learning, DeepMind'ın yapay zekada pekiştirmeli öğrenmeye yaklaşımına ilişkin Avrupa BT Sertifikasyon programıdır.
EITC/AI/ARL Gelişmiş Takviyeli Öğrenim müfredatı, bu EITC Sertifikasyonu için bir referans olarak kapsamlı video didaktik içeriği kapsayan, aşağıdaki yapı içinde düzenlenen DeepMind perspektifinden takviyeli öğrenme tekniklerinin teorik yönlerine ve pratik becerilerine odaklanır.
Takviyeli öğrenme (RL), kümülatif ödül kavramını en üst düzeye çıkarmak için akıllı aracıların bir ortamda nasıl eylemler yapması gerektiğiyle ilgili bir makine öğrenimi alanıdır. Takviye öğrenimi, denetimli öğrenme ve denetimsiz öğrenmenin yanı sıra üç temel makine öğrenimi paradigmasından biridir.
Pekiştirmeli öğrenme, etiketli girdi/çıktı çiftlerinin sunulmasına gerek olmaması ve açıkça düzeltilmesi için optimal altı eylemlere ihtiyaç duyulmaması bakımından denetimli öğrenmeden farklıdır. Bunun yerine odak, keşif (keşfedilmemiş bölgenin) ve sömürü (mevcut bilginin) arasında bir denge bulmaktır.
Ortam tipik olarak bir Markov karar süreci (MDP) biçiminde belirtilir, çünkü bu bağlam için pek çok takviye öğrenme algoritması dinamik programlama tekniklerini kullanır. Klasik dinamik programlama yöntemleri ile pekiştirmeli öğrenme algoritmaları arasındaki temel fark, ikincisinin MDP'nin tam bir matematiksel modeli hakkında bilgi edinmemesi ve kesin yöntemlerin uygulanamaz hale geldiği büyük MDP'leri hedeflemesidir.
Genelliği nedeniyle, pekiştirmeli öğrenme, oyun teorisi, kontrol teorisi, yöneylem araştırması, bilgi teorisi, simülasyona dayalı optimizasyon, çok ajanlı sistemler, sürü zekası ve istatistik gibi birçok disiplinde incelenir. Yöneylem araştırması ve kontrol literatüründe, pekiştirmeli öğrenmeye yaklaşık dinamik programlama veya nöro-dinamik programlama denir. Pekiştirmeli öğrenmeyle ilgili sorunlar, çoğunlukla optimal çözümlerin varlığı ve karakterizasyonu ile ve bunların kesin hesaplanması için algoritmalarla ve özellikle de öğrenme veya yaklaşımın yokluğunda daha azıyla ilgilenen optimal kontrol teorisinde de çalışılmıştır. çevrenin matematiksel bir modeli. Ekonomi ve oyun teorisinde, pekiştirmeli öğrenme, sınırlı rasyonalite altında dengenin nasıl ortaya çıkabileceğini açıklamak için kullanılabilir.
Temel güçlendirme, Markov karar süreci (MDP) olarak modellenmiştir. Matematikte, bir Markov karar süreci (MDP), ayrık zamanlı bir stokastik kontrol sürecidir. Sonuçların kısmen rastgele ve kısmen bir karar vericinin kontrolü altında olduğu durumlarda karar vermeyi modellemek için matematiksel bir çerçeve sağlar. MDP'ler, dinamik programlama yoluyla çözülen optimizasyon problemlerini incelemek için kullanışlıdır. MDP'ler en az 1950'lerin başlarında biliniyordu. Ronald Howard'ın 1960 tarihli Dynamic Programming and Markov Processes adlı kitabından Markov karar süreçleri üzerine temel bir araştırma grubu ortaya çıktı. Robotik, otomatik kontrol, ekonomi ve imalat dahil birçok disiplinde kullanılmaktadır. MDP'lerin adı, Markov zincirlerinin bir uzantısı oldukları için Rus matematikçi Andrey Markov'dan geliyor.
Her bir zaman adımında, süreç bazı S durumundadır ve karar verici, S durumunda mevcut olan herhangi bir eylemi a seçebilir. Süreç, bir sonraki adımda rastgele bir şekilde yeni bir S 'durumuna geçerek yanıt verir ve karar verici karşılık gelen bir ödül Ra (S, S ').
Sürecin yeni S 'durumuna geçme olasılığı, seçilen a eyleminden etkilenir. Spesifik olarak, durum geçiş fonksiyonu Pa (S, S ') tarafından verilir. Bu nedenle, bir sonraki S 'durumu mevcut S durumuna ve karar vericinin eylemine a bağlıdır. Ancak S ve a verildiğinde, önceki durumlardan ve eylemlerden koşullu olarak bağımsızdır. Başka bir deyişle, bir MDP'nin durum geçişleri Markov özelliğini karşılar.
Markov karar süreçleri, Markov zincirlerinin bir uzantısıdır; fark, eylemlerin (seçime izin verme) ve ödüllerin (motivasyon verme) eklenmesidir. Tersine, her durum için yalnızca bir eylem varsa (örneğin, "bekle") ve tüm ödüller aynıysa (örneğin "sıfır"), bir Markov karar süreci bir Markov zincirine indirgenir.
Bir takviye öğrenme aracı, çevresiyle farklı zaman adımlarında etkileşime girer. Temsilci her t anında mevcut durumu S (t) alır ve ödül r (t) alır. Daha sonra, daha sonra ortama gönderilen mevcut eylemler kümesinden bir eylem a (t) seçer. Ortam yeni bir S (t + 1) durumuna geçer ve geçişle ilişkili ödül r (t + 1) belirlenir. Bir takviye öğrenme temsilcisinin amacı, beklenen kümülatif ödülü maksimize eden bir politika öğrenmektir.
Sorunun bir MDP olarak formüle edilmesi, ajanın doğrudan mevcut çevresel durumu gözlemlediğini varsayar. Bu durumda sorunun tam olarak gözlenebilir olduğu söylenir. Temsilcinin yalnızca bir durum alt kümesine erişimi varsa veya gözlemlenen durumlar gürültü nedeniyle bozulmuşsa, temsilcinin kısmi gözlemlenebilirliğe sahip olduğu ve resmi olarak sorunun Kısmen gözlemlenebilir bir Markov karar süreci olarak formüle edilmesi gerektiği söylenir. Her iki durumda da, temsilcinin kullanabileceği eylemler dizisi sınırlandırılabilir. Örneğin, bir hesap bakiyesinin durumu pozitif olarak sınırlandırılabilir; durumun mevcut değeri 3 ise ve durum geçişi, değeri 4 azaltmaya çalışırsa, geçişe izin verilmeyecektir.
Temsilcinin performansı, en iyi şekilde hareket eden bir temsilcinin performansı ile karşılaştırıldığında, performanstaki fark pişmanlık kavramına yol açar. Neredeyse en iyi şekilde hareket etmek için, temsilci eylemlerinin uzun vadeli sonuçları hakkında akıl yürütmelidir (yani, gelecekteki geliri maksimize etmelidir), ancak bununla ilişkili anlık ödül negatif olabilir.
Bu nedenle, pekiştirmeli öğrenme, özellikle uzun vadeli ve kısa vadeli ödül değiş tokuşunu içeren problemler için çok uygundur. Robot kontrolü, asansör planlaması, telekomünikasyon, tavla, dama ve Go (AlphaGo) dahil olmak üzere çeşitli sorunlara başarıyla uygulandı.
İki öğe, pekiştirmeli öğrenmeyi güçlü kılar: performansı optimize etmek için örneklerin kullanılması ve büyük ortamlarla başa çıkmak için işlev yaklaşımının kullanılması. Bu iki temel bileşen sayesinde, pekiştirmeli öğrenme aşağıdaki durumlarda geniş ortamlarda kullanılabilir:
- Ortamın bir modeli biliniyor, ancak analitik bir çözüm mevcut değil.
- Yalnızca ortamın bir simülasyon modeli verilmiştir (simülasyon tabanlı optimizasyon konusu).
- Çevre hakkında bilgi toplamanın tek yolu onunla etkileşimde bulunmaktır.
Bu problemlerin ilk ikisi planlama problemleri olarak düşünülebilir (bir çeşit model mevcut olduğundan), sonuncusu ise gerçek bir öğrenme problemi olarak düşünülebilir. Bununla birlikte, pekiştirmeli öğrenme, her iki planlama problemini de makine öğrenimi problemlerine dönüştürür.
Keşif ve sömürü değiş tokuşu, çok kollu haydut problemi ve Burnetas ve Katehakis (1997) 'de sonlu durum uzay MDP'leri için kapsamlı bir şekilde incelenmiştir.
Pekiştirmeli öğrenme, akıllı keşif mekanizmaları gerektirir; Tahmin edilen olasılık dağılımına bakılmaksızın rastgele seçilen eylemler, düşük performans gösterir. (Küçük) sonlu Markov karar süreçleri durumu nispeten iyi anlaşılmıştır. Bununla birlikte, durum sayısıyla iyi ölçeklenen (veya sonsuz durum uzaylarıyla problemlere ölçeklenen) algoritmaların eksikliğinden dolayı, basit keşif yöntemleri en pratik olanıdır.
Keşif konusu göz ardı edilse ve devlet gözlemlenebilir olsa bile, sorun, hangi eylemlerin daha yüksek kümülatif ödüllere yol açtığını bulmak için geçmiş deneyimleri kullanmakta kalır.
Kendinizi sertifika müfredatı hakkında ayrıntılı olarak tanımak için aşağıdaki tabloyu genişletebilir ve analiz edebilirsiniz.
EITC/AI/ARL Gelişmiş Takviyeli Öğrenim Sertifikasyonu Müfredatı, açık erişimli didaktik materyalleri bir video biçiminde referans alır. Öğrenme süreci, ilgili müfredat bölümlerini kapsayan adım adım bir yapıya (programlar -> dersler -> konular) bölünmüştür. Alan uzmanları ile sınırsız danışmanlık da sağlanmaktadır.
Sertifikasyon prosedürü kontrolü ile ilgili ayrıntılar için Nasıl Çalışır?.
Müfredat Referans Kaynakları
Deep Reinforcement Learning yayını aracılığıyla insan seviyesinde kontrol
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
UC Berkeley'de derin pekiştirmeli öğrenme üzerine açık erişim kursu
http://rail.eecs.berkeley.edu/deeprlcourse/
Manifold.ai'den K-kollu haydut sorununa RL uygulandı
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
EITC/AI/ARL Gelişmiş Güçlendirilmiş Öğrenim programı için çevrimdışı kendi kendine öğrenme hazırlık malzemelerinin tamamını PDF dosyası olarak indirin
EITC/AI/ARL hazırlık malzemeleri – standart versiyon
EITC/AI/ARL hazırlık materyalleri – inceleme sorularını içeren genişletilmiş versiyon