あなたは、サーカスのマネージャーがどのようにボールをバランスをとるために熊を手に入れるか、あるいは虎が燃え上がるホップを飛び越えるかを疑問に思うことがありますか? 答え:強化. タイガーは通常、燃え上がるホップを飛び越えることはありませんが、あなたがそれを行うたびに彼らに美味しい肉を与えるなら、彼らはします。 最終的に、タイガーは食べ物を手に入れるために、彼らは大胆なジャンプを実行する必要があることを学び、それでそれを熟練して一貫してします。 人々は、同様の方法で学ぶ:私たちは健康的な食べ物を食べることを学び、運動し、ポジティブな何かを得るために勉強します、それはドーパミン、お
Wisdom Comes from Within
1938年 行動心理学者B・F・スキーナー
この単純な真理が、クリストファー・ワトキンスに彼の
次に、可能なステータスアクションのカップルは、2番目のゲートで「4」を選ぶことになります。もう1つは、2番目のゲートで「6」を選ぶことになりますが、この選択は、それは2番目のゲートの間違った数字であるため、おそらくより低い報酬につながります。 6番目のゲートを通過の報酬は1であり、それぞれの追加ゲートを通過(6番目のゲートを除く)は0.2の報酬を与えます。初期のQ学習エージェントは、おそらく最初のゲートで1〜9の数字を試してみたでしょう、2番目のゲートなどです。それは、すべての可能な結果を試みて、ステータス値のカップルの報酬を受け取って、これらのカップルの各組み合わせのすべての報酬を受けQ 価値観ウォッキンスが仮定した Q 値を最大化する方法を学ぶことで、モデルは非確率的な環境で最適な決定を下すことができます。
DeepMind Steps In
2013年、AI研究ラボ「DeepMind」の研究者らは、何がAIになるのかを発表しました。
DeepMindのチームは、両方の問題を賢く解決しました. すべてのオプションを実行するための計算コストを軽減するために、彼らはオプションを導入しました。エピソン・グレディこの方法は、ギリシャ語の文字Epsilon(Ɛ)にちなんで名付けられ、ワトキンの貪欲な政治常に最高の報酬を求めて行き、探検政策アイデアは、各州で、エージェントは探索するチャンス(ランダムにアクションの1つを選択)と、貪欲なポリシーによって定められた最大Q値に従う1 - Ɛのチャンスを持っているということです。 あなたが正式な説明に入っていない場合、これは基本的にモデルが時々新しいアクションを試す確率を持っていることを意味し、エージェントが最大化に焦点を当てることによって多くの時間を節約する有用な行動(低価値のステータスアクションのカップルを省略することができるように)と同時に意思決定の柔軟性を可能にする(エージェントがローカルマクシマに閉じ込めないように)。
たとえば、エージェントがゲームを終える過程にいる場合、特定の行動が直接より良い結果につながることをどのように知ることができますか? あなたが3つのポインターを作る前に手を叩いただけでは、ショットが進んだことを意味しません。なぜならエージェントは?エージェントは?エージェントは?予言DeepMindは、彼らが「国家行動のカップルとの間の相関関係を破る」と呼ぶ新しい方法を導入しました。Q ネットワークQ ネットワークは、基本的に完全な DQN 内部のコンパクトな Machine Learning モデルです。Q ネットワークの唯一の仕事は、エージェントの経験から学ぶことです。予言ゲートとパスワードの事例に戻り、訓練を受けたQネットワークは、それぞれのゲートで正しい数を推測する代わりに、より高い予測されたQ値を生成します。体験再生ネットワークは、エージェントが環境から受け取る一連のデータに訓練され、その結果、Q値をよりよく予測し、したがってエージェントに与える「アドバイス」においてより効果的であるように、その重量を調整することができる。
All the World’s a Game…
Reinforcement Learningは、その最も純粋な形で多くの進歩を遂げてきました。DeepMindは、2014年にGoogleによって買収された後、開発を続けました。
- AlphaGoは、世界の統治下のゴーチャンピオン、リー・セドールを決定的に打ち負かし、これまでで最も複雑なボードゲームの1つと考えられていたゲームで世界を衝撃にした。
- オリンピックの数学の問題を解決することに専念したバージョンであるAlphaProofは、LEANの公式化された証拠に基づいて動作し、シミュレート国際数学オリンピック(IMO)ベンチャーテストでシルバーを獲得しました。
- 開発チームが2024年にノーベル生物学賞を受賞したAlphaFoldは、分子生物学の最も複雑な側面の1つであるタンパク質の折りたたみにおける突破を達成しました。
強化学習のコンセプトは、人生について私たちに多くのことを教えています:何が最も価値のあるものなのかを把握し、行動を通じてその価値を達成しようとします。何かがうまくいかない場合は、働くまで別の何かを試してみてください。人間はしばしば私たちが設計しているシステムの細かい点を無視し、それが私が強化学習をとても愛する理由です。そんなシンプルで明るいもののために、その可能性は(皮肉的に)人類の性質によって制限されています。RLプロセスの最も重要な部分、すなわち報酬機能の1つは、人間によって設定されています。AlphaZeroチームの業績を振り返ると、私たちはRLを使用して何ができるかを制限する要因であることが明らかです。AlphaZeroがほぼどのゲーム
世界のトップの研究者たちがやっていることだ。いいえ、そのようなことだ。私が2024年の夏に初めてRLについて学んだ時、この技術は2017年のAlphaZeroチームの勝利以来、大きな進歩を遂げていないようで、誰もがChatGPTについて話していたようで、半年にわたってテクノロジーの議論を支配してきた新しいトランスフォーマーも同じように見えた。私はRLがどれほどクールなものか、そしてそのことを忘れてしまいました。つまり、OpenAIがトランスフォーマーアーキテクチャとReinforcement Learningを組み合わせるというアイデアを抱くまで、RL-LLMs、またはReinforcement Learning-Large Language Modelsと呼ぶのが嫌なハイブリッドを作り、シンプルさのためにシンプ
この記事は、現代のメディアで一般的に議論されているものを超えてAIの視点を多様化しようとしている学生ベースと学生ベースのAI倫理組織Our AIがあなたに持って来ました。
この記事は、現代のメディアで一般的に議論されているものを超えてAIの視点を多様化しようとしている学生ベースと学生ベースのAI倫理組織Our AIがあなたに持って来ました。
Learn More
これを言うと、RLは最大の可能性に到達するまで長い道のりがあります。