科学者が世界の問題を強化学習のゲームに変えた方法

あなたは、サーカスのマネージャーがどのようにボールをバランスをとるために熊を手に入れるか、あるいは虎が燃え上がるホップを飛び越えるかを疑問に思うことがありますか? 答え:強化. タイガーは通常、燃え上がるホップを飛び越えることはありませんが、あなたがそれを行うたびに彼らに美味しい肉を与えるなら、彼らはします。最終的に、タイガーは食べ物を手に入れるために、彼らは大胆なジャンプを実行する必要があることを学び、それでそれを熟練して一貫してします。人々は、同様の方法で学ぶ:私たちは健康的な食べ物を食べることを学び、運動し、ポジティブな何かを得るために勉強します、それはドーパミン、お1990年代の書類「Q Learning」がどのようにしてアルゴリズムを複雑な環境に適応させるのに役立つのかを詳細に説明しましたが、それまではそうではありませんでした。2013年ハイライト研究論文GoogleのDeepMindによって世界にそれを実践で行う方法を教えました。10年間にわたって、Reinforcement Learning、あるいはRLを短くして、世界を変え、しばらくそれを続けることは誇張ではありません。

1990年代の書類 2013年ハイライト研究論文

Wisdom Comes from Within

1938年行動心理学者B・F・スキーナータイトル: Coined the Term「オペラント・コンディション」とは、生物が、いわゆるプロセスを用いて、特定の自発的な行動を実行する傾向をどのように高めることができるかを記述するものである。補強彼は、もし行動(彼の場合、マウスがハンドルを押すように)が何かポジティブなものによって強化された場合(彼は食べ物と水を使用しました)、それは再び繰り返される可能性があることを発見しました。処罰燃え上がる痛み(炎の痛み)は、マイナスこのプロセスが単純であるかのように、私たちが知っている人類はそれなしでは同じではありません。すべての小さな子供たちが、あなたが常に自分自身を傷つけることのできることをしないことを学ぶのに苦労していたら、世界を想像してください!

タイトル: Coined the Term

この単純な真理が、クリストファー・ワトキンスに彼の1989 Ph.D. 論文もし人間や動物が補強で学ぶことができれば、なぜ機械が学べないのか?Q 学習エージェントが限られた環境との相互作用を通じて学ぶプロセス彼は、あらゆる環境において、Q Learningエージェントの目標は、政策コラレーションを通してACTION-STATE PAIRこれを理解するには、いくつかのゲートを通過しなければならないビデオゲームの例をとり、各ゲートは単一のランダム数字のパスワードによってロックされています。アクション, or the behavior the agent performs, would be the number that the agent guesses at each gate, and the国, or the environment surrounding the agent, would be the gate at which the agent is. アイデアはシンプルです。報酬エージェントを訓練しようとする人間によって定義されます。報酬は大きなもの(もしかしたらレベルを完成させるために)または小さなもの(単一のゲートを完成させるために)です。国家行動カップル, or a specific situation where an action is associated with a state, then perform a simple maximization algorithm to prefer the memorized state-action pairs that led to a high reward. 例えば、私たちの仮説的なビデオゲームのゲートが次のように設定されている場合:

1989 Ph.D. 論文

次に、可能なステータスアクションのカップルは、2番目のゲートで「4」を選ぶことになります。もう1つは、2番目のゲートで「6」を選ぶことになりますが、この選択は、それは2番目のゲートの間違った数字であるため、おそらくより低い報酬につながります。 6番目のゲートを通過の報酬は1であり、それぞれの追加ゲートを通過(6番目のゲートを除く)は0.2の報酬を与えます。初期のQ学習エージェントは、おそらく最初のゲートで1〜9の数字を試してみたでしょう、2番目のゲートなどです。それは、すべての可能な結果を試みて、ステータス値のカップルの報酬を受け取って、これらのカップルの各組み合わせのすべての報酬を受けQ 価値観ウォッキンスが仮定した Q 値を最大化する方法を学ぶことで、モデルは非確率的な環境で最適な決定を下すことができます。

DeepMind Steps In

2013年、AI研究ラボ「DeepMind」の研究者らは、何がAIになるのかを発表しました。ランドマーク・ペーパー彼らの論文は、強化学習(RL)モデルとして知られるようになる最も重要なタイプの1つを導入することを意味します。Deep-Q ネットワーク(DQN) 研究者らは、Q Learning を使用してエージェントを訓練する能力を認めたが、ワトキンスのシステムにはいくつかの問題があったと指摘した。すべて可能なステータスアクションのカップルは、何百万もの決定の組み合わせを持つ複雑なゲームでは機能しません。第二に、単純な最大化機能は、より複雑なゲームが持っている傾向があるため、機能しません。地元最大化ラジオゲームの報酬は、プレイヤーがゴールに向かって合計で乗り越える長さによって定義されます。ウォッキンのRLエージェントが発見した最初のQ値のカップルが死んだエンドである場合、それはよりよく知らないので、その死んだエンドを訪問し続けるでしょう。

ランドマーク・ペーパー

DeepMindのチームは、両方の問題を賢く解決しました. すべてのオプションを実行するための計算コストを軽減するために、彼らはオプションを導入しました。エピソン・グレディこの方法は、ギリシャ語の文字Epsilon(Ɛ)にちなんで名付けられ、ワトキンの貪欲な政治常に最高の報酬を求めて行き、探検政策アイデアは、各州で、エージェントは探索するチャンス(ランダムにアクションの1つを選択)と、貪欲なポリシーによって定められた最大Q値に従う1 - Ɛのチャンスを持っているということです。あなたが正式な説明に入っていない場合、これは基本的にモデルが時々新しいアクションを試す確率を持っていることを意味し、エージェントが最大化に焦点を当てることによって多くの時間を節約する有用な行動(低価値のステータスアクションのカップルを省略することができるように)と同時に意思決定の柔軟性を可能にする(エージェントがローカルマクシマに閉じ込めないように)。

たとえば、エージェントがゲームを終える過程にいる場合、特定の行動が直接より良い結果につながることをどのように知ることができますか? あなたが3つのポインターを作る前に手を叩いただけでは、ショットが進んだことを意味しません。なぜならエージェントは?エージェントは?エージェントは?予言DeepMindは、彼らが「国家行動のカップルとの間の相関関係を破る」と呼ぶ新しい方法を導入しました。Q ネットワークQ ネットワークは、基本的に完全な DQN 内部のコンパクトな Machine Learning モデルです。Q ネットワークの唯一の仕事は、エージェントの経験から学ぶことです。予言ゲートとパスワードの事例に戻り、訓練を受けたQネットワークは、それぞれのゲートで正しい数を推測する代わりに、より高い予測されたQ値を生成します。体験再生ネットワークは、エージェントが環境から受け取る一連のデータに訓練され、その結果、Q値をよりよく予測し、したがってエージェントに与える「アドバイス」においてより効果的であるように、その重量を調整することができる。

All the World’s a Game…

Reinforcement Learningは、その最も純粋な形で多くの進歩を遂げてきました。DeepMindは、2014年にGoogleによって買収された後、開発を続けました。アルファゼロ史上最も有名なRLモデルの一つで、確率分布モデルを用いて訓練された。Monte Carlo Tree Search(MCTS)アルゴリズムにより、AlphaZeroチームは、オリジナルのAlphaZeroモデルの変数を、以下を含む他の複雑なタスクに一般化した。

アルファゼロモンテカルロの木を探す

AlphaGoは、世界の統治下のゴーチャンピオン、リー・セドールを決定的に打ち負かし、これまでで最も複雑なボードゲームの1つと考えられていたゲームで世界を衝撃にした。
オリンピックの数学の問題を解決することに専念したバージョンであるAlphaProofは、LEANの公式化された証拠に基づいて動作し、シミュレート国際数学オリンピック(IMO)ベンチャーテストでシルバーを獲得しました。
開発チームが2024年にノーベル生物学賞を受賞したAlphaFoldは、分子生物学の最も複雑な側面の1つであるタンパク質の折りたたみにおける突破を達成しました。

強化学習のコンセプトは、人生について私たちに多くのことを教えています:何が最も価値のあるものなのかを把握し、行動を通じてその価値を達成しようとします。何かがうまくいかない場合は、働くまで別の何かを試してみてください。人間はしばしば私たちが設計しているシステムの細かい点を無視し、それが私が強化学習をとても愛する理由です。そんなシンプルで明るいもののために、その可能性は(皮肉的に)人類の性質によって制限されています。RLプロセスの最も重要な部分、すなわち報酬機能の1つは、人間によって設定されています。AlphaZeroチームの業績を振り返ると、私たちはRLを使用して何ができるかを制限する要因であることが明らかです。AlphaZeroがほぼどのゲーム

世界のトップの研究者たちがやっていることだ。いいえ、そのようなことだ。私が2024年の夏に初めてRLについて学んだ時、この技術は2017年のAlphaZeroチームの勝利以来、大きな進歩を遂げていないようで、誰もがChatGPTについて話していたようで、半年にわたってテクノロジーの議論を支配してきた新しいトランスフォーマーも同じように見えた。私はRLがどれほどクールなものか、そしてそのことを忘れてしまいました。つまり、OpenAIがトランスフォーマーアーキテクチャとReinforcement Learningを組み合わせるというアイデアを抱くまで、RL-LLMs、またはReinforcement Learning-Large Language Modelsと呼ぶのが嫌なハイブリッドを作り、シンプルさのためにシンプ労働者の取問題AI業界では、私たちが以前カバーし、反対するものがあります。

労働者の取問題

この記事は、現代のメディアで一般的に議論されているものを超えてAIの視点を多様化しようとしている学生ベースと学生ベースのAI倫理組織Our AIがあなたに持って来ました。

この記事は、現代のメディアで一般的に議論されているものを超えてAIの視点を多様化しようとしている学生ベースと学生ベースのAI倫理組織Our AIがあなたに持って来ました。

Learn More

これを言うと、RLは最大の可能性に到達するまで長い道のりがあります。思考の連鎖(COT)多くの伝統的な RL モデルは、 konvergence 前に数百万回のイテレーションをトレーニングする必要があり、関連する環境が大きいか複雑すぎる場合に迅速にコストを増やし、自然言語で書かれた複雑な問題に対する解決策を一般化する場合と同様に、これを目的として、将来の RL モデルは、LLM (または RL-LLM でさえ) を活用して問題を「gamify」する可能性があります。人工知能(AGI)また、RLは世界で最も複雑な問題を解決するかもしれない...もし、それをゲームに迅速に変える方法を見つけることができれば。

思考の連鎖(COT)人工知能(AGI)

科学者が世界の問題を強化学習のゲームに変えた方法

長すぎる; 読むには

Wisdom Comes from Within

DeepMind Steps In

All the World’s a Game…

Learn More

About Author

ラベル

この記事は...

Categories

Trending Topics

科学者が世界の問題を強化学習のゲームに変えた方法

長すぎる; 読むには

Wisdom Comes from Within

DeepMind Steps In

All the World’s a Game…

Learn More

About Author

ラベル

この記事は...

関連ストーリー

Categories

Trending Topics