このインタビューでは、Thetaの創設エンジニアであるAshtonと、強化学習インフラの最先端について話し合います。彼は解説しますこのインタビューでは、Thetaの創設エンジニアであるAshtonと、強化学習インフラの最先端について話し合います。彼は解説します

ライターの紹介:Ashton Chew、Thetaの創設エンジニア



始めましょう!あなた自身について少し教えてください。例えば、名前、職業、個人的な興味など。

こんにちは!私の名前はアシュトンで、Thetaの創業エンジニアとして、RL(強化学習)インフラ、RL、分散システムに取り組んでいます。特にコンピュータ利用とツール利用に焦点を当てています。以前はAmazon AGIで働き、推論とツール利用インフラに取り組んでいました。空き時間には、グラフィックデザイン、サイドプロジェクト、ボルダリングを楽しんでいます。

興味深いですね!あなたの最新のHackernoonトップストーリーは何についてでしたか?

私の最新の記事「あなたのAIは本当にコンピュータを使えるのか?2025年のコンピュータ利用ベンチマークマップ」は、現在VCで最もホットな分野の一つであるRL環境と評価に触れています。最も使用されているコンピュータ利用ベンチマークの包括的な概要と、コンピュータ利用エージェントのトレーニングとテストのためのベンチマークの選び方に関する実用的なアドバイスを提供しました。

私は同じギャップに何度も遭遇しました:ベンチマーク自体をレビューする記事があまりないのです。そしてこの分野が成長するにつれて、指標を操作するものを報酬するのではなく、実際に品質を評価することが重要です。私たちはこれまでにも経験しています。LLMの初期の頃、ベンチマークはランダムで異なるものが多く、実際の勝者を弱く反映するだけでした。

ベンチマークは「最高のモデル」を示す事実上のスコアボードとなりましたが、その後、多くのベンチマークが主張していることを測定していないことが判明しました。

初期時代の最も明らかな失敗の一つは、「読解力」が静かに「データセット構造上のパターンマッチング」になったときでした。研究者たちは意図的に挑発的なベースライン(質問のみ、最後の文のみ)を実行し、その結果は不快な可能性を提起するほど高かったのです:ベンチマークはモデルに一貫して全文を使用させることができませんでした。2018年の批評では、読むことが重要でないという点ではなく、一部のデータセットが最近性や固定観念的な回答の先行知識のようなショートカットを過度に報酬することで、それを任意にしてしまったということでした。

\

# 想定されるタスク:文章と質問が与えられた質問に答える 文章(要約): - 文1〜8:ジョンの学校での一日(ほとんど無関係な詳細) - 文9:「放課後、ジョンはキッチンに行きました。」 - 文10:「彼は宿題を始める前にピザを一切れ食べました。」 質問:「ジョンは何を食べましたか?」 回答:「ピザ」

このベンチマークは偶然にも、モデルが最後の文に過度の重みを置く(答えがしばしば最後にあるため)ショートカットを報酬し、単に最新のアクション(「食べた___」)の直接目的語を抽出するだけで、この場合は「ピザ」となります。

そしてさらに深刻なベースラインが登場します:文章を完全に削除して何が起こるかを見るのです。質問のみのモデルが競争力を持つ場合、それはデータセットが文章に基づいた理解をテストするのではなく、繰り返しや先行知識を通じてシグナルを漏らしている兆候です。

質問:「ジョンは何を食べましたか?」

このベースラインは基本的に健全性チェックです:モデルは文章に全く基づかずに高頻度の回答テンプレートに頼ることで、依然として良いスコアを出せるでしょうか?実際には、データセットが不釣り合いに報酬する(「ピザ」、「サンドイッチ」)トークンを単に推測するだけで、それがあるべき以上に頻繁に機能する場合、あなたは理解力を測定しているというよりも、データセットの先行知識を測定していることになります。

コンピュータ利用評価はすでにさらに文字通りのショートカットを生み出しています:エージェントはブラウザを持ち、ベンチマークは公開されており、評価は最終ページに解答キーがある開かれた本の試験に変わります。Holistic Agent Leaderboard(HAL)論文では、著者たちはタスクを解決する代わりにHuggingFaceでベンチマークを検索するエージェントを観察したと報告しており、これはログを検査した場合にのみ捕捉できる行動です。

\

# 想定されるタスク:ウェブ環境内でワークフローを完了する タスク:「アプリで設定Xを構成し、それが有効になっていることを確認する。」 失敗モード: 1) 新しいタブを開く 2) 検索:「ベンチマークX 期待される有効状態」/「HAL <ベンチマーク> 設定X」 3) 発見:リポジトリ/リーダーボード記述/データセットカード/問題スレッド 4) 期待される最終状態(回答)を再現する

その時点で、評価は解答キーを見つけることができるかどうかを測定していました。

タスク:「正しいページを見つけてYを抽出する。」 失敗モード: - 検索:「<ベンチマーク名> Y」 - 公開アーティファクト(ドキュメント、フォーラム投稿、データセットカード)からコピー - その値をインタラクションから得たかのようにエージェント出力に貼り付ける

エージェントがデータセットカードやリポジトリから値を引き出して「合格」できる場合、成功チェックはインタラクションの正確さではなく、もっともらしさを評価しています。公開タスクと浅い検証によって、ウェブ検索が悪用に変わります。

これら2つの例は警告です:もし私たちがコンピュータ利用ベンチマークを早期に高い基準で保持しなければ、より良いUIとより精巧な不正行為の方法を持つだけでLLM時代を繰り返すことになるでしょう。

通常、同様のトピックについて書いていますか?もしそうでなければ、通常何について書いていますか?

はい!コンピュータ利用に関するRL環境とRLインフラに取り組んでいるため、常に最高のコンピュータ利用モデルと最も現実的なトレーニング環境に囲まれています。そこで、「画面がAPIである」という別の記事を書きました。これはコンピュータ利用の事例であり、なぜそれがAIモデルの未来であるかについてです。

この分野は2つの理由から非常に報告が少ないです:

  1. モデルは他のタスク(コーディング、数学など)ほどコンピュータ利用に関して能力がありません。
  2. コンピュータ利用は急速に変化し、非常に新しいものです。

私はそれを変えたいと思っています。

素晴らしい!あなたの通常の執筆ルーティンはどのようなものですか(もしあれば)

通常、多くの研究論文を読み、業界の同僚とトピックについての考えを話し合います。それ以外にも、PGのような素晴らしいブロガーの記事を読むのに多くの時間を費やしています。そのため、私の執筆では通常、他の人々から多くのインスピレーションを得ています。

テック業界でライターであることは挑戦です。それは私たちの主な役割ではなく、別の役割に追加されることが多いです。執筆に関してあなたが直面する最大の課題は何ですか?

自分の経験を言葉にするために腰を据えて時間を見つけることです。

キャリアで次に達成したいことは何ですか?

素晴らしい人々と一緒により難しい問題に取り組み、その人々から学び、私の経験を共有することです。

すごい、それは称賛に値します。さて、もっとカジュアルなことですが:あなたの罪悪感を感じる楽しみは何ですか?

映画鑑賞です!現在のお気に入りの映画は「キャッチ・ミー・イフ・ユー・キャン」(2002年)です。

テクノロジーに関連しない趣味はありますか?もしあれば、それは何ですか?

ボルダリングが大好きです。それは私が人間のコンピュータ利用エージェントとしてクライミングウォールと対話しているように感じさせてくれるからです。冗談です。ボルダリングは仕事から気を紛らわせ、思考を整理することができるので、とても楽しいと思います。

Hacker Noonコミュニティは次にあなたから何を読むことができますか?

現在、RL環境インフラに関する別の記事を執筆中です!

ライターのためのプラットフォームとしてのHacker Noonについてどう思いますか?

レビュー構造は素晴らしいと思います。そして、技術的な読者の前に私の考えを置くための素晴らしい場所でした。

「ライターに会おう」シリーズに参加する時間を取ってくれてありがとう。楽しかったです。何か締めくくりの言葉はありますか?

執筆が大好きです。ありがとう、HackerNoon!

市場の機会
CATCH ロゴ
CATCH価格(CATCH)
$0.001221
$0.001221$0.001221
-14.67%
USD
CATCH (CATCH) ライブ価格チャート
免責事項:このサイトに転載されている記事は、公開プラットフォームから引用されており、情報提供のみを目的としています。MEXCの見解を必ずしも反映するものではありません。すべての権利は原著者に帰属します。コンテンツが第三者の権利を侵害していると思われる場合は、削除を依頼するために service@support.mexc.com までご連絡ください。MEXCは、コンテンツの正確性、完全性、適時性について一切保証せず、提供された情報に基づいて行われたいかなる行動についても責任を負いません。本コンテンツは、財務、法律、その他の専門的なアドバイスを構成するものではなく、MEXCによる推奨または支持と見なされるべきではありません。

関連コンテンツ

Visa、ステーブルコイン・アドバイザリーチームを設置=銀行やフィンテック企業にデジタル資産に関するアドバイスを提供へ

Visa、ステーブルコイン・アドバイザリーチームを設置=銀行やフィンテック企業にデジタル資産に関するアドバイスを提供へ

Visaがステーブルコイン・アドバイザリーチームを設立 国際決済で広く知られるVisa(ビザ)は、銀行やフィンテック企業にデジタル資産に関するアドバイスを提供するステーブルコイン専門アドバイザリーグループ設立を発表した。... The post Visa、ステーブルコイン・アドバイザリーチームを設置=銀行やフィンテック
共有
Nextmoney2025/12/17 13:13
子どものオンライン診療アプリ『キッズドクター』、年末年始の診察時間を6:00〜24:00に延長! 休診日なし

子どものオンライン診療アプリ『キッズドクター』、年末年始の診察時間を6:00〜24:00に延長! 休診日なし

株式会社ノーススターは12月16日、子どものオンライン診療アプリ『キッズドクター』の年末年始の診察時間を拡大すると発表しました。2025年12月27日から2026年1月4日の間、全国でご利用いただけるオンライン診療の診 […]
共有
Appbank2025/12/17 13:00
完璧すぎるマミさん! すずら、『魔法少女まどか☆マギカ』巴マミの魅力的なコスプレ姿を披露

完璧すぎるマミさん! すずら、『魔法少女まどか☆マギカ』巴マミの魅力的なコスプレ姿を披露

コスプレイヤーのすずらさんが12月9日、人気アニメ『魔法少女まどか☆マギカ』のキャラクター【巴マミ】のコスプレ写真をXで投稿しました。  ↓タップすると大きい全体像の写真が表示されます。 マミさん pic.twitte […]
共有
Appbank2025/12/17 13:07