Hao AI Lab е изследователска група към Калифорнийския университет в Сан Диего. Учените ѝ са тествали изкуствен интелект, чиято задача е била да играе Super Mario Bros на живо

Важно е да се отбележи, че не става дума за оригиналната версия на играта от 1985 г.. Вместо това, Super Mario се играе в емулатор, който е интегриран със специална AI платформа - GamingAgent.

GamingAgent дава на AI следните инструменти:

  • Основни инструкции, като:"Ако има препятствие или враг наблизо, скочи наляво, за да избегнеш сблъсък."
  • Снимки на екрана от играта.
  • Възможност да генерира Python код, който контролира движенията на Марио.

Тази система заставя AI моделите да "учат", като развиват тактики и планират сложни маневри в реално време.

Що се отнася до резултатите - най-добре се представи Claude 3.7 (разработен от Anthropic), след него се нареди Claude 3.5, а Google Gemini 1.5 Pro и OpenAI GPT-4o изпитаха сериозни затруднения.

Любопитен резултат е, че моделите с "разсъждаваща" логика, като OpenAI"s o1, се представят по-зле от моделите без такава.

Изследователите обясняват, че разсъждаващите AI модели отделят повече време за анализ - често по няколко секунди за вземане на решение. В Super Mario Bros. таймингът е всичко - една секунда закъснение може да означава, че ще паднеш в бездната.

Използването на видеоигри за тестване на AI не е новост, но някои експерти поставят под въпрос колко точно такъв тест отразява реалния свят.

Игрите са твърде "чисти" - те предлагат безкрайни данни и ясни правила, което не отразява хаотичността на реалността.

Андрей Карпати, изследовател и един от основателите на OpenAI, нарече това "криза на оценяването":

"В момента не знам на кои AI метрики да вярвам. Честно казано, не знаем колко добри са тези модели."