Hao AI Lab е изследователска група към Калифорнийския университет в Сан Диего. Учените ѝ са тествали изкуствен интелект, чиято задача е била да играе Super Mario Bros на живо.
Важно е да се отбележи, че не става дума за оригиналната версия на играта от 1985 г.. Вместо това, Super Mario се играе в емулатор, който е интегриран със специална AI платформа - GamingAgent.
GamingAgent дава на AI следните инструменти:
- Основни инструкции, като:"Ако има препятствие или враг наблизо, скочи наляво, за да избегнеш сблъсък."
- Снимки на екрана от играта.
- Възможност да генерира Python код, който контролира движенията на Марио.
Тази система заставя AI моделите да "учат", като развиват тактики и планират сложни маневри в реално време.
Що се отнася до резултатите - най-добре се представи Claude 3.7 (разработен от Anthropic), след него се нареди Claude 3.5, а Google Gemini 1.5 Pro и OpenAI GPT-4o изпитаха сериозни затруднения.
Любопитен резултат е, че моделите с "разсъждаваща" логика, като OpenAI"s o1, се представят по-зле от моделите без такава.
Изследователите обясняват, че разсъждаващите AI модели отделят повече време за анализ - често по няколко секунди за вземане на решение. В Super Mario Bros. таймингът е всичко - една секунда закъснение може да означава, че ще паднеш в бездната.
Използването на видеоигри за тестване на AI не е новост, но някои експерти поставят под въпрос колко точно такъв тест отразява реалния свят.
Игрите са твърде "чисти" - те предлагат безкрайни данни и ясни правила, което не отразява хаотичността на реалността.
Андрей Карпати, изследовател и един от основателите на OpenAI, нарече това "криза на оценяването":
"В момента не знам на кои AI метрики да вярвам. Честно казано, не знаем колко добри са тези модели."