В середине 2024 года GPT-4 спотыкался на школьных задачах, а к концу 2025-го модели щёлкали олимпиадные как орехи. Полтора года, и мы преодалели дистанцию от «найди икс» до «докажи теорему». Epoch AI решили заглянуть еще дальше, и выкатили бенчмарк из задач, которые не решил вообще никто.
Четырнадцать задач — не из учебников, не из олимпиад, а из живой математики: каждую формулировал исследователь-практик, каждую пытались решить минимум двое профессионалов, каждая достойна публикации хотя бы в специализированном журнале.
Вот, например: найти полином степени 23, чьё поле разложения имеет группу Галуа M₂₃. Группа Матьё — спорадическая, одна из двадцати шести странных симметрий, которые не вписываются ни в какие серии. Для всех остальных спорадических групп такие полиномы давно известны, а для M₂₃ — нет, и это последний пробел в исследовании, которое ведут десятилетиями.
Или вот задача попроще (на первый взгляд): привести алгоритм, который определят, можно ли развязать узел за одно движение — то, что топологи называют "unknotting number равный единице". Звучит как упражнение для первокурсника, а на деле — фундаментальный вопрос низкоразмерной топологии, на который до сих пор нет ответа.
Если нейросеть решит хоть одну из этих задач, результат сразу пойдёт в рецензируемый журнал — не потому что это достижение нейросетевых технологий, а потому что долгожданный результат.
Интересно. Читать далееОсторожно: эта статья может заставить вас пересмотреть отношение к своей профессии, себе, людям вокруг. И она вам точно не понравится!
Идея статьи возникла у меня при попытке написать комментарий к этой статье в которой под конец я в очередной раз прочитал оскорбление в адрес программистов. Приведу цитату:
"Программист — часто просто исполнитель в чужом замысле".
Ох и выхвачу я сейчас минусов... Погнали!
Коллеги! А вы не пробовали посмотреть на свою работу иначе? Просто попробовать представить себе, что от того как именно вы реализуете написанное в задаче, будет что-то зависеть? Попробовать перед тем как начать бездумно фигачить код, сначала вникнуть "а что нужно человеку для которого я это пишу?". И человек этот - пользователь, а не ваш тимлид или менеджер (хотя может и они тоже).
В курсе, что почти всегда одну и ту же задачу в разработке (в администрировании и менеджменте тоже) можно решить более чем 1 способом?
Вот примеры из моей жизни (в разное время в разных компаниях было):
Проблема 1. "CRM тормозит. Надо чтоб при поднятии трубки на SIP-телефоне у того, кто трубку поднял карточка новая всплывала".
Причина: Оказалось, что почти на каждую задачу в CRM выполнялся запрос типа "select * from cards;"
И это как-то работало в тестах на 5 карточках, но через 2-3 месяца работы крупного агентства недвижимости этот запрос перестал работать быстро.
Решение: Закомментировал вызов этого запроса в той части кода которая вызывалась на событие "подняли трубку", передал отчёт (по сути ТЗ) разработчикам и они доделали так: при звонке ДО поднятия трубки делаем "select id from cards where phone=...;" и потом уже при поднятии трубки человеку отдаём карточку либо новую либо уже заполненную (id нашли до поднятия трубки).
«Страница заказов грузится вечность», — такой тикет прилетел в понедельник утром. На проде 800 тысяч записей, а типичный запрос с фильтрацией и сортировкой заставлял менеджеров ждать по 12 секунд. В этой статье разберем, почему стандартный индекс по одному полю не сработал, как EXPLAIN ANALYZE помог найти «бутылочное горлышко» и почему порядок полей в составном индексе имеет решающее значение
Читать далееВ этой статье я расскажу о полезных инструментах для работы с bag файлами в ROS2.
...
ros2_unbag
Инструмент для экспорта файлов в удобный для человека формат Позволяет извлекать данные топиков из .db3 or .mcap bag файлов в форматы такие как CSV, JSON, PCD, изображения итд.
Читать далееНа arXiv каждый день публикуются сотни статей по машинному обучению. Читать всё — нереально, а пропустить что-то важное — обидно. Andrej Karpathy, бывший Director of AI в Tesla и соавтор курса Stanford CS231n, решил эту проблему неожиданным способом.
Он выбрал не BERT, не GPT и не какой-нибудь модный трансформер. Он остановился на добром старом SVM — алгоритме, которому уже несколько десятков лет. И знаете что? Это работает настолько хорошо, что используется даже в академических системах.
В этой статье мы разберём, как устроено его решение, почему «примитивный» подход работает лучше сложных нейросетей, и когда вам тоже стоит выбрать SVM вместо трансформера. Давайте разбираться!
Читать далееНаши действия влияют на действия других. А теперь самое интересное — их реакция должна определять наш первый шаг. Как такое возможно? Проблема в том, что чем рациональнее человек рассуждает, тем чаще попадает в ловушки. Можно ли так менять правила игры, чтобы выигрывать еще до начала партии?
Что ж, попробуем в этом разобраться.
Меня зовут Костя Дубровин. Я веду канал про книги.
Разобраться