Рейтинг AI

Первый уровень сравнения нейросетей – спросить у ChatGPT и Алисы по случайному запросу. Один ответ понравится, другой нет, ну вот значит и понятно, кто молодец, а кто отстой.

Второй уровень сравнения нейросетей – LMSYS Chatbot Arena. Тысячи людей вводят свои вопросы, две нейросети им отвечают, пользователь определяет лучший ответ, не зная, кто его дал. Статистика побед и поражений агрегируется, возникает красивый рейтинг. В эту секунду лидер – GPT-4o, но Sonnet не так уж далеко.

Третий уровень сравнения – #стартапдня Artificial Analysis. Он собрал и поддерживает  с десяток таблиц, показывающих сильные и слабые стороны нейросетей. Кроме трансляции данных с Арены проект выводит результаты других тестов – например, по умению программировать. Кроме того, он следит за ценами API и мониторит его скорость – и там тоже много чего интересного. Llama-3, например, в исполнении Groq в 10 раз дешевле и в 10 раз быстрее, чем на Microsoft Azure.

Монетизации у Artificial Analysis нет, и, наверное, никогда не будет. Но спасибо основателям сказать можно.

https://artificialanalysis.ai/
Комментарии(0)
Комментарии (0)
Текст сообщения*
Перетащите файлы
Ничего не найдено
Авторизируйтесь, чтобы оставить комментарий.

Подпишитесь и статьи будут приходить на вашу почту

Нажимая «Отправить», я даю согласие на обработку моих персональных данных

Подписка офомлена

На адрес отправлено подтверждение