Первый уровень сравнения нейросетей – спросить у ChatGPT и Алисы по случайному запросу. Один ответ понравится, другой нет, ну вот значит и понятно, кто молодец, а кто отстой.
Второй уровень сравнения нейросетей – LMSYS Chatbot Arena. Тысячи людей вводят свои вопросы, две нейросети им отвечают, пользователь определяет лучший ответ, не зная, кто его дал. Статистика побед и поражений агрегируется, возникает красивый рейтинг. В эту секунду лидер – GPT-4o, но Sonnet не так уж далеко.
Третий уровень сравнения – #стартапдня Artificial Analysis. Он собрал и поддерживает с десяток таблиц, показывающих сильные и слабые стороны нейросетей. Кроме трансляции данных с Арены проект выводит результаты других тестов – например, по умению программировать. Кроме того, он следит за ценами API и мониторит его скорость – и там тоже много чего интересного. Llama-3, например, в исполнении Groq в 10 раз дешевле и в 10 раз быстрее, чем на Microsoft Azure.
Монетизации у Artificial Analysis нет, и, наверное, никогда не будет. Но спасибо основателям сказать можно.
https://artificialanalysis.ai/
Второй уровень сравнения нейросетей – LMSYS Chatbot Arena. Тысячи людей вводят свои вопросы, две нейросети им отвечают, пользователь определяет лучший ответ, не зная, кто его дал. Статистика побед и поражений агрегируется, возникает красивый рейтинг. В эту секунду лидер – GPT-4o, но Sonnet не так уж далеко.
Третий уровень сравнения – #стартапдня Artificial Analysis. Он собрал и поддерживает с десяток таблиц, показывающих сильные и слабые стороны нейросетей. Кроме трансляции данных с Арены проект выводит результаты других тестов – например, по умению программировать. Кроме того, он следит за ценами API и мониторит его скорость – и там тоже много чего интересного. Llama-3, например, в исполнении Groq в 10 раз дешевле и в 10 раз быстрее, чем на Microsoft Azure.
Монетизации у Artificial Analysis нет, и, наверное, никогда не будет. Но спасибо основателям сказать можно.
https://artificialanalysis.ai/