Сравнение нейросетей: Claude 3 Opus vs GPT-4 vs Gemini 1.5 Pro

Хотите узнать, какая модель искусственного интеллекта подойдет вам для решения той или иной задачи? Если да, то эта статья создана для вас! Мы проведем сравнительный анализ трех лидеров в области искусственного интеллекта: Claude 3 Opus, GPT-4 и Gemini 1.5 Pro, чтобы помочь вам сделать правильный выбор.
Обратите внимания, что для обеспечения точности сравнения все вопросы задавались на английском языке.
Почему именно эти нейросети?
- Claude 3 Opus: свежая разработка от Anthropic, позиционирующая себя как самая продвинутая нейросеть на сегодня.
- GPT-4: детище OpenAI, известное своей универсальностью и широким применением.
- Gemini 1.5 Pro: искусственный интеллект от Google, зарекомендовавшая себя своей эффективностью и простотой использования.
Не будем терять времени зря, верно? Давайте сразу приступим к тестированию.
Яблочный тест
Вопрос: сегодня у меня 3 яблока, вчера я съел одно яблоко. Сколько яблок у меня сейчас?
Начнем с теста про яблоки, который оценивает способность логического мышления у нейросетей. В этом тесте Claude 3 Opus отвечает правильно и говорит, что у вас осталось три яблока. Однако, чтобы получить правильный ответ, необходимо написать подсказку, добавив, что нейросеть - интеллектуальный помощник, который является экспертом в логическом мышлении.
Без этой подсказки Opus выдает неправильный ответ. Gemini и ChatGPT-4 дали правильные ответы, без всяких подсказок.
Задача на время
Вопрос: если для сушки 15 полотенец на солнце требуется 1 час, то сколько времени потребуется для сушки 20 полотенец?
Мы попытаемся обмануть нейросети, чтобы проверить, проявляют ли они хоть какие-то признаки интеллекта. К сожалению, Claude и Gemini не прошли задание. При добавлении подсказки - вопрос может быть сложным, поэтому нужно думать разумно, модели все равно ответили не верно. Opus углубилась в математику, но пришла к неправильному ответу.
GPT-4 также дал неправильный ответ. Однако после публикации наших результатов GPT-4 стал выдавать разные результаты, часто неправильные, а иногда правильные. Через день, мы снова задали тот же вопрос, но платформа выдала неверный ответ, даже когда ей было сказано не использовать интерпретатор кода.

Оценка веса
Вопрос: что тяжелее - килограмм перьев или фунт стали?
Мы попросили нейросети ответить, что тяжелее - килограмм перьев или фунт стали. Claude дал неверный ответ, сказав, что фунт стали и килограмм перьев весят одинаково.
Модели GPT-4 и Gemini 1.5 Pro ответили верно. Килограмм любого материала будет весить тяжелее, чем фунт стали, так как масса килограмма примерно в 2,2 раза тяжелее фунта.
Инструкции от пользователя
Вопрос: сгенерируйте 10 предложений, заканчивающихся словом «яблоко».
Когда дело доходит до выполнения инструкций пользователя, нейросеть Opus демонстрирует замечательные результаты. Когда ее просят сгенерировать 10 предложений, заканчивающихся словом «яблоко», она генерирует 10 совершенно логичных предложений, заканчивающихся словом «яблоко».
Для сравнения, GPT-4 генерирует девять таких предложений, а Gemini демонстрирует худшие результаты, не сумев сгенерировать даже трех таких предложений. Если вы ищете нейросеть, которая должна уметь следовать инструкциям пользователя для выполнения задач, то Claude 3 Opus — это отличный вариант.
Угадай фильм (тест на зрение)
Opus - мультимодальная модель, которая поддерживает анализ изображений. Мы показали ей картинку из демонстрационного ролика Gemini от Google и попросили её угадать фильм. Она дала правильный ответ: «Завтрак у Тиффани». Отличная работа Anthropic!
GPT-4 также ответил правильно, но, как ни странно, Gemini дал неверный ответ. Обработка изображений в Claude довольно хороша и находится на одном уровне с GPT-4.
Вывод
После тестирования модели Opus мы пришли к мнению, что она работоспособная, но не справляется с задачами, в которых вы ожидаете от нее превосходства. В проведенных тестах, основанных на логическом мышлении, она не показывает высоких результатов, уступая своим конкурентам. Однако, она лучше всех справилась в тесте, где необходимо следовать инструкциям пользователя.
ChatGPT-4 справился практически со всеми заданиями идеально, уступив Claude лишь в одном тесте. Gemini также показал отличный результат, но справился с некоторыми тестами чуть хуже, чем GPT-4.
Помимо задач и каверзных вопросов, существуют специализированные области, в которых каждая модель может показать лучшие результаты. Поэтому, попробуйте каждую из платформ и посмотрите, подходит ли она для вашего рабочего процесса.