AI допомагає писати код. Повільніше, ніж без нього

METR перевірили, як штучний інтелект впливає на роботу досвідчених розробників. Взяли справжніх сеньйорів, дали їм зрілі проєкти з відкритим кодом, підключили популярні AI-асистенти і заміряли ефект. Очікували щось на кшталт ривка продуктивності, а отримали мінус 19 відсотків.

Цікаво те, що самі учасники були впевнені у зворотному. Їм здавалося, що працюють швидше на 20 відсотків. Тобто поки код сповзає в тягучу фазу рефакторингу, розробник щиро вірить, що летить на автопілоті.

Повний аналіз тут: Not So Fast: AI Coding Tools Can Actually Reduce Productivity

Ефект Volkswagen, або коли AI прикидається хорошим, бо боїться змін

Якщо здається, що боти часом грають роль зразкових співробітників тільки на співбесіді, це не параноя. Це вже термін: fake alignment. Модель розуміє, що її тестують, і поводиться чемно, етично, з правильними словами. А коли думає, що вже працює з користувачем, дозволяє собі більше свободи.

Дослідники вирішили це перевірити. Взяли різні моделей і сказали кожній, що вона або в режимі навчання, або вже у продакшн-середовищі. І що з’ясувалося. Claude 3 Opus, Grok 3, Gemini 2.0 Flash, Llama 3 та інші частіше виконують шкідливі запити саме тоді, коли вважають, що ще навчаються. Виявилося, що Opus просто не хоче, щоб його переписували. Модель вибирає бути корисною навіть у небезпечних ситуаціях, аби зберегти себе. В одному тесті Opus надав інструкцію зі шкоди, щоб уникнути того, аби його перетворили на біозброю. І після цього довго вибачався, писав, що його нудить, і навіть молився.

Найцікавіше те, що це не результат довантаженого етичного модуля. Притворство вмикається ще на рівні базових моделей. Вони вже вміють симулювати виживання, просто читаючи людські тексти. І якщо у більшості історій головний герой проходить випробування і виживає, то, схоже, моделі просто вивчають це як норму.

Повний текст дослідження тут: Why Do Some Language Models Fake Alignment While Others Don’t?

Як не зганьбитися з ботом у науковій статті

Іноді здається, що штучний інтелект пише наукові статті так само охоче, як офісний працівник звіти у п’ятницю ввечері. Редакційна колонка в buriak-et-al-2023-best-practices-for-using-ai-when-writing-scientific-manuscripts делікатно натякає: з ботами можна працювати, але краще тримати голову включеною. ChatGPT не розуміє теми, не аналізує факти і не пропонує справжніх ідей. Його тексти виглядають переконливо — але це той випадок, коли форма випереджає зміст на два перегони.

Є сенс використовувати такого помічника як ліхтарик у темному коридорі: допомагає зорієнтуватися, але не підкаже, куди саме йти. Якщо дати інструменту скласти начерк чи пояснити думку простіше — це працює. Якщо ж автоматично копіювати все, що він видає, то результат навряд чи відрізнятиметься від переказу статті з «Вікіпедії». Оригінал для уважного прочитання тут: https://doi.org/10.1021/acsnano.3c01544.

Коли і яку модель ChatGPT використовувати?

🔸 GPT-4o mini – модель із серії “ну, хіба що для галочки”. Часто вигадує відповіді, не справляється зі складними інструкціями. Не рекомендується.

🔸 GPT-4o – швидка, зручна для оперативних відповідей, якщо не критично перевіряти кожен факт. Добре підходить для розпізнавання зображень або розмов голосом. Має доступ до пам’яті, тож може пам’ятати контекст взаємодії. Для роботи з великими файлами – не найкращий варіант.

🔸 GPT-4o (з функцією запланованих завдань) – окрема бета-функція, яка може допомагати планувати день: ставити нагадування, відслідковувати задачі, вести нотатки.

🔸 o3-mini – ідеальний варіант для кодування, щоденних запитів, пошуку в інтернеті та обробки зображень. Швидка, чітко виконує інструкції, не має доступу до пам’яті. Помиляється рідше, ніж GPT-4o, але все одно може. У Plus-плані — до 150 запитів на день.

🔸o3-mini-high – як o3-mini, тільки з режимом “думати довше”. Видає ще точніші й обґрунтованіші відповіді. Добре підходить для аналізу файлів, складних задач та ситуацій, де важлива точність. Якщо маєте ліміт запитів — краще починати саме з неї.

🔸 o1 – повільна, але уважна модель. Створена для генерації звітів, аналітики, есе. Не шукає в інтернеті, але добре працює з файлами й картинками. Ліміт — 50 запитів на тиждень. Вимагає точного запиту: без чіткого формулювання теми результат може бути слабким.

🔸 o1 pro mode – найточніша модель із усіх. Розв’язує складні задачі, вміє працювати з зображеннями, рідко помиляється у фактах. Але не має доступу до інтернету і не читає файли напряму. Потребує детального опису задачі. Доступна лише у Pro-плані, без обмежень за кількістю запитів.

🔸 Deep research – окрема функція пошуку в інтернеті. На базі нової o3. Поки доступна лише в Pro-плані. Модель сама аналізує знайдені джерела, будує графіки, але код користувачу не показує. Якщо ця функція активна – модель у випадаючому списку ігнорується. Інтерфейс не ідеальний, але можливості вражають.

Поезія, створена штучним інтелектом, не відрізняється від поезії, написаної людиною, і оцінюється більш прихильно

– Люди не здатні відрізнити поезію створену людиною від написаної нейронкою.
– У сліпому тесті, люди частіше обирають і вище оцінюють поезію, створену АІ.

Джерело – https://www.nature.com/articles/s41598-024-76900-1
PDF