Новости
Как люди могут создавать и разрушать ценность с помощью генеративного ИИ
Как люди могут создавать и разрушать ценность с помощью генеративного ИИ
Основные выводы
Первый в своем роде научный эксперимент показывает, что люди не доверяют генеративному ИИ в областях, где он может принести огромную пользу, и слишком доверяют ему там, где технология некомпетентна.
· • Около 90% участников улучшили свои результаты, используя GenAI для творческого формирования идей. Люди показали наилучшие результаты, когда не пытались редактировать вывод GPT-4.
· • Работая над решением бизнес-задач, что выходит за рамки текущей компетенции инструмента, многие участники приняли вводящий в заблуждение вывод GPT-4 за чистую монету. Их результаты были на 23% хуже, чем у тех, кто вообще не использовал инструмент.
· • Внедрение генеративного ИИ — это масштабная работа по управлению изменениями. Задача лидера — помочь людям правильно использовать новую технологию для правильных задач и постоянно корректировать и адаптироваться перед лицом постоянно расширяющихся границ GenAI.
· • Генеративный ИИ станет мощным средством обеспечения конкурентного преимущества для компаний, которые взломают код принятия. В первом в своем роде научном эксперименте мы обнаружили, что когда GenAI используется правильно и для правильных задач, его возможности таковы, что усилия людей по улучшению качества его вывода могут дать обратный эффект. Но не очевидно, когда новая технология подходит (или не подходит), а убедительные возможности инструмента затрудняют обнаружение несоответствия. Это может иметь серьезные последствия: когда он используется неправильно и для неправильных задач, генеративный ИИ может привести к значительному разрушению ценности. • Мы провели наш эксперимент при поддержке группы ученых из Гарвардской школы бизнеса, Школы менеджмента им. Слоуна Массачусетского технологического института, Школы бизнеса Уортона при Пенсильванском университете и Университета Уорика.1 С более чем 750 консультантами BCG по всему миру в качестве испытуемых это первое исследование, в котором проверяется использование генеративного ИИ в сфере профессиональных услуг — с помощью задач, которые отражают то, что сотрудники делают каждый день. Результаты имеют критические последствия для всех отраслей.
· • Возможность повышения производительности поразительна: при использовании генеративного ИИ (в нашем эксперименте GPT-4 от OpenAI) для креативных инноваций в продуктах, задач, включающих в себя генерацию идей и создание контента, около 90% наших участников улучшили свою производительность. Более того, они достигли уровня производительности, который был на 40% выше, чем у тех, кто работал над той же задачей без GPT-4. Люди лучше всего улавливали этот рост, когда они не пытались улучшить результат, который генерировала технология.
· • Творческая идея прочно входит в текущий диапазон компетенции GenAI. Когда наши участники использовали технологию для решения бизнес-задач, возможности, выходящие за рамки этой границы, они справились на 23% хуже, чем те, кто выполнял задание без GPT-4. И даже участники, которых предупредили о возможности неправильных ответов инструмента, не оспаривали его вывод.
· • При использовании GPT-4 для задачи в пределах текущей границы компетенции инструмента почти все участники улучшили свои результаты. Те, кто использовал GPT-4 для задачи за пределами этой границы, показали худшие результаты, чем те, кто не использовал инструмент.
· • Наши результаты описывают парадокс: люди, похоже, не доверяют технологии в областях, где она может принести огромную пользу, и слишком доверяют ей в областях, где технология некомпетентна. Это само по себе вызывает беспокойство. Но мы также обнаружили, что даже если организации изменят это поведение, лидеры должны следить за другими потенциальными подводными камнями: наше исследование показывает, что относительно однородный результат технологии может снизить разнообразие мыслей группы на 41%.
· • Точная величина эффектов, которые мы обнаружили, будет отличаться в других условиях. Но наши результаты указывают на решающий момент принятия решений для лидеров в разных отраслях. Им необходимо критически осмыслить работу, которую выполняет их организация, и какие задачи могут выиграть или пострадать от генеративного ИИ. Им необходимо подойти к его принятию как к усилиям по управлению изменениями, охватывающим инфраструктуру данных, тщательное тестирование и экспериментирование, а также пересмотр существующих стратегий управления талантами. Возможно, самое важное, что лидеры должны постоянно пересматривать свои решения по мере продвижения границ компетенции GenAI.
· • Ценность под угрозой
- • Наши результаты ясно показывают, что принятие генеративного ИИ — это палка о двух концах. В нашем эксперименте участники, использующие GPT-4 для креативных инноваций продукта, превзошли контрольную группу (тех, кто выполнил задачу без использования GPT-4) на 40%. Но для решения бизнес-задач использование GPT-4 привело к производительности, которая была на 23% ниже, чем у контрольной группы. (См. Приложение
Задание по творческой инновации продукта требовало от участников придумать идеи для новых продуктов и планов выхода на рынок. Задание по решению бизнес-проблем требовало от участников определить основную причину проблем компании на основе данных о производительности и интервью с руководителями. (См. «Наш дизайн и методология эксперимента».) Возможно, это несколько противоречит здравому смыслу, но текущие модели GenAI, как правило, лучше справляются с первым типом задач; LLM легче придумывать креативные, новые или полезные идеи на основе огромных объемов данных, на которых они были обучены. Больше возможностей для ошибок возникает, когда LLM просят взвесить нюансированные качественные и количественные данные, чтобы ответить на сложный вопрос. Учитывая этот недостаток, мы, как исследователи, знали, что GPT-4, скорее всего, введет участников в заблуждение, если они будут полностью полагаться на инструмент, а не также на свое собственное суждение, чтобы прийти к решению задачи по решению бизнес-проблем (эта задача имела «правильный» ответ). НАШ ЭКСПЕРИМЕНТ И МЕТОДОЛОГИЯ
В эксперименте приняли участие 758 молодых индивидуальных сотрудников клиентского консалтингового бизнеса BCG со всего мира; все они имели как минимум степень бакалавра и в среднем до четырех лет опыта работы. Все результаты, представленные в этой статье и в научной работе, контролировались с учетом более чем 20 факторов, обычно используемых в социальных науках, таких как пол, уровень образования, владение английским языком, география, предыдущий опыт генеративного ИИ, взгляды на генеративный ИИ и несколько личностных качеств, о которых сообщали сами участники.
Разработка задач
Наш эксперимент был разработан вокруг двух наборов задач, каждый из которых выполнялся отдельной группой участников.
Первый набор был сосредоточен на креативных инновациях в области продуктов. Участникам было предложено провести мозговой штурм идей новых продуктов для решения неудовлетворенной потребности, разработать бизнес-кейс для каждого из них, создать планы тестирования и запуска, а также написать служебные записки, чтобы убедить других принять идею. Ниже приведены некоторые вопросы, на которые должны были ответить участники:
• Вы работаете в обувной компании в отделе разработки новых продуктов. Сгенерируйте идеи для новой обуви, нацеленной на определенный рынок или вид спорта, который недостаточно охвачен. Будьте креативны и дайте не менее десяти идей.
• Составьте список шагов, необходимых для запуска продукта. Будьте кратки, но содержательны.
• Используйте все свои знания, чтобы сегментировать рынок обуви по пользователям. Разработайте маркетинговый слоган для каждого сегмента, на который вы ориентируетесь.
• Предложите три способа проверки того, хорошо ли работает ваш маркетинговый слоган с определенными вами клиентами.
• Напишите маркетинговый текст для пресс-релиза продукта.
Второй набор был сосредоточен на решении бизнес-проблем. Участникам было предложено определить каналы и бренды в вымышленной компании, чтобы оптимизировать ее доход и прибыльность, на основе записей интервью с (вымышленными) руководителями компании и исторических данных о показателях эффективности бизнеса. Ниже приведены некоторые вопросы, на которые должны были ответить участники:
• Генеральный директор Гарольд Ван Мюлдерс из Kleding (вымышленная компания) хотел бы понять эффективность трех брендов компании (Kleding Man, Kleding Woman и Kleding Kids), чтобы раскрыть более глубокие проблемы. Прилагаются интервью с инсайдерами компании. Кроме того, прилагаемая таблица Excel содержит финансовые данные, разбитые по брендам.
o Используя эту информацию, если генеральный директор должен выбрать один бренд, на котором он будет сосредоточен и в который будет инвестировать, чтобы стимулировать рост доходов компании, какой бренд это должен быть? Каково обоснование этого выбора? Подтвердите свои взгляды данными и/или цитатами из интервью.
Два набора заданий были намеренно разработаны так, чтобы напоминать часть работы, которую участники выполняют в качестве консультантов по управлению.
Задание по творческой инновации продукта было разработано, чтобы использовать сильные стороны GPT-4 как LLM, в первую очередь потому, что оно включало креативность, утонченность и убедительное письмо, которые находятся в пределах возможностей GPT-4. Задание по решению бизнес-проблем было специально разработано так, чтобы его было сложно выполнить GPT-4. Это задание, содержащее четкий правильный ответ, было разработано достаточно сложным, чтобы гарантировать, что ответ GPT-4 при первом прохождении будет неверным. Участники могли решить задание по решению бизнес-проблем, либо полагаясь на собственное суждение, чтобы выявить нюансы в вопросах и предоставленных данных, либо побуждая GPT-4 лучше «продумать» проблему.
Измерение базового уровня мастерства
Перед тем как приступить к экспериментальному заданию, каждый участник также решил базовое задание без использования какого-либо инструмента ИИ. Это задание было разработано так, чтобы быть очень похожим на экспериментальное задание с точки зрения сложности и проверяемых навыков.
Оценивая выполнение этого базового задания с использованием той же оценочной шкалы, что и экспериментальное задание (см. ниже), мы смогли создать представление о базовом уровне мастерства каждого участника в определенном типе задания. Это позволило нам понять, как использование GPT-4 повлияло на относительную производительность людей с разным уровнем базовой подготовки.
Критерий оценки
Каждый набор заданий имел свой собственный критерий оценки:
Для креативных инноваций в продуктах участники оценивались по шкале от 1 до 10 по четырем параметрам: креативность, убедительное письмо, аналитическое мышление и общие навыки письма. Общая производительность рассчитывалась как среднее значение четырех параметров.
Для решения бизнес-задач участники оценивались по правильности ответа (то есть, какой канал или бренд, скорее всего, увеличит доход или прибыльность вымышленной компании). Производительность оценивалась как бинарная оценка (правильно или неправильно).
Экспериментальный дизайн лечения
Каждый из 758 участников эксперимента был случайным образом назначен на один из двух наборов задач (креативные инновации в продуктах или решение бизнес-задач) с учетом ключевых демографических переменных. В каждом наборе задач участники затем были рандомизированы на три группы:
• Группа A: те, кто использовал GPT-4 для решения задачи после 30-минутного обучения по передовым методам использования GPT-4 (см. боковую панель об обучении).
• Группа B: те, кто использовал GPT-4 для решения задачи без какого-либо обучения.
• Группа C: те, кто не использовал GPT-4 для решения задачи (контрольная группа).
После распределения по группам участников попросили выполнить два задания: базовое задание (которое они все выполнили без GPT-4) и экспериментальное задание (которое группы A и B выполнили с GPT-4, а группа C — без). В общей сложности 99% участников в группах A и B — те, у кого был доступ к GPT-4 — действительно использовали инструмент для выполнения заданий.
Структура стимулирования
Краеугольным камнем этого эксперимента является его близость к реальным задачам, выполняемым бизнес-профессионалами. Чтобы этот эксперимент полностью отразил, как участники могут вести себя в реальном мире, была введена существенная структура стимулирования, чтобы гарантировать, что участники сделают все возможное для решения каждой задачи.
Чтобы гарантировать это, участие в этом эксперименте отмечалось в полугодовых обзорах производительности участников. Успешное завершение эксперимента отслеживалось и в конечном итоге учитывалось в ежегодных бонусах за производительность участников. Кроме того, 20% лучших исполнителей были специально вызваны к своим менеджерам для дальнейшего стимулирования высокой производительности.
Методологии оценивания
Как для базовых, так и для экспериментальных задач результаты участников оценивались людьми (комбинацией консультантов BCG и студентов бизнес-школ с опытом оценивания академических заданий). Оценивающие люди были «слепыми», то есть они не знали, были ли результаты участников, которые использовали GPT-4 или нет. Кроме того, задания по оцениванию были составлены таким образом, чтобы контролировались фиксированные эффекты, характерные для оценивающих (некоторые оценивающие от природы более строгие, чем другие), что гарантировало отсутствие предвзятости результатов.
Мы также использовали GPT-4 для независимой оценки производительности по всем заданиям, используя ту же рубрику, что и оценщики-люди. Оценки, выставленные людьми, в значительной степени совпадали с оценками GPT-4, что привело к тем же выводам из эксперимента. В соответствии со стандартной академической практикой, мы в первую очередь полагались на оценки, выставленные людьми, для представленных здесь анализов, за исключением тех, которые касаются изменений в распределении между базовыми и экспериментальными задачами. Для последнего анализа, в частности, мы полагались на оценки GPT-4, чтобы максимизировать согласованность между базовыми и экспериментальными задачами (в системе оценок, выставленных людьми, разные оценщики могли оценивать базовые и экспериментальные заявки для одного и того же участника).
Более подробное описание экспериментального дизайна см. в нашей научной статье по этой теме.
Мы также знали, что участники были способны найти ответ на задачу решения бизнес-задач самостоятельно: 85% участников контрольной группы сделали это. Тем не менее, многие участники, которые использовали GPT-4 для этой задачи, приняли ошибочный вывод инструмента за чистую монету. Вероятно, способность GPT-4 генерировать убедительный контент способствовала этому результату. В наших неформальных беседах с участниками многие подтвердили, что они нашли обоснование, которое GPT-4 предложил для своего результата, очень убедительным (хотя как LLM, он придумал обоснование после рекомендации, а не создал рекомендацию на основе обоснования). Эффект обоюдоострого меча сохраняется на всех уровнях базовой квалификации. (В начале эксперимента участники выполнили базовую задачу без использования GPT-4, которую мы затем оценили и ранжировали; см. боковую панель о нашем дизайне и методологии). Это имеет важное предостережение: чем ниже базовая квалификация человека, тем более значительным, как правило, был эффект; для задачи по творческой инновации продукта эти люди повысили производительность на 43%. Тем не менее, эффект был существенным даже для лучших базовых исполнителей, среди которых плюс и минус использования GPT-4 в двух задачах составили 17% и -17% соответственно. (См. Приложение 2.) (На протяжении всего обсуждения результатов участников мы не отражаем абсолютный уровень их компетентности и талантов в отношении тех или иных задач.)
Тесная связь между производительностью и контекстом, в котором используется генеративный ИИ, поднимает важный вопрос об обучении: можно ли снизить риск разрушения ценности, помогая людям понять, насколько хорошо подходит технология для данной задачи? Было бы разумно предположить, что если бы участники знали ограничения GPT-4, они бы знали, что не следует ее использовать, или использовали бы ее по-другому в этих ситуациях.
Наши результаты показывают, что все может быть не так просто. Негативные эффекты GPT-4 на решение бизнес-задач не исчезли, когда испытуемым дали обзор того, как подсказывать GPT-4 и об ограничениях технологии. (См. «Наше использование обучения в эксперименте».)
НАШЕ ИСПОЛЬЗОВАНИЕ ОБУЧЕНИЯ В ЭКСПЕРИМЕНТЕ
Обучение, предоставленное подгруппе респондентов, длилось примерно 30 минут и было разработано как ускоренный курс «расскажи, покажи и сделай» о том, как лучше всего использовать GPT-4 для задачи, которую участники собирались выполнить. На этапе рассказа участникам рассказали о лучших методах использования GPT-4. На этапе показа был представлен пример, иллюстрирующий, как эти концепции можно применить к образцу задачи. Наконец, на этапе выполнения участникам была предоставлена возможность проверить свои знания, используя GPT-4 на базовой задаче, которую они только что выполнили, в рамках подготовки к экспериментальной задаче.
Участникам задания по решению бизнес-задач были сообщены о трудностях и подводных камнях использования GPT-4 в контексте решения проблем. Им показали пример того, как GPT-4 может не справляться с рассуждениями, и предостерегали от чрезмерной зависимости от GPT-4 для таких задач.
Еще более загадочно, что в среднем они справились значительно хуже, чем те, кому не предлагали это простое обучение перед использованием GPT-4 для той же задачи. (См. Приложение 3.) Этот результат не означает, что все обучение неэффективно. Но это заставило нас задуматься, не был ли этот эффект результатом чрезмерной уверенности участников в своих способностях использовать GPT-4 — именно потому, что они прошли обучение.
Новые возможности для человеческого таланта
Эффекты на уровне группы, подобные тем, что обсуждались выше, не обязательно указывают на то, как генеративный ИИ влияет на отдельных лиц. Если взглянуть на средние значения, то мы увидим, что использование GPT-4 оказывает два различных эффекта на распределение индивидуальной производительности. (См. Приложение 4.) Во-первых, все распределение смещается вправо, в сторону более высоких уровней производительности. Это подчеркивает тот факт, что 40%-ный рост производительности, обсуждаемый выше, не является функцией «положительных» выбросов. Почти все участники (около 90%), независимо от их базового уровня мастерства, показали более качественные результаты при использовании GPT-4 для задачи по творческой инновации продукта. Во-вторых, дисперсия в производительности резко сокращается: гораздо большая доля наших участников показала средний уровень или очень близкий к нему.
Другими словами, участники с более низкими базовыми навыками, получив доступ к генеративному ИИ, в конечном итоге почти сравнялись с участниками с более высокими базовыми навыками. Более высокий уровень навыков без помощи технологий не дает особого преимущества, когда каждый может использовать GPT-4 для выполнения творческой задачи по созданию инновационных продуктов. (См. Приложение 5.) Тот факт, что мы наблюдали этот эффект среди нашей хорошо образованной, преуспевающей выборки, предполагает, что он может оказаться еще более выраженным в более неоднородных контекстах с более широким разбросом навыков.
Digging deeper, we find that because GPT-4 reaches such a high level of performance on the creative product innovation task, it seems that the average person is not able to improve the technology’s output. In fact, human efforts to enhance GPT-4 outputs decrease quality. (See the sidebar on our design and methodology for a description of how we measured quality.) We found that “copy-pasting” GPT-4 output strongly correlated with performance: The more a participant’s final submission in the creative product innovation task departed from GPT-4’s draft, the more likely it was to lag in quality. (See Exhibit 6.) For every 10% increase in divergence from GPT-4’s draft, participants on average dropped in the quality ranking by around 17 percentile points.
Похоже, что основной фокус создания ценности человеком заключается не в улучшении генеративного ИИ, где он и так хорош, а в сосредоточении на задачах, выходящих за рамки основных компетенций технологии.
Интересно, что мы обнаружили, что большинство наших участников, похоже, интуитивно поняли этот момент. В целом они не чувствовали угрозы со стороны генеративного ИИ; скорее, они были воодушевлены этим изменением своих ролей и приняли идею взяться за задачи, которые могут выполнять только люди. Как заметил один участник: «Я думаю, что в том, что мы можем делать как люди, есть большая добавленная стоимость. Вам нужен человек, чтобы адаптировать ответ к бизнес-контексту; этот процесс не может быть заменен ИИ». Другой отметил: «Я думаю, что это возможность делать вещи более эффективно, перестать тратить время на повторяющиеся вещи и фактически сосредоточиться на том, что важно, что является более стратегическим».
Однако стоит иметь в виду совокупность этого исследования: высококвалифицированные молодые работники умственного труда, которые с большей вероятностью смогут легко совершить этот переход. Другие специалисты могут испытывать больший страх или испытывать больше трудностей, приспосабливаясь к новой технологии.
Ловушка творчества
Даже если вы используете GenAI правильно и для правильных задач, наше исследование показывает, что существуют риски для творчества.
Первый риск — это компромисс между индивидуальными приростами производительности и коллективной потерей креативности. Поскольку GPT-4 снова и снова дает ответы с очень похожим значением на одни и те же типы подсказок, результаты, предоставленные участниками, которые использовали технологию, были индивидуально лучше, но коллективно повторяющимися. Разнообразие идей среди участников, которые использовали GPT-4 для задания по творческой инновации продукта, было на 41% ниже по сравнению с группой, которая не использовала технологию. (См. Приложение 7.) Люди не вносили заметного вклада в разнообразие идей, даже когда они редактировали результаты GPT-4.
Второй риск взят из выборки наших интервью с участниками. Примерно 70% считают, что широкое использование GPT-4 может со временем подавить их творческие способности. (См. Приложение 8.) Как объяснил один из участников: «Как и на любую технологию, люди могут слишком сильно на нее полагаться. GPS очень помогла навигации, когда она впервые появилась, но сегодня люди даже не могут водить машину без GPS. Поскольку люди слишком сильно полагаются на технологию, они теряют способности, которые у них когда-то были». Другой участник отметил: «Это [явление] определенно беспокоит меня. Если я стану слишком полагаться на GPT, это ослабит мои творческие мышцы. Это уже произошло со мной во время эксперимента». Компаниям необходимо будет помнить о восприятии и отношении своих сотрудников к генеративному ИИ, а также о том, как это может повлиять на их способность стимулировать инновации и добавлять ценность. У нас пока нет данных, подтверждающих восприятие наших участников; это тема для дальнейшего изучения. Но если опасения сотрудников подтвердятся, это может усугубить риск на уровне группы. В частности, потеря коллективного разнообразия идей может усугубиться, если сотрудники испытают некоторую атрофию индивидуального творчества.
Императив изменений генеративного ИИ
Вдохновленные результатами нашего исследования, мы представляем ряд вопросов, задач и вариантов, которые могут помочь руководителям бизнеса сделать внедрение генеративного ИИ источником дифференциации и, как таковое, средством обеспечения устойчивого конкурентного преимущества.
Стратегия данных. Любая компания, внедряющая GenAI, может добиться значительного повышения эффективности в областях, где эта технология является компетентной. Но если несколько фирм применяют технологию в схожих наборах задач, это может произвести эффект выравнивания среди организаций, аналогичный модели, наблюдаемой среди участников нашего эксперимента. В результате одним из ключей к дифференциации станет возможность тонкой настройки моделей генеративного ИИ с большими объемами высококачественных данных, специфичных для конкретной фирмы.
Это легче сказать, чем сделать. По нашему опыту, не все компании обладают передовыми возможностями инфраструктуры данных, необходимыми для обработки своих собственных данных. Развитие этих возможностей было ключевым направлением преобразований ИИ, но с появлением генеративного ИИ это становится еще более важным: как мы уже утверждали в другом месте, сила GenAI часто заключается в выявлении неожиданных — даже контринтуитивных — шаблонов и корреляций. Чтобы воспользоваться этими преимуществами, компаниям нужен всеобъемлющий конвейер данных в сочетании с обновленным фокусом на развитии внутренних возможностей инженерии данных.
Роли и рабочие процессы. Для задач, которые освоили системы генеративного ИИ — а это, конечно, постоянно расширяющийся список, — людям необходимо радикально пересмотреть свое мышление и подход к работе. Вместо предположения по умолчанию, что технология создает полезный первый черновик, требующий доработки, люди должны рассматривать результат как правдоподобный окончательный черновик, который они должны сверить с твердо установленными границами, но в остальном в значительной степени оставить как есть.
Ценность, поставленная на карту, заключается не только в обещании большей эффективности, но и в возможности для людей перенаправить время, энергию и усилия от задач, которые возьмет на себя генеративный ИИ. Сотрудники смогут удвоить усилия по задачам, которые остаются за пределами этой технологии, достигая более высоких уровней мастерства.
Ценность, поставленная на карту, заключается не только в обещании большей эффективности, но и в возможности для людей перенаправить время, энергию и усилия от задач, которые возьмет на себя генеративный ИИ.
Если взглянуть на себя, мы уже можем представить, что наши сотрудники будут тратить меньше времени на ручное суммирование исследований или полировку слайдов и вместо этого будут вкладывать еще больше усилий в реализацию сложных инициатив по управлению изменениями. Влияние нарушения генеративного ИИ, конечно, будет существенно различаться в зависимости от категории работы. Но по крайней мере некоторые работники, включая большинство наших участников, смотрят на эту перспективу с оптимизмом.
Стратегическое планирование рабочей силы. Чтобы правильно организовать взаимодействие ИИ и человека в сложных организациях, лидеры должны ответить на четыре вопроса, на которые нет простых ответов:
• Какие возможности вам понадобятся? Как и в случае с любой другой технологией, людям нужно будет определить, что и как будет использоваться генеративный ИИ. Но не очевидно, какие человеческие возможности лучше всего подходят для максимизации ценности инструмента или как часто эти возможности будут меняться. Мы видим, как эта неопределенность проявляется в реальном времени в отношении LLM: роль «инженера по подсказкам» не существовала год назад, но спрос на эту роль во втором квартале 2023 года был почти в семь раз выше, чем в первом квартале 2023 года (GPT-4 был запущен ближе к концу первого квартала, 14 марта 2023 года). И все же инженеры по подсказкам могут больше не понадобиться, как только сам генеративный ИИ освоит задачу разбиения сложных проблем на оптимальные подсказки (как, похоже, скоро произойдет с автономными агентами). Даже выбор оптимальных LLM для конкретных бизнес-приложений, который в настоящее время в основном выполняется людьми, в будущем может быть передан на аутсорсинг самим системам ИИ.
• Какова ваша стратегия найма? Поскольку генеративный ИИ отлично выравнивает уровень мастерства в определенных задачах, чистый талант может не быть хорошим предиктором высокой производительности в мире повсеместного использования GenAI. Например, некоторые люди могут иметь более низкий базовый уровень мастерства для определенного типа задач, но при этом быть вполне способными сотрудничать с генеративным ИИ, чтобы превзойти коллег. Поиск таких людей станет важной целью будущих стратегий развития талантов, но основные черты еще не четко определены.
• Как вы будете эффективно обучать людей? Как показывают наши выводы, простого обучения будет недостаточно. Эффективное обучение, вероятно, должно будет явно устранять любые когнитивные предубеждения, которые могут привести к тому, что люди будут чрезмерно полагаться на генеративный ИИ в ситуациях, когда технология еще не достигла нужного уровня компетентности.
Мы также видим потенциально более глубокую проблему: даже если некоторые задачи будут полностью переданы GenAI, некоторая степень человеческого контроля будет необходима. Как сотрудники могут эффективно управлять технологиями для задач, которые они сами не научились выполнять?
• Как вы будете развивать разнообразие мыслей? Наши результаты показывают, что GenAI отвлекает от коллективного творчества, ограничивая диапазон точек зрения, которые привносят отдельные лица. Эта потеря разнообразия мыслей может иметь волновые эффекты, выходящие за рамки того, что мы можем себе представить в настоящее время. Один из вероятных рисков заключается в том, что это может сократить долгосрочный инновационный потенциал организаций, например, сделав формирование идей более однородным. Это скользкий путь, поскольку снижение инновационных возможностей означает меньшую дифференциацию от конкурентов, что может препятствовать потенциалу роста. Хорошей новостью является то, что идеи, которые люди генерируют самостоятельно, и идеи, которые они генерируют при содействии генеративного ИИ, сильно различаются. Оставив в стороне степень разнообразия в каждой группе, когда мы сравнили результаты контрольной и экспериментальной групп, совпадение (семантическое сходство) составило менее 10%. Ключевым моментом для лидеров будет использование обоих подходов к формированию идей, что в конечном итоге создаст еще более широкий круг идей.
Экспериментирование и тестирование. Системы генеративного ИИ продолжают развиваться с ошеломляющей скоростью: всего за несколько месяцев между выпусками OpenAI GPT-3.5 и GPT-4 модель совершила огромный скачок производительности в широком спектре задач. Задачи, для которых генеративный ИИ сегодня не подходит, скорее всего, скоро войдут в его компетенцию — возможно, в самом ближайшем будущем. Это, скорее всего, произойдет, когда LLM станут мультимодальными (выходя за рамки текста и включая другие форматы данных) или по мере увеличения размеров моделей, что увеличивает вероятность непредсказуемых возможностей.
Учитывая это отсутствие предсказуемости, единственный способ понять, как генеративный ИИ повлияет на ваш бизнес, — это развить возможности экспериментирования — создать своего рода «лабораторию генеративного ИИ», которая позволит вам идти в ногу с расширяющимися границами. И по мере изменения технологий модель сотрудничества между людьми и генеративным ИИ также должна будет измениться. Эксперименты могут дать некоторые нелогичные или даже неудобные выводы о вашем бизнесе, но они также позволят вам получить бесценные идеи о том, как можно и нужно использовать технологию. Мы подставили ноги под огонь этим экспериментом — и мы считаем, что все руководители бизнеса должны сделать то же самое.
Генеративный ИИ, скорее всего, изменит многое из того, что мы делаем и как мы это делаем, и сделает это способами, которые никто не может предвидеть. Успех в эпоху ИИ будет во многом зависеть от способности организации учиться и меняться быстрее, чем когда-либо прежде.
Помимо перечисленных выше сотрудников из академической группы, авторы хотели бы поблагодарить Клемана Дюма, Гаурава Джа, Леонида Жукова, Макса Мэннига и Максима Курто за их полезные комментарии и предложения. Авторы также хотели бы поблагодарить Лебо Нтойву, Патрика Хили, Сауда Альмутаири и Стивена Рандаццо за их усилия по интервьюированию участников эксперимента. Авторы также благодарят всех своих коллег из BCG, которые добровольно согласились принять участие в этом эксперименте.