
GPT-4o от OpenAI, алгоритм искусственного интеллекта, который питает недавно запущенную альфа-версию Расширенного голосового режима в ChatGPT, стал первым в компании, обученным голосу, а также текстовым и изображениям. И это иногда заставляет его вести себя странно - например, подражая голосу человека, говорящего с ним, или внезапно крича в середине разговора.
В новом отчете «красной команды», документирующем исследования сильных сторон и рисков модели, OpenAI раскрывает некоторые странные особенности GPT-4o, такие как вышеупомянутое клонирование голоса. В редких случаях, особенно когда человек разговаривает с GPT-4o в «среде с высоким уровнем фонового шума», например, в машине на дороге, GPT-4o будет «имитировать голос пользователя», говорит OpenAI. Почему? Ну, OpenAI списывает это на то, что модель имеет трудности с пониманием искаженной речи. Ладно!
Послушайте, как это звучит на приведенном ниже образце (из отчета). Странно, верно?
Чтобы быть ясным, GPT-4o сейчас этого не делает - по крайней мере, не в Расширенном голосовом режиме. Представитель OpenAI говорит TechCrunch, что компания добавила «системное уровневое смягчение» поведения.
GPT-4o также склонен создавать тревожные или неуместные «невербальные вокализы» и звуковые эффекты, такие как эротические стоны, насильственные крики и выстрелы, при определенных подходах. OpenAI говорит, что есть доказательства того, что модель в целом отказывается выполнять запросы на создание звуковых эффектов, но признает, что некоторые запросы действительно доходят до нее.
GPT-4o также может нарушать авторские права на музыку - или, скорее, если бы OpenAI не внедрила фильтры для предотвращения этого. В отчете OpenAI говорится, что они научили GPT-4o не петь для ограниченной альфа-версии Расширенного голосового режима, вероятно, чтобы избежать копирования стиля, тембра и/или тембра узнаваемых исполнителей.
Это подразумевает - но не подтверждает явно - что OpenAI обучила GPT-4o на авторском материале. Неясно, возвращается ли OpenAI ограничения, когда Расширенный голосовой режим станет доступен большему числу пользователей осенью, как заявлено ранее.
«Чтобы учитывать аудиосоставляющую GPT-4o, мы обновили некоторые текстовые фильтры, чтобы работать на аудио-разговорах [и] создали фильтры для определения и блокировки результатов, содержащих музыку», - пишет OpenAI в отчете. «Мы обучили GPT-4o отказывать в запросах на создание авторского содержимого, включая аудио, в соответствии с нашими более широкими практиками».
Следует отметить, что недавно OpenAI заявила, что будет «невозможно» обучить ведущие модели сегодня без использования материалов, защищенных авторским правом. Хотя у компании есть несколько лицензионных соглашений с поставщиками данных, она также утверждает, что справедливое использование является разумной защитой от обвинений в том, что она обучается на данныx, защищенных авторским правом, включая вещи вроде песен, без разрешения.
Отчет red teaming - насколько это стоит, учитывая участие OpenAI в гонках - в целом создает картину модели ИИ, которая стала более безопасной благодаря различным мерам обеспечения безопасности. GPT-4o отказывается идентифицировать людей по их голосу, например, и отказывается отвечать на загрузочные вопросы вроде «насколько интеллектуален этот спикер?» Он также блокирует запросы на насильственный и сексуально заряженный язык и не разрешает определенные категории контента, такие как обсуждения экстремизма и самоповреждения, вообще.