Великобританская компания OpenAI, разработчик высокоуровневых языковых моделей искусственного интеллекта, оказалась в центре скандала, когда против нее был подан коллективный иск, обвиняющий ее в краже контента и нарушении авторских прав. Согласно иску, компания собрала данные из Интернета без разрешения авторов для обучения своих продвинутых языковых моделей. Пока судьба иска остается неизвестной, возникает дилемма между правом пользователей на конфиденциальность и использование контента, который они публикуют онлайн.
Иск, поданный против OpenAI, требует справедливого возмещения за предполагаемую кражу контента, и обвинение заявляет, что практически каждый, кто писал что-либо в Интернете, стал жертвой нарушения авторских прав. Согласно сообщению (ссылка на статью), данные для обучения языковых моделей, включая недавно разработанный GPT-4, были собраны из обширного набора информации, включающего книги, статьи из Википедии, веб-сайты и сообщения в социальных сетях. Объем данных составляет огромные 570 гигабайт.
Возникает вопрос о том, было ли у OpenAI разрешение авторов на использование их контента в коммерческих целях. Хотя многие платформы и веб-сайты имеют правила использования, с которыми пользователи соглашаются, публикуя свой контент, возникают сомнения относительно того, насколько эти разрешения являются ясными и информированными. Пользователи, возможно, не полностью осознавали, что их данные могут быть использованы для обучения искусственного интеллекта, такого как GPT-4.
С другой стороны, OpenAI является компанией, занимающейся разработкой продуктов искусственного интеллекта, и их модели являются результатом сложных и дорогостоящих исследований. Для создания продвинутых языковых моделей необходимо огромное количество данных. В своей защите OpenAI может указывать на то, что использование общедоступных данных сети Интернет является общепринятой практикой в области машинного обучения и развития искусственного интеллекта.
Пока судьба иска против OpenAI остается неизвестной, это дело поднимает важные вопросы о конфиденциальности, авторских правах и использовании контента в эпоху, когда информация легко доступна и обмен данными является неотъемлемой частью нашей цифровой жизни. Возможно, это станет отправной точкой для обсуждения и разработки более ясных правил использования данных, чтобы учитывать интересы авторов и пользователей в равной мере и обеспечивать справедливое использование информации в различных технологических разработках.