Авторські права і ШІ: межі добросовісного використання

31 жовтня 2024

Авторські права і ШІ: межі добросовісного використання

Авторка: Дарина Бойко

Генеративний штучний інтелект (ШІ) – технологія, що зробила створення текстових, відео- та аудіоматеріалів найдоступнішим у історії і практично без участі людини. Він вже слугує перспективним інструментом у різних галузях, про що свідчить і його висока популярність. До прикладу, ChatGPT, один із найбільш популярних інструментів на базі генеративного ШІ, цього року досяг 180 мільйонів користувачів, багато з яких використовують його для створення того чи іншого контенту.

Водночас така ситуація спричиняє появу етичних, соціальних та правових питань щодо захисту авторських прав. У цьому контексті використання матеріалів для навчання генеративного ШІ залишається одним із найголовніших викликів, адже саме ці дані можуть містити роботи, захищені авторським правом.

Штучний інтелект і виклики захисту авторських прав

Генеративний ШІ (Generative AI) базується на глибокому навчанні (deep learning) та створює зображення, відео та тексти, навчаючись на великих масивах даних. У такий спосіб він генерує контент на основі прикладів, які містяться у даних.

Здебільшого дані, які використовуються для навчання таких моделей, включають “необроблену” інформацію, яка може перебувати у відкритому доступі в інтернеті. Таким чином, ШІ генерує статистично ймовірні результати з урахуванням запиту до системи та створює схожий, але не ідентичний оригіналу матеріал. Очевидно, що якість результатів, які створює генеративний ШІ, напряму залежить від якості даних, на яких він навчається. Більша кількість та варіативність навчальних даних також є важливими, адже завдяки цьому згенеровані результати можуть бути більш точними і надійними.

До прикладу, ChatGPT від компанії OpenAI навчається за допомогою таких джерел:

інформація, яка перебуває у відкритому доступі в інтернеті;
інформація, яка ліцензується від третіх сторін;
інформація, яку надають користувачі моделі або тренери.

На початковому етапі розгортання системи компанія OpenAI використовувала для навчання системи популярний серед розробників великих мовних моделей набір даних під назвою Common Crawl, який містить мільярди вебсторінок. Серед даних у наборі є статті, книги та інші об’єкти авторського права.

Водночас існує занепокоєння, що дані, взяті з такої великої кількості відкритих джерел, можуть бути піратськими або порушувати авторське право. Як зазначають дослідники Mozilla, попри можливість фільтрації даних для навчання на певній базі даних, розробники моделей на кшталт ChatGPT все ж можуть використовувати значну кількість даних, захищену авторським правом. Використання генеративного ШІ вже спричинило появу низки судових позовів проти компаній-розробниць ШІ через можливі порушення авторських прав.

Один із таких інцидентів стосується позову New York Times до Microsoft та OpenAI. У грудні минулого року New York Times подала до суду, заявивши, що ці компанії використовували мільйони статей, опублікованих її новинною платформою, для навчання їхніх моделей штучного інтелекту.

У позові, зокрема, йдеться, що OpenAI “швидко стала багатомільярдним комерційним бізнесом, заснованим значною мірою на неліцензійній експлуатації захищених авторським правом робіт, що належать The Times та іншим”. Позивач також зазначив, що Microsoft інтегрувала технологію OpenAI у свій пошуковий браузер Bing, що уможливило створення плагіну для ChatGPT, який “дає змогу отримувати доступ до найновішого вмісту в інтернеті через пошукову систему”. У такий спосіб компанії мали змогу відтворювати контент Times “декількома незалежними способами” під час використання продуктів, які його включають.

У звʼязку з цим, New York Times вимагала від компаній не лише компенсацію збитків за використання й відтворення творів, захищених авторським правом, але й повне знищення моделей GPT та інших мовних моделей, які містили у навчальних даних роботи новинної платформи.

У відповідь на скарги компанія OpenAI назвала позов Times “неетичним”, зазначивши, що результати ChatGPT, на які посилалась новинна платформа, походять від статей, які поширювались на вебсайтах третіх сторін. Окрім цього, компанія припустила, що представники NYT навмисно “маніпулювали” запитами, включаючи у них уривки зі своїх статей.

Суд ще не дійшов остаточного висновку щодо того, чи можна вважати подібне використання робіт для навчання ШІ порушенням авторського права. Наразі судді відхилили деякі претензії New York Times щодо результатів, згенерованих ChatGPT, через відсутність достатніх доказів того, що такі відповіді були подібними до творів, захищених авторським правом.

Співробітник Юридичної клініки із цифрових прав при Гарвардській школі права Мейсон Корц вважає цей позов “першим великим випробуванням” для ШІ у сфері авторського права. “Можуть бути деякі аргументи, що статистична модель, яка відтворює інформацію, може порушувати авторські права Times. Тут все може зводитись до того, чи є це добросовісним використанням з боку OpenAI, чи ні”, – зазначив експерт.

Позов New York Times не є першим випадком, коли платформи скаржаться на порушення авторських прав з боку розробників систем ШІ. До прикладу, на початку 2023 року Getty Images, що є одним з найбільших банків стокового цифрового контенту, подав до федерального суду штату Делавер, США, позов проти компанії-розробника штучного інтелекту Stability AI. Цей позов став другим після аналогічного позову, поданого в Британії, та колективним позовом каліфорнійських митців проти цієї ж компанії.

У 2022 році компанія Stability AI випустила технологію під назвою Stable Diffusion, що дозволяє генерувати зображення на основі текстових запитів до моделі. У своїх скаргах Getty Images стверджував, що компанія використовувала для навчання своєї системи Stable Diffusion близько 12 мільйонів фотографій, правовласником яких є Getty, і копіювала ці зображення без ліцензії для створення більш точних результатів. Getty також звинувачувала компанію у порушенні торговельних марок, посилаючись на використання ТМ Getty Images на зображеннях, створених Stable Diffusion, що, як зазначено у позові, могло вводити в оману споживачів.

Наразі позов розглядається, але Stability AI звернулася з проханням передати позов до Північного округу Каліфорнії, де розглядається колективний позов митців проти Stability, щоб уникнути ризику непослідовних рішень.

Коментуючи ідентичний позов Getty до Високого суду Британії, суддя цього суду Джоанна Сміт зазначила, що одним із головних питань є те, де відбувалося навчання Stable Diffusion, адже авторське право є територіальним. Якщо слідувати заявам Getty, який стверджує, що навчання моделі відбувалось у Британії, Stability AI може нести відповідальність за порушення авторського права в юрисдикції Британії. Водночас докази Stability вказують на те, що навчання відбувалося на території США, що може потенційно звільнити компанію від порушень згідно з Законом Великої Британії “Про авторське право, зразки та патенти” (The Copyright, Designs and Patents Act, CDPA).

Виклики навчання моделей штучного інтелекту

Найбільші занепокоєння полягають у можливому порушенні авторських прав саме під час навчання штучного інтелекту. Навчання моделей генеративного ШІ так чи інакше включатиме процес копіювання певних творів, захищених авторським правом. У обох позовах платформи скаржилися саме на використання їхніх авторських робіт.

Здебільшого у відповідь на подібні звинувачення розробники ШІ посилаються на принцип “добросовісного використання” (“fair use”), який використовується у юрисдикції США та низки інших держав. Він передбачає можливість копіювання частини матеріалу, зробленого з обмеженою метою, без дозволу власника авторських прав. Хоча межі “добросовісного використання” є доволі розмитими, факторами, які враховуються при оцінці такого копіювання, вважають:

мету та характер використання, зокрема комерційні та некомерційні освітні цілі;
характер матеріалу, який захищений авторським правом;
кількість та суттєвість частини, що використовується;
вплив використання на цінність захищеної авторським правом роботи.

Поки не існує прецедентного права або законодавства, що могли б врегулювати “добросовісне використання” у навчанні моделей ШІ. Прихильники застосування такого принципу до штучного інтелекту вважають системи інструментом для створення творчих робіт. Штучний інтелект тренується на роботах, захищених авторським правом, так само, як люди надихаються ідеями з інших матеріалів. Це означає, що згенерована робота може вважатись унікальною, а тому не порушує авторське право і потрапляє у межі “добросовісного використання”.

На противагу, критики такого підходу стверджують, що згенеровані роботи не можуть бути оригінальними, адже вони не є точною копією вхідних даних. Принцип “добросовісного використання” враховує обсяг або значення матеріалу, що використовується. У звʼязку з цим, використання творчих робіт при розробці ШІ є неправомірним, адже для навчання моделей зазвичай використовуються ключові частини матеріалів.

Проте деякі юристи вважають, що навчання моделей ШІ таки може відповідати принципу “добросовісного використання”. Марк А. Лемлі, професор права Стенфордської школи права, та Браян Кейсі, студент Стенфордської школи права, пишуть: “Системи ML зазвичай копіюють твори не для того, щоб отримати доступ до форми їхнього творчого вираження (частина твору, яку захищає закон), а для того, щоб отримати доступ до частин твору, які не захищені авторським правом, – до ідей, фактів і мовної структури творів… Вони можуть навчатися розуміти або створювати речення природною мовою, спостерігаючи, як граматика використовується на практиці”. Тому, як зазначили експерти, більшість результатів, згенерованих ШІ, “не мають нічого спільного з творами, захищеними авторським правом”.

Проте навіть якщо припустити, що “добросовісне використання” не може бути застосованим до ШІ, інша проблема полягає у тому, що при застосуванні генеративних моделей ідентифікувати порушення авторських прав доволі складно. В останніх прецедентах це вважається основною проблемою, адже схожість згенерованих ШІ результатів та оригінальних матеріалів є часто недостатньо обґрунтованою, щоб довести провину. Оскільки на згенерований результат впливають конкретні й деталізовані запити користувачів, ШІ може створювати унікальні зображення, які комбінують елементи з робіт, на яких він навчається.

Водночас у деяких випадках відбувається процес “запамʼятовування” та відтворення елементів навчальних даних, у звʼязку з чим ШІ ненавмисно генерує зображення, схожі на оригінальні фотографії. Особливо цей феномен посилюється тоді, коли ШІ навчається на дублікатах однієї роботи. Окрім цього, викликом є так звана “проблема Снупі”: чим більш конкретними є форма чи образ, захищений авторським правом, тим більшою є ймовірність того, що інструмент генеративного ШІ скопіює їх чи окремі риси. Зокрема це стосується захищених авторським правом персонажів або схожості на них, до прикладу, мультиплікаційного персонажа Снупі. Через це існує ризик, що згенерована робота буде порушувати авторське право.

Зрозуміло, що для зменшення ризику порушення авторських прав при розробці необхідне інноваційне регулювання, яке б забезпечило правомірну побудову та навчання моделей. До прикладу, Закон ЄС про штучний інтелект (AI Act) накладає певні зобовʼязання на інструменти генеративного ШІ та процес їхнього навчання. Оскільки Закон передбачає, що генеративний штучний інтелект є системою “обмеженого” ризику, будь-які розробники на ринку ЄС повинні відповідати вимогам щодо прозорості, “незалежно від національної юрисдикції та відповідних актів авторського права, під дією яких відбувається навчання цих моделей штучного інтелекту загального призначення”.

Такі обовʼязки включають ведення технічної документації, яка надає інформацію про процес навчання й функціонування системи ШІ, дотримання вимог законодавства ЄС, а також “детальні” відомості про контент, на якому навчається штучний інтелект, разом з походженням даних.

Попри зусилля ЄС щодо захисту авторського права при розробці ШІ, компанії виступили проти розкриття навчальних даних, називаючи їх “комерційною таємницею”. На думку бізнесу, оприлюднення таких даних може мати значні негативні наслідки як для ШІ-стартапів, так і для провідних технологічних компаній, які працюють у ЄС.

Правила також викликають протиріччя серед європейських законодавців. Драгош Тюдораче, один із розробників Закону про ШІ, вважає оприлюднення навчальних даних важливим для того, щоб творці могли визначити, чи використовувалась їхня робота для навчання ШІ. Натомість французький уряд виступив проти введення жорстких правил, адже вони можуть зашкодити конкурентоспроможності європейських компаній-розробників ШІ.

В Україні наразі регламентовано лише питання авторських прав на твори, згенеровані ШІ. Закон "Про авторське право та суміжні права" передбачає, що штучний інтелект не може вважатись автором та володіти авторським правом на згенеровані обʼєкти. Однак Закон наділяє матеріали, створені ШІ, правом особливого роду (sui generis), що застосовується лише до контенту, створеного компʼютерною програмою без втручання людини. Щодо таких робіт не можуть виникати особисті немайнові права.

У деяких випадках авторським правом можуть бути наділені й користувачі певних моделей, проте лише у разі, якщо ШІ був допоміжним інструментом у створенні роботи. За такої умови користувачам потрібно дотримуватись ліцензійних умов того чи іншого інструменту, а також враховувати, чи згенерований контент не порушує авторське право.

Проте питання захисту авторських прав на матеріали, на основі яких навчається ШІ, наразі неврегульоване.

Висновки і рекомендації

Розвиток штучного інтелекту природно впливає на сферу захисту авторських прав. Навчання генеративних моделей на даних, які можуть бути захищені авторським правом, вже викликає побоювання в значної кількості авторів, митців та виконавців. Хоча розробники ШІ часто посилаються на доктрину “добросовісного використання”, її межі є доволі розмитими, а в юридичних колах досі не вирішено, яке вона має значення для індустрії штучного інтелекту. Окрім цього, існують труднощі у доведенні можливих порушень, що значно ускладнює притягнення компаній до відповідальності.

Враховуючи переваги використання новітніх моделей генеративного ШІ, малоймовірно, що навіть зафіксовані порушення авторських прав з боку розробників призведуть до заборони певної моделі ШІ. Натомість законодавці намагаються врегулювати проблему за допомогою посилення прозорості та підзвітності для кращого розуміння даних, які використовуються для навчання ШІ. Проте накладання жорсткіших зобовʼязань може зустрітись зі значним опором з боку розробників, які хочуть захистити конфіденційні дані компанії та забезпечити розвиток своїх технологій ШІ.

У звʼязку з цим, окреслення належних регуляторних рамок має полягати в пошуку балансу між розвитком інновацій та захистом від негативних наслідків ШІ для авторських прав. Для цього необхідно врахувати наступне:

Чітке ліцензування даних. Важливо сприяти створенню чітких і стандартизованих ліцензійних угод для наборів даних, які використовуються для навчання моделей штучного інтелекту, з урахуванням відповідальності за можливі порушення умов ліцензування. У цьому контексті варто розглянути можливість маркування навчальних даних, що дозволить компаніям-розробникам ШІ відстежувати походження цих даних. Це гарантуватиме захист від неналежного використання творчих робіт і порушень авторського права під час навчання систем ШІ.
Визначення рамок “добросовісного використання”. Необхідно забезпечити чіткі рамки того, як принцип “добросовісного використання” буде застосовуватись до систем ШІ, що навчаються на даних, які можуть бути захищені авторським правом. Якщо припустити, що навчання штучного інтелекту зосереджене здебільшого на ідеях, фактах та семантиці матеріалів, воно може бути частково або повністю дозволене доктриною “добросовісного використання”. Водночас важливо окреслювати межі такого використання, а також розробляти механізми захисту від непередбачуваного копіювання авторських робіт, зокрема за допомогою тестування й оцінювання на всіх етапах розвитку систем.
Створення загальнодоступних наборів даних для навчання штучного інтелекту. Одним із потенційних напрямків для посилення захисту авторських прав є робота над створенням баз даних на загальнодоступних ресурсах, які можуть використовувати компанії ШІ для навчання своїх моделей без ризику порушити авторські права. Такі бази даних можуть складатися з робіт, на які не поширюються обмеження авторського права або які опубліковані за ліцензіями відкритого доступу. Важливо також сприяти варіативності та репрезентативності таких даних, що може покращити якість навчання моделей ШІ.
Підвищення обізнаності та співпраці між стейкголдерами. Заохочення діалогу між творцями контенту, дослідниками, розробниками та законодавцями є важливим для того, щоб забезпечити врахування інтересів усіх зацікавлених сторін. Співпраця між стейкголдерами повинна зосереджуватись на заохоченні етичного розвитку систем штучного інтелекту, який зокрема враховує захист прав інтелектуальної власності. Окрім цього, при вивченні значення штучного інтелекту для сфери авторських прав важливо підтримувати принципи прозорості та підзвітності, що сприятиме зміцненню довіри серед зацікавлених сторін і дотриманню етичних норм.

Авторські права і ШІ: межі добросовісного використання

Останні публікації

Компенсація для України: підсумки четвертого року роботи зі створення механізмів відшкодування

Нарощення співпраці в ОПК, тиск на Росію та внески у відбудову України: результати другого року імплементації безпекової угоди із Францією

Перехід до світового лідерства в підтримці України: результати другого року імплементації безпекової угоди з Німеччиною