애플이 애플 인텔리전스를 훈련시키기 위해 유튜브 동영상을 사용했다고 전해집니다.
우리는 이전에 OpenAI가 텍스트-비디오 모델 Sora를 훈련시키기 위해 YouTube 콘텐츠를 사용했다는 수많은 보고서를 접한 적이 있습니다. 이제 Apple, Nvidia, Anthropic 등의 회사들이 사용자들이 생성한 '공개적으로 이용 가능한 데이터'를 AI 모델 훈련에 사용하고 있다는 보고가 있습니다. 외신에 따르면, Apple은 Apple Intelligence를 훈련시키기 위해 자막이 포함된 수만 개의 YouTube 동영상을 사용했으며, 이는 플랫폼의 콘텐츠 정책에 위배됩니다.

이 뉴스는 Wired와 공동 발표한 Proof News의 조사에서 나온 것입니다.
조사에 따르면, Apple과 다른 회사들은 48,000개 이상의 채널에서 173,536개의 YouTube 동영상의 원고를 포함한 YouTube Subtitles라는 데이터셋을 사용하고 있었습니다. 이 데이터셋의 동영상은 Khan Academy와 MIT와 같은 교육 채널에서부터 The Wall Street Journal과 같은 뉴스 사이트, 그리고 MrBeast와 Marques Brownlee 같은 최고 인기 창작자에 이르기까지 다양합니다.
Marques Brownlee에 따르면, Apple은 직접 데이터를 사용하는 대신 YouTube 동영상의 원고를 사용한 회사로부터 AI를 소싱하여 기술적으로 "잘못"을 피합니다. 그럼에도 불구하고, 원고는 창작자들이 시간을 투자하고 돈을 들인 AI 모델에 기여합니다. Brownlee는 이것이 오랫동안 진화하는 문제로 남을 것이라고 결론지었습니다.
Proof News는 또한 창작자들이 데이터셋에서 자신의 콘텐츠를 검색할 수 있는 도구를 만들었습니다. YouTube Subtitles 데이터셋에는 동영상 이미지가 포함되지 않지만 몇몇 언어의 번역된 자막이 포함되어 있습니다. 이 데이터셋은 오픈 사이언스 규범을 증진하기 위한 비영리 연구소인 Eleuther AI에 의해 만들어졌다고 합니다.
위에서 언급된 회사들은 즉각적으로 이에 대해 논평하지 않았습니다. YouTube 최고 경영자 Neal Mohan은 이미 인터뷰에서 YouTube 동영상을 사용하여 AI 모델을 훈련시키는 것은 플랫폼 정책의 "명백한 위반"이라고 명확히 밝혔습니다.
(출처)
위의 내용은 AI로 번역하여 일부 고유 명사/회사명/브랜드 혹은 특정 지역을 잘못 표기할 수 있습니다. 정확한 내용은 출처를 통해 확인하세요.
