Những điều bạn cần biết về Sora AI – Công nghệ “text-to-video” mới của OpenAI

Sora được xem là công cụ AI đầu tiên của OpenAI được thiết kế để tạo ra video từ văn bản, công cụ mới này của OpenAI đã thu hút sự chú ý và gây ra nhiều lo ngại về tính chính xác của nó. Mặc dù công cụ này đã hứa hẹn tạo ra các video từ các lời nhắc văn bản một cách chính xác và sống động, nhưng sự không chính xác vẫn là một vấn đề mà người ta quan tâm.

Cộng đồng đang theo dõi để xem liệu công cụ này có thể thực sự diễn giải chính xác các đoạn văn và tạo ra các nhân vật có cảm xúc thực sự hay không. Điều này sẽ định hình cách chúng ta nhìn nhận và sử dụng công nghệ AI trong tương lai.

Định nghĩa về Sora của OpenAI

  • Sora là một công cụ mới của OpenAI, được đặt tên theo từ tiếng Nhật có nghĩa là “bầu trời”. Đây là bước tiến mới nhất của công ty trí tuệ nhân tạo này, trong khi Google, Meta và công ty khởi nghiệp Runway ML cũng đang hoạt động trên các mô hình tương tự.
Định nghĩa về Sora của OpenAI
  • Theo thông tin từ công ty phát triển ChatGPT, mô hình Sora được thiết kế để hiểu cách các vật thể “tồn tại trong thế giới vật chất” và có khả năng “diễn giải chính xác các đạo cụ cũng như tạo ra các nhân vật hấp dẫn thể hiện cảm xúc sống động”. Điều này cho thấy tiềm năng của công cụ này trong việc tạo ra nội dung đa phương tiện tự động và chất lượng cao.
  • Trong ví dụ được đăng trên trang web của OpenAI, một đoạn video được tạo ra bởi Sora thể hiện một người phụ nữ đi bộ trên một con phố ở Tokyo trong trời mưa. Lời nhắc cung cấp một mô tả chi tiết về cảnh tượng, bao gồm cả việc mô tả cách cô ấy đi và môi trường xung quanh.
Dưới đây là lời nhắc:
Prompt của OpenAI như sau: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.“
“Một phụ nữ phong cách đi bộ trên một con phố ở Tokyo đầy ánh sáng neon ấm và biển hiệu thành phố hoạt hình. Cô ấy mặc một chiếc áo khoác da màu đen, một chiếc váy đỏ dài và đôi ủng đen, và cầm một chiếc túi đen. Cô ấy đeo kính râm và son môi màu đỏ. Cô ấy đi bộ một cách tự tin và thoải mái. Đường phố ẩm ướt và phản chiếu, tạo ra hiệu ứng gương của ánh sáng đầy màu sắc. Nhiều người đi bộ đi lại.”
Dựa trên lời nhắc này, chúng ta có thể sử dụng công cụ Pika.art để tạo ra một bức tranh sống động của cảnh tượng mô tả. Hãy thử vẽ một bức tranh miêu tả cảnh một người phụ nữ tự tin và thản nhiên đi bộ trên một con phố Tokyo vào một ngày mưa, với đường phố ẩm ướt và phản chiếu ánh sáng đa màu sắc và nhiều người đi bộ đi lại.

So sánh Pika.art và Sora của OpenAI

  • Một bức ảnh khác, với lời nhắc “một số con voi ma mút lông khổng lồ tiếp cận đồng cỏ đầy tuyết”, cho thấy những loài động vật đã tuyệt chủng gần một dãy núi tung ra bột tuyết khi chúng bước đi.
So sánh Pika.art và Sora của OpenAI
Dưới đây, mình cũng sẽ tiếp tục “kiểm thử” với Pika.art, công cụ AI được cho là đang đi đầu về “text-to-video” và “image-to-video”.
Prompt của OpenAI như sau: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.“
  • Qua việc so sánh cả hai video, có thể thấy rõ rằng Sora của OpenAI vượt trội hơn về mọi mặt: từ thời gian tạo ra, logic của cảnh, các yếu tố vật lý, độ sáng, và cảm giác chân thực…v.v..

Video của Sora

 

Quá trình khuếch tán video của Sora. Ảnh OpenAI.
  • Thêm vào đó, Sora cũng có độ dài lên tới 60 giây, trong khi Pika chỉ tạo ra được video có độ dài 3 giây trong lần tạo ra đầu tiên. Điều này thể hiện sự khác biệt rõ ràng về khả năng của công cụ và độ chính xác của nó.
Video từ Pika.art sản xuất
  • Một trong những video được tạo ra bởi trí tuệ nhân tạo (AI) cho thấy một chú chó đốm đi dọc bên cửa sổ ở Burano, Ý, trong khi video khác mang người xem “du lịch trong một phòng trưng bày nghệ thuật với nhiều tác phẩm nghệ thuật đẹp mắt theo nhiều phong cách khác nhau”.
Lời nhắc của OpenAI như sau:
  • “Một số con voi lông dày khổng lồ tiến lại qua một đồng cỏ tuyết, bộ lông dài lợm nhẹ nhàng được gió thổi khi chúng đi, cây phủ đầy tuyết và những ngọn núi tuyết ở xa, ánh sáng chiều giữa với những đám mây mảnh và mặt trời cao ở xa tạo ra một ánh sáng ấm áp, góc quay thấp của máy ảnh là tuyệt vời, ghi lại loài động vật lớn có bộ lông dày với một bức ảnh đẹp, độ sâu của trường hình ảnh.”
Dựa trên lời nhắc này, chúng ta có thể sử dụng công cụ tạo hình ảnh để tái tạo lại cảnh tượng được mô tả.

Mối quan tâm về bản quyền và quyền riêng tư

  • Tính đến thời điểm hiện tại, công cụ mới nhất của OpenAI đã gây ra nhiều sự hoài nghi và lo ngại về khả năng lạm dụng của nó. Rachel Tobac, một thành viên của Hội đồng Cố vấn Kỹ thuật của Cơ quan An ninh Cơ sở Hạ tầng và An ninh Mạng (CISA) của Hoa Kỳ, đã chia sẻ trên X rằng “chúng ta cần thảo luận về những rủi ro” của mô hình AI.
  • Cô nói: “Mối quan tâm lớn nhất của tôi là làm thế nào nội dung này có thể được sử dụng để lừa đảo, thao túng, lừa đảo và gây nhầm lẫn cho công chúng”.

Thiếu minh bạch

  • Ngoài ra, những lo ngại về bản quyền và quyền riêng tư cũng được nêu lên, khi Giám đốc điều hành của công ty AI phi lợi nhuận Fairly Trained Ed Newton-Rex nói thêm: “Bạn đơn giản là không thể tranh luận rằng những mô hình này không hoặc sẽ không cạnh tranh với nội dung mà chúng được đào tạo.” và những người sáng tạo ra nội dung đó.
  • “Mô hình được đào tạo dựa trên điều gì? Các nhà cung cấp dữ liệu đào tạo có đồng ý cho công việc của họ được sử dụng không? Việc OpenAI hoàn toàn thiếu thông tin về điều này không mang lại sự tự tin.”
  • Prompt của OpenAI như sau: “Một góc nhìn từ trên cao của Santorini vào thời điểm xanh lúc hoàng hôn, trưng bày kiến trúc tuyệt đẹp của các tòa nhà Cycladic trắng với những mái nhà màu xanh dương. Cảnh quan của caldera là ngoạn mục, và ánh sáng tạo ra một bầu không khí đẹp, thanh bình.“
  • OpenAI đã chia sẻ trong một bài đăng trên blog rằng họ đang thu hút sự quan tâm từ các nghệ sĩ, nhà hoạch định chính sách và những người khác để đảm bảo an toàn trước khi phát hành công cụ mới ra công chúng.
  • Công ty cho biết: “Chúng tôi đang hợp tác với các nhóm đỏ – các chuyên gia trong lĩnh vực như thông tin sai lệch, nội dung thù địch và thành kiến – những người sẽ thử nghiệm mô hình một cách đối nghịch”.
  • “Chúng tôi cũng đang phát triển các công cụ giúp phát hiện nội dung sai lệch, bao gồm bộ phân loại phát hiện có thể xác định thời điểm video được Sora tạo ra.”

OpenAI “không thể đoán trước” việc sử dụng Sora

Tuy nhiên, công ty thừa nhận rằng mặc dù đã nghiên cứu và thử nghiệm sâu rộng, “chúng tôi không thể dự đoán tất cả những cách có lợi mà mọi người sẽ sử dụng công nghệ của chúng tôi cũng như tất cả những cách mọi người sẽ lạm dụng nó”.
  • Họ nói thêm: “Đó là lý do tại sao chúng tôi tin rằng việc học hỏi từ việc sử dụng trong thế giới thực là một thành phần quan trọng trong việc tạo ra và phát hành các hệ thống AI ngày càng an toàn hơn theo thời gian”.
  • New York Times đã kiện OpenAI vào cuối năm ngoái vì cáo buộc OpenAI và nhà đầu tư lớn nhất của nó là Microsoft, đã sử dụng bất hợp pháp các bài báo của tờ báo để đào tạo và tạo ra ChatGPT .
  • Vụ kiện cáo buộc rằng mô hình văn bản AI hiện đang cạnh tranh với tờ báo như một nguồn thông tin đáng tin cậy và đe dọa khả năng cung cấp dịch vụ như vậy của tổ chức.
  • Vào Ngày lễ tình nhân, OpenAI cũng chia sẻ rằng họ đã chấm dứt tài khoản của 5 nhóm liên kết với nhà nước đang sử dụng các mô hình ngôn ngữ lớn của công ty để đặt nền móng cho các chiến dịch hack.
  • Họ cho biết các nhóm đe dọa – có liên quan đến Nga, Iran, Triều Tiên và Trung Quốc – đang sử dụng các công cụ của công ty cho các nhiệm vụ hack tiền thân như truy vấn nguồn mở, dịch thuật, tìm kiếm lỗi trong mã và chạy các tác vụ mã hóa cơ bản.

#source: news.sky.com

Có thể bạn quan tâm:

(function($) { $(document).ready(function() { $('header .ux-search-submit').click(function() { console.log('Moew'); $('header form.search_google').submit(); }); }); })(jQuery);