Happy Horse 1.1 bởi Alibaba hiện đã ra mắt — xem những thay đổi trong bản cập nhật 1.1 trước khi tạo video. Đọc hướng dẫn →
Dùng thử logo AI Happy Horse

TryHappyHorseAI

Hướng dẫn sử dụng Happy Horse 1.1 Generator: Văn bản, Hình ảnh, Tham chiếu

Author: Happy Horse AI Team|Cập nhật lần cuối: tháng 6 năm 2026

Happy Horse 1.1 dễ sử dụng nhất khi bạn bắt đầu từ đúng trang trình tạo. Dùng text-to-video khi ý tưởng chỉ mới tồn tại dưới dạng prompt, image-to-video khi bạn đã có một khung hình đầu tiên đủ mạnh, và reference-to-video khi tính nhất quán của nhân vật, sản phẩm hoặc phong cách quan trọng hơn sự tự do tuyệt đối của prompt.

Chúng tôi đã chụp ảnh màn hình trong hướng dẫn này từ trình tạo TryHappyHorseAI đang hoạt động vào ngày 24 tháng 6 năm 2026, sau khi các trang công khai tải xong. Nếu bạn muốn xem tổng quan bản phát hành rộng hơn trước, hãy đọc Happy Horse 1.1 đã ra mắt: Có gì thay đổi và cách sử dụng. Bạn cũng có thể bắt đầu từ trung tâm trình tạo video Happy Horse AI nếu muốn so sánh tất cả các chế độ tạo trước khi chọn một trang chuyên biệt. Bài viết này là phần đồng hành thực hành: nên mở trang nào, nên chỉnh cài đặt nào, cách viết prompt và nên nghiên cứu những ví dụ nào.

Trang chủ trình tạo Happy Horse 1.1 với các chế độ video từ văn bản, hình ảnh và tham chiếu

Bản đồ quy trình nhanh

Ba trang tạo nội dung của Happy Horse 1.1 được tách riêng vì một lý do. Tất cả đều tạo video, nhưng mỗi trang yêu cầu một loại tài nguyên khởi đầu khác nhau.

TrangBắt đầu vớiPhù hợp nhất choMở tại
Text to VideoMột cảnh viết sẵnClip ý tưởng, thử nghiệm điện ảnh, ý tưởng social, biến thể quảng cáoText to Video
Image to VideoMột hình khung đầu tiênChuyển động sản phẩm, chân dung, poster, vòng lặp hình ảnhImage to Video
Reference to VideoTối đa 9 hình tham chiếuNhất quán nhân vật, trang phục, chi tiết sản phẩm, phong cách chiến dịch lặp lạiReference to Video

Sai lầm cần tránh là dùng một prompt dài hơn để bù cho việc chọn sai chế độ. Nếu bạn đã có đúng ảnh sản phẩm cần dùng, image-to-video thường sẽ tốt hơn text-to-video. Nếu bạn cần giữ nguyên cùng một người hoặc bộ trang phục trong một cảnh mới, reference-to-video thường sẽ tốt hơn cả hai.

1. Text to Video: Xây dựng cảnh từ đầu

Dùng Text to Video khi cảnh vẫn còn linh hoạt. Đây là chế độ nhanh nhất để khám phá ý tưởng vì prompt gánh toàn bộ cảnh quay: chủ thể, hành động, máy quay, môi trường, ánh sáng, tâm trạng và định hướng âm thanh.

Trang trình tạo text-to-video của Happy Horse 1.1 với prompt, tỷ lệ khung hình, thời lượng, seed, âm thanh, xem trước và ví dụ

Các điều khiển quan trọng nhất trên trang này là:

Điều khiểnCách dùng thực tế
ModelChọn Happy Horse 1.1 cho công việc T2V mới.
PromptMô tả cảnh nhìn thấy được, chuyển động máy quay, tâm trạng và âm thanh.
ResolutionDùng 720p để lặp thử nhanh hơn và 1080p để có bản render cuối mạnh hơn.
Aspect ratioChọn định dạng mục tiêu trước khi tạo: 16:9, 9:16, 1:1, 4:3, 3:4, 4:5, 5:4, 9:21, hoặc 21:9.
DurationChọn độ dài clip ngắn từ 3 đến 15 giây.
SeedTái sử dụng seed khi bạn muốn một hướng biến thể có thể lặp lại hơn.
Generate audioBật khi cảnh cần lời thoại, âm thanh môi trường hoặc âm thanh hành động.

Công thức prompt text-to-video gọn nhất là:

Chủ thể + hành động + môi trường + chuyển động máy quay + ánh sáng + tâm trạng + gợi ý âm thanh + định dạng

Ví dụ:

Một vũ công ballet chuyên nghiệp thực hiện cú grand jeté đầy uy lực trên sân khấu ánh sáng mờ, hai tay dang rộng, váy tutu tung bay trong chuyển động chậm. Máy quay bám theo từ góc thấp bên hông, đèn chiếu ấm tạo bóng dài trên sàn, ánh sáng sân khấu đậm chất điện ảnh, chuyển động vải nhẹ, 10 giây, 16:9.

Các ví dụ T2V nổi bật hiện tại rất hữu ích vì chúng cho thấy nhiều kiểu kiểm soát khác nhau: đối thoại nhiều người, biên đạo đánh nhau, chuyển động one-take, chuyển động thể thao và ballet. Khi nghiên cứu chúng, hãy nhìn ít vào chủ thể hơn và nhiều hơn vào cấu trúc: các ví dụ tốt hơn sẽ mô tả ai có trong cảnh, máy quay di chuyển thế nào, điều gì thay đổi theo thời gian và âm thanh nên diễn ra ra sao.

Ví dụ text-to-video nên nghiên cứu

Mẫu ballet là một ví dụ prompt-first rất gọn vì prompt đưa ra một chủ thể duy nhất, môi trường sân khấu, phong cách máy quay và vốn từ chuyển động rõ ràng.

Mẫu tương tác nhiều người hữu ích cho dạng prompt theo phong cách đối thoại. Hãy chú ý cách prompt tách cảnh, chủ thể, chuyển động và các nhịp âm thanh thay vì xem toàn bộ clip như một chỉ dẫn chung chung.

2. Image to Video: Làm chuyển động từ khung hình đầu tiên

Dùng Image to Video khi bạn đã có sẵn khung hình hình ảnh mình muốn. Hình ảnh tải lên đã làm phần lớn công việc, nên prompt nên dẫn dắt chuyển động thay vì phát minh lại toàn bộ cảnh quay.

Trang trình tạo image-to-video của Happy Horse 1.1 với tải lên khung đầu tiên, prompt chuyển động, độ phân giải, thời lượng, seed, xem trước và ví dụ

Image-to-video mạnh nhất khi hình nguồn đã có sẵn:

  • một chủ thể rõ ràng
  • hướng ánh sáng sạch
  • độ sâu tiền cảnh và hậu cảnh dễ đọc
  • bố cục cắt khung bạn muốn cho video cuối
  • đủ chi tiết để model giữ được nhận diện hoặc hình dạng sản phẩm

Công thức prompt thực tế là:

Giữ nguyên hình ảnh đã tải lên + thêm chuyển động hợp lý + thêm chuyển động máy quay + bảo vệ các chi tiết quan trọng

Ví dụ cho hình ảnh sản phẩm:

Làm chuyển động chai nước hoa ở khung hình đầu với cú đẩy máy chậm đậm chất điện ảnh, làn sương hổ phách nhẹ trôi quanh phần đáy, quét sáng tinh tế trên mặt kính, phản chiếu chân thực, giữ nguyên hình dáng chai, nhãn, màu sắc và bố cục mặt bàn.

Ví dụ cho chân dung:

Làm chuyển động bức chân dung với cái chớp mắt nhẹ, nhịp thở tự nhiên, tóc lay động nhẹ và máy quay trôi chậm. Giữ nguyên khuôn mặt, trang phục, bố cục nền và ánh sáng ban đầu.

Với chế độ này, hãy cắt khung trước khi tải lên. Nếu bạn muốn video ngắn dọc, hãy chuẩn bị khung hình đầu tiên theo chiều dọc. Nếu bạn muốn một vòng lặp màn hình ngang cho landing page, hãy chuẩn bị khung hình đầu tiên theo chiều ngang. Image-to-video không phải là nơi để yêu cầu model tái bố cục triệt để một khung hình đã hoàn thiện.

Các ví dụ I2V nổi bật hiện tại là tài liệu tham khảo tốt cho nhiều dạng công việc với hình nguồn: cảnh hành động trong lớp học, hình thủ công chi tiết, ảnh chụp sản phẩm nước hoa và cảnh kiểu quán rượu cổ. Mẫu số chung rất rõ: hình nguồn mạnh trước, chuyển động tiết chế sau.

Ví dụ image-to-video nên nghiên cứu

Mẫu nước hoa là kiểu I2V dễ tái sử dụng nhất cho công việc thương mại: giữ nguyên sản phẩm, thêm bầu không khí, rồi để chuyển động máy quay và ánh sáng tạo cảm giác cao cấp.

Mẫu đánh nhau trong lớp học là một trường hợp I2V khó hơn. Nó hữu ích vì prompt dùng phần lớn ngân sách chi tiết cho hành động nhân-quả, tương tác với môi trường và đồng bộ máy quay.

Để xem hướng dẫn sâu hơn về quy trình này, hãy đọc Happy Horse AI Image to Video: Hướng dẫn đầy đủ kèm ví dụ.

3. Reference to Video: Giữ nguyên nhận diện và phong cách

Dùng Reference to Video khi chỉ dùng prompt là chưa đủ. Chế độ này cho phép bạn tải lên nhiều hình tham chiếu và mô tả cách chúng nên kiểm soát video được tạo ra.

Trang trình tạo reference-to-video của Happy Horse 1.1 với tải lên nhiều hình, prompt cảnh, tỷ lệ khung hình, thời lượng, seed, xem trước và ví dụ

Happy Horse 1.1 hỗ trợ tối đa 9 hình tham chiếu trong quy trình này. Phần quan trọng không chỉ là tải hình lên; mà còn là đặt tên vai trò của chúng rõ ràng trong prompt.

Hãy dùng cấu trúc này:

Dùng character1 cho [nhận diện/khuôn mặt/trang phục].
Dùng character2 cho [người thứ hai hoặc sinh vật].
Dùng image3 cho [địa điểm/sản phẩm/phong cách].
Mô tả hành động, máy quay, ánh sáng và âm thanh.

Ví dụ:

Dùng character1 làm kiếm sĩ, giữ nguyên khuôn mặt, áo choàng đen và mái tóc bạc của anh ấy. Dùng character2 làm công chúa rồng, giữ nguyên vương miện và giáp vai như vảy của cô ấy. Họ đối mặt nhau trong sân cung điện mưa rơi, máy quay chuyển động vòng tròn chậm, ánh đèn lồng kịch tính, chuyển động võ thuật tiết chế, chất hiện thực giả tưởng đậm tính điện ảnh, 16:9.

Reference-to-video phù hợp nhất cho:

  • tính nhất quán nhân vật giữa các cảnh
  • kể chuyện nhiều nhân vật
  • video sản phẩm nơi vật thể phải luôn dễ nhận ra
  • concept influencer hoặc presenter với trang phục và khuôn mặt ổn định
  • chiến dịch quảng cáo cần lặp lại cùng một ngôn ngữ hình ảnh

Các ví dụ R2V nổi bật hiện tại bao phủ đúng dải tình huống: cảnh võ thuật, ghép cặp nhân vật giả tưởng, thay đổi biểu cảm, trình bày live-shopping và prompt tập trung vào vật thể. Khi nghiên cứu chúng, hãy chú ý cách văn bản gán vai trò cho từng hình tham chiếu. Một prompt mơ hồ như "dùng các hình này" sẽ yếu hơn "dùng character1 cho nhận diện, image2 cho trang phục và image3 cho hình dạng sản phẩm."

Ví dụ reference-to-video nên nghiên cứu

Mẫu võ thuật là một ví dụ gán vai trò trực tiếp: image1image2 được xem là hai đấu sĩ, trong khi prompt xác định cảnh và hành động chung.

Mẫu live-shopping cho thấy vì sao R2V hữu ích không chỉ trong giả tưởng hay hành động. Prompt ánh xạ hình tham chiếu tới người trình bày, trang phục, sản phẩm và bối cảnh nhà ở, rồi thêm các nhịp thoại theo thời gian.

Những cài đặt quan trọng trên cả ba trang

Phần lớn các lần tạo thất bại đến từ việc mục tiêu không khớp với cài đặt, chứ không phải do một tính từ dở trong prompt.

Cài đặtHãy dùng theo cách này
DurationBắt đầu với 5 giây để thử nghiệm. Dùng 8-10 giây khi chuyển động cần thời gian để phát triển. Tránh yêu cầu quá nhiều nhịp hành động trong 3 giây.
ResolutionLặp thử ở 720p; chuyển sang 1080p khi ý tưởng đủ đáng để hoàn thiện.
Aspect ratioVới text-to-video và reference-to-video, hãy đặt tỷ lệ nền tảng cuối trước khi tạo. Với image-to-video, hãy chuẩn bị khung hình đầu tiên theo đúng crop mong muốn.
SeedChỉ dùng sau khi bạn đã có một hướng prompt đáng để khai thác. Nó phù hợp hơn cho biến thể có kiểm soát hơn là cứu một prompt yếu.
AudioBật âm thanh khi lời thoại, âm thanh môi trường, nhạc hoặc hiệu ứng hành động là một phần của cảnh. Nếu bạn cần một vòng lặp hình ảnh im lặng, hãy nói rõ trong prompt.
Reference imagesHãy dùng ít hình tham chiếu nhưng rõ ràng trước khi tải cả 9 hình lên. Mỗi hình tham chiếu nên có một nhiệm vụ riêng.

Nếu bạn đang viết prompt từ đầu, hãy mở 50 prompt Happy Horse AI thực sự hiệu quả như một tài liệu đồng hành. Các ví dụ ở đó là mẫu 1.0 cũ hơn, nhưng cấu trúc prompt vẫn chuyển sang 1.1 rất tốt.

Mẫu prompt có thể tái sử dụng

Mẫu text-to-video

[Chủ thể] đang [hành động] trong [môi trường]. Máy quay [chuyển động], với [ánh sáng] và [tâm trạng]. Bao gồm [gợi ý âm thanh]. Giữ [ràng buộc phong cách]. Định dạng: [tỷ lệ khung hình], [thời lượng].

Mẫu image-to-video

Làm chuyển động hình ảnh đã tải lên với [chuyển động nhỏ], [chuyển động máy quay] và [chi tiết môi trường]. Giữ nguyên [nhận diện/hình dạng sản phẩm/bố cục/ánh sáng]. Tránh thay đổi [chi tiết cần bảo vệ].

Mẫu reference-to-video

Dùng character1 làm [vai trò] và giữ nguyên [chi tiết nhận diện]. Dùng image2 làm [tham chiếu phong cách/địa điểm/sản phẩm]. Tạo [hành động trong cảnh] với [chuyển động máy quay], [ánh sáng] và [âm thanh/tâm trạng]. Giữ tất cả các hình tham chiếu chính nhất quán.

Những lỗi thường gặp

Lỗi 1: Yêu cầu text-to-video giữ nhận diện cố định.
Nếu nhận diện phải ổn định, hãy dùng reference-to-video thay thế.

Lỗi 2: Tải lên một khung hình đầu tiên yếu.
Image-to-video không thể sửa đáng tin cậy ánh sáng kém, bố cục rối hoặc nhận diện chủ thể không rõ.

Lỗi 3: Dùng mọi hình tham chiếu chỉ vì có thể.
Có sẵn chín hình tham chiếu, nhưng ba hình rõ ràng thường tốt hơn chín hình dư thừa.

Lỗi 4: Quên định dạng mục tiêu.
Một video dọc kiểu TikTok và một clip ngang kiểu YouTube không nên bắt đầu từ cùng một tỷ lệ.

Lỗi 5: Nhồi quá nhiều vào thời lượng ngắn.
Đừng yêu cầu năm chuyển động máy quay, ba cảm xúc và cả một chuỗi hành động đầy đủ trong clip 5 giây. Hãy chọn một khoảnh khắc quan trọng nhất.

Công thức khởi đầu được khuyến nghị

Mục tiêuTrangCài đặt khởi đầuHướng prompt
Cảnh ý tưởng nhanhText to Video720p, 5s, tỷ lệ mục tiêuChủ thể rõ, một hành động, một chuyển động máy quay
Vòng lặp quảng cáo sản phẩm trên socialImage to VideoẢnh sản phẩm, 1080p bản cuốiGiữ nguyên sản phẩm, thêm sương/quét sáng/đẩy máy chậm
Nhịp truyện nhân vậtReference to Video2-4 hình tham chiếu, 5-8sÁnh xạ character1, character2, địa điểm/phong cách
Thử nghiệm thoại hoặc âm thanh môi trườngText or ReferenceBật audio, 5-8sViết trực tiếp câu thoại hoặc nền âm thanh
Tính nhất quán chiến dịchReference to VideoCùng bộ tham chiếu qua nhiều lần thửGiữ vai trò tham chiếu ổn định, thay đổi hành động cảnh

FAQ

Chế độ Happy Horse 1.1 nào là tốt nhất để bắt đầu?

Hãy bắt đầu với text-to-video nếu bạn chỉ có ý tưởng, image-to-video nếu bạn đã có một ảnh tĩnh hoàn chỉnh, và reference-to-video nếu nhận diện, hình dạng sản phẩm, trang phục hoặc tính nhất quán phong cách là quan trọng.

Happy Horse 1.1 có hỗ trợ image-to-video không?

Có. Happy Horse 1.1 hỗ trợ image-to-video trên trang chuyên biệt Image to Video. Tải lên một khung hình đầu tiên, sau đó dùng motion prompt để mô tả chuyển động máy quay và chuyển động của cảnh.

Tôi có thể dùng bao nhiêu hình tham chiếu?

Quy trình reference-to-video của Happy Horse 1.1 hỗ trợ tối đa 9 hình tham chiếu. Hãy dùng nhãn vai trò rõ ràng như character1, character2 hoặc image3 trong prompt để model biết mỗi hình tham chiếu kiểm soát điều gì.

Tôi nên dùng 720p hay 1080p?

Dùng 720p để thử prompt nhanh hơn và 1080p khi bạn đã sẵn sàng hoàn thiện một hướng mạnh. Độ phân giải không sửa được prompt yếu, vì vậy hãy lặp trên cấu trúc cảnh trước khi chi thêm cho chất lượng cuối.

Happy Horse 1.1 có thay thế chỉnh sửa video không?

Chưa phải với mọi quy trình. Happy Horse 1.1 là mặc định cho text-to-video, image-to-video và reference-to-video. Nếu bạn cần chỉnh sửa một video có sẵn, hãy dùng quy trình video-edit hiện tại cho đến khi hỗ trợ chỉnh sửa 1.1 trở thành một phần của luồng trình tạo công khai.

Thử ba trang Happy Horse 1.1

Bước tiếp theo dễ nhất là mở trang phù hợp với tài nguyên khởi đầu của bạn:

Nếu bạn vẫn đang cân nhắc model đã thay đổi gì, hãy bắt đầu với hướng dẫn phát hành Happy Horse 1.1, rồi quay lại đây và thử ba quy trình song song với nhau.

Hướng dẫn sử dụng Happy Horse 1.1 Generator