Chỉ với vài thao tác đơn giản trên máy tính, bạn hoàn toàn có thể tạo giọng nói bản địa bằng Google AI Studio nghe tự nhiên như người thật.
Trong bài viết này, Sforum sẽ hướng dẫn bạn cách tạo giọng nói bản địa bằng Google AI Studio và gợi ý thêm các prompt cho nhiều vùng miền khác nhau, giúp bạn dễ dàng tạo ra giọng đọc tự nhiên, gần gũi và phù hợp với nội dung mà bạn đang muốn thực hiện. Mời bạn cùng tham khảo bài viết!

Cách tạo giọng nói bản địa bằng Google AI Studio
Bước 1: Truy cập mục Generate Media
Đầu tiên, sau khi mở Google AI Studio, bạn hãy chọn mục Generate media ở menu bên trái.

Bước 2: Chọn Gemini Speech Generation
Trong danh sách các mô hình tạo nội dung, hãy nhấn vào Gemini speech generation. Công cụ này cho phép bạn chuyển đổi văn bản thành giọng nói chất lượng cao.

Bước 3: Chọn chế độ Multi-speaker
Để tạo nhiều giọng đọc bản địa khác nhau trong cùng một đoạn hội thoại, bạn chọn Multi-speaker audio. Nếu chỉ cần một giọng duy nhất thì có thể dùng chế độ Single-speaker audio.

Bước 4: Viết kịch bản giọng đọc
Ở bước này, bạn cần xây dựng phần kịch bản cho từng nhân vật. Đây là yếu tố quan trọng để giọng đọc AI trở nên tự nhiên và sống động, thay vì chỉ là những câu chữ đơn điệu.
Trước hết, hãy mô tả ngắn gọn thông tin nhân vật, bao gồm độ tuổi, vùng miền và đặc điểm giọng. Ví dụ: “Hà Nội – 23 tuổi – giọng Bắc chuẩn, rõ ràng, tone ấm áp, chuyên nghiệp” hoặc “Huế – 22 tuổi – giọng ngọt, trầm, dịu, tone nhẹ nhàng, tình cảm”. Điều này giúp hệ thống nhận diện chính xác phong cách cần thể hiện.

Bước 5: Thêm đoạn hội thoại
Sau khi viết kịch bản, bạn bắt đầu chèn các đoạn thoại cho từng nhân vật. Mỗi dòng thoại nên gắn với một “Speaker” để AI phân biệt ai đang nói. Từ đó, bạn có thể tạo ra một đoạn hội thoại liền mạch, giống như đang nghe hai người trò chuyện thực sự.

Bước 6: Chọn giọng và tinh chỉnh
Kế tiếp, bạn chọn giọng mẫu trong mục Voice settings. Google AI Studio cung cấp nhiều lựa chọn với cao độ, nhịp điệu và phong cách khác nhau. Bạn có thể thử nghe trước để chọn giọng phù hợp nhất với nhân vật.

Bước 7: Tùy chỉnh giọng cho từng nhân vật
Mỗi nhân vật có thể dùng một giọng khác nhau, ví dụ Speaker 1 – Zephyr và Speaker 2 – Puck. Việc này giúp đoạn hội thoại thêm sinh động, có sự phân biệt rõ ràng giữa các nhân vật.

Bước 8: Chạy thử kịch bản
Sau khi hoàn tất việc viết thoại và chọn giọng, bạn nhấn Run để hệ thống tạo file âm thanh. Đây là bước kiểm tra để nghe thử giọng AI đã khớp với kịch bản hay chưa.

Bước 9: Nghe lại giọng đọc
Sau khi hệ thống đã tạo xong file âm thanh, bạn hãy nhấn vào nút phát để nghe lại toàn bộ đoạn giọng đọc. Đây là bước kiểm tra quan trọng để đảm bảo chất giọng, tốc độ và ngữ điệu đã đúng như mong muốn trước khi lưu. Nếu cần, bạn có thể quay lại các bước chỉnh sửa để tối ưu thêm.

Bước 10: Tải xuống file giọng đọc
- Khi đã hài lòng với kết quả, nhấn vào biểu tượng ba chấm bên cạnh thanh phát để mở bảng menu thêm.

- Cuối cùng, bạn nhấn chọn Download để tải file giọng đọc về máy. File này có thể được sử dụng ngay cho video, podcast, bài thuyết trình hoặc các dự án sáng tạo khác.

