Điểm mạnh ở đây là các nhà phát triển giờ có thể kiểm soát chính xác cách AI phát âm. Không chỉ là một robot đơn điệu tạo ra âm thanh. Bạn có thể điều chỉnh âm điệu, tốc độ, giọng nói, thậm chí cả biểu cảm cảm xúc của giọng nói. Và điều thú vị nhất? Tất cả đều sử dụng hướng dẫn bằng ngôn ngữ tự nhiên, thông qua các "thẻ âm thanh" gọi là "audio tags". Có thể thay đổi phong cách biểu cảm giữa chừng trong một câu nếu muốn.

Google đã cung cấp tính năng này ở nhiều nơi: API Gemini, AI Studio với giao diện kiểu "ghế đạo diễn" rất trực quan, Vertex AI dành cho doanh nghiệp và Google Vids dành cho người dùng Workspace. Có ba cấp độ kiểm soát giúp quá trình làm việc dễ dàng hơn nhiều.

Điều thu hút sự chú ý của tôi là bảng xếp hạng. Theo phân tích của Artificial Analysis, mô hình này đứng đầu trong các TTS với điểm số Elo 1.211, nằm trong "tứ giác hấp dẫn nhất". Hỗ trợ hơn 70 ngôn ngữ và các cuộc hội thoại đa giọng nói bản địa, mở ra nhiều khả năng mới.

Và còn một chi tiết quan trọng: toàn bộ âm thanh tạo ra đều đi kèm với dấu hiệu nhận biết SynthID tích hợp để xác định rằng nó được tạo ra bởi AI. Điều này rất quan trọng trong bối cảnh tranh luận về nội dung xác thực.

Đối với những người làm nội dung, điều này thay đổi rất nhiều cuộc chơi. Chuyển đổi văn bản thành Gemini không còn chỉ là một công cụ chuyển đổi nữa mà trở thành một động cơ hiệu suất giọng nói có thể lập trình. Có thể tái sử dụng các phong cách giọng nói nhất quán trong toàn bộ dòng sản phẩm, điều mà trước đây khá phức tạp. Thật đáng để theo dõi sự tiến bộ này.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
Gate13thAnniversaryLive
1.12M Phổ biến
#
WCTCTradingChallengeShare8MUSDT
831.74K Phổ biến
#
IsraelStrikesIranBTCPlunges
30.82K Phổ biến
#
CryptoMarketSeesVolatility
201.51K Phổ biến
#
rsETHAttackUpdate
76.66K Phổ biến

Ghim

sơ đồ trang web

Tôi thấy rất thú vị về những gì Google đã công bố trong tuần này về Gemini 3.1 Flash TTS mới. Về cơ bản, họ đã biến đổi chuyển đổi văn bản thành giọng nói của Gemini trở nên tinh vi hơn nhiều so với trước đây.

Chủ đề thịnh hành

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

IsraelStrikesIranBTCPlunges

CryptoMarketSeesVolatility

rsETHAttackUpdate

Ghim