test_hindi_models.py 5.1 KB

12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152
  1. import sentencepiece as spm
  2. import torch
  3. model_file = "/large_experiments/seamless/workstream/ggml/wa/checkpoints/502193129/machine_translation__hi_IN_en_XX_model_ptl_717309797021985"
  4. extra_files = {
  5. "source_vocab_dict": None,
  6. "target_vocab_dict": None,
  7. "source_vocab_model": None,
  8. "target_vocab_model": None,
  9. "source_vocab_json": None,
  10. "target_vocab_json": None,
  11. }
  12. generator = torch.jit.load(model_file, _extra_files=extra_files)
  13. print(generator)
  14. source_spm = spm.SentencePieceProcessor()
  15. source_spm.LoadFromSerializedProto(extra_files["source_vocab_model"])
  16. target_spm = spm.SentencePieceProcessor()
  17. target_spm.LoadFromSerializedProto(extra_files["target_vocab_model"])
  18. def generate_translations(input_texts):
  19. for input_str in input_texts:
  20. input_tokens = source_spm.encode(input_str)
  21. input_tokens.append(source_spm.eos_id())
  22. output_tokens = generator(torch.LongTensor(input_tokens)).tolist()
  23. output_str = target_spm.decode(output_tokens)
  24. print(f"{input_str}\n{output_str}\n\n")
  25. def eval_model():
  26. texts = [
  27. "नमस्ते यह हिंदी में एक परीक्षण वाक्य है 😀👍",
  28. "इस वीडियो को हमारी बहिन ,बेटी और बहुओं को जरूर सुनवाये। मुझे बहुत अच्छा लगा। प्लीज शेयर गुर्प विडियो।",
  29. "इस वीडियो को हमारी बहिन ,बेटी और बहुओं को जरूर सुनवाये। मुझे बहुत अच्छा लगा। प्लीज शेयर गुर्प विडियो।",
  30. "इस वीडियो को हमारी बहिन ,बेटी और बहुओं को जरूर सुनवाये। मुझे बहुत अच्छा लगा। प्लीज शेयर गुर्प विडियो।",
  31. "इस वीडियो को हमारी बहिन ,बेटी और बहुओं को जरूर सुनवाये। मुझे बहुत अच्छा लगा। प्लीज शेयर गुर्प विडियो।",
  32. "इस वीडियो को हमारी बहिन ,बेटी और बहुओं को जरूर सुनवाये। मुझे बहुत अच्छा लगा। प्लीज शेयर गुर्प विडियो।",
  33. "इस वीडियो को हमारी बहिन ,बेटी और बहुओं को जरूर सुनवाये। मुझे बहुत अच्छा लगा। प्लीज शेयर गुर्प विडियो।",
  34. "इस वीडियो को हमारी बहिन ,बेटी और बहुओं को जरूर सुनवाये। मुझे बहुत अच्छा लगा। प्लीज शेयर गुर्प विडियो।",
  35. "इस वीडियो को हमारी बहिन ,बेटी और बहुओं को जरूर सुनवाये। मुझे बहुत अच्छा लगा। प्लीज शेयर गुर्प विडियो।",
  36. "इस वीडियो को हमारी बहिन ,बेटी और बहुओं को जरूर सुनवाये। मुझे बहुत अच्छा लगा। प्लीज शेयर गुर्प विडियो।",
  37. "इस वीडियो को हमारी बहिन ,बेटी और बहुओं को जरूर सुनवाये। मुझे बहुत अच्छा लगा। प्लीज शेयर गुर्प विडियो।",
  38. "इस वीडियो को हमारी बहिन ,बेटी और बहुओं को जरूर सुनवाये। मुझे बहुत अच्छा लगा। प्लीज शेयर गुर्प विडियो।",
  39. "इस वीडियो को हमारी बहिन ,बेटी और बहुओं को जरूर सुनवाये। मुझे बहुत अच्छा लगा। प्लीज शेयर गुर्प विडियो।",
  40. "इस वीडियो को हमारी बहिन ,बेटी और बहुओं को जरूर सुनवाये। मुझे बहुत अच्छा लगा। प्लीज शेयर गुर्प विडियो।",
  41. "इस वीडियो को हमारी बहिन ,बेटी और बहुओं को जरूर सुनवाये। मुझे बहुत अच्छा लगा। प्लीज शेयर गुर्प विडियो।",
  42. ]
  43. generate_translations(texts)
  44. if __name__ == "__main__":
  45. eval_model()