লোকাল ট্রেন পরিষেবা চালু করার জন্য দীর্ঘদিন ধরেই সরব হয়েছেন বহু নেতা নেত্রী।
How can I remove the "|" sign from the Bangla Sentence? and then tokenize it?
in this format "নেত্রী" instead of "নেত্রী।"
I am using python language.
লোকাল ট্রেন পরিষেবা চালু করার জন্য দীর্ঘদিন ধরেই সরব হয়েছেন বহু নেতা নেত্রী।
How can I remove the "|" sign from the Bangla Sentence? and then tokenize it?
in this format "নেত্রী" instead of "নেত্রী।"
I am using python language.
To remove the ending "।", you can use string .replace() method: sentence.replace('।', '').
To tokenize the sentence, there are many libraries available, you can use any of inltk, indicnlp, stanfordnlp, bnlp. Here's a complete example using bnlp:
from bnlp import NLTKTokenizer
bnltk = NLTKTokenizer()
sentence = "লোকাল ট্রেন পরিষেবা চালু করার জন্য দীর্ঘদিন ধরেই সরব হয়েছেন বহু নেতা নেত্রী।"
sentence = sentence.replace('।', '') // remove ending "।"
word_tokens = bnltk.word_tokenize(sentence)