2025年08月16日 星期六
Every Language Deserves Its Large Language Model
By SUN Jin & DU Peng

 

    Large language models (LLMs) must not cater solely to dominant languages. Every language deserves its own culturally-grounded LLM to preserve its unique linguistic identity.

    This urgency was highlighted at a recent international seminar on multilingual LLMs during the 2025 World Artificial Intelligence Conference held in Shanghai.

    Vlado Deli?, professor of the Faculty of Technical Sciences at the University of Novi Sad, Serbia, said that nations with minority languages are at risk of AI marginalization. The lack of digital corpora results in severely inadequate support for low-resource languages within mainstream LLMs.

    Despite the rapid evolution of LLMs, many minority languages remain critically overlooked.

    A core issue is data scarcity: building LLMs requires massive corpora as training data, yet those for low-resource languages are starkly insufficient. Even when available, such linguistic data is often intentionally deprioritized during LLMs training, leading directly to LLMs' consistent underperformance.

    Deli? pointed out the imbalance: Serbian language data represents less than 0.1 percent of tokens (the basic linguistic units in LLMs) within major LLMs. Such marginalization poses serious risks, such as mistranslation in critical fields like medicine or law could lead to incorrect decisions. This stark reality, he argued, necessitates building LLMs based on local linguistic patterns and cultural frameworks.

    Every minor language needs its own data ecosystems to grow LLMs. Gábor Prószéky, director general of the Hungarian Research Center for Linguistics, explained that while Hungary is in Europe, its language doesn't belong to the Indo-European language family. Linguistically speaking, Hungarian is an agglutinative language with complex affix combinations and free word order. This poses unique challenges in tokenization and modeling in LLMs. Consequently, LLMs trained in other languages often falter, making it necessary to customize and adjust their algorithm specifically for Hungarian.

    Nations with unique linguistic heritage have a responsibility to build specialized data corpus. Tamás Váradi, senior advisor at the Hungarian Research Center for Linguistics, stressed that this includes providing not only raw data, but professionally annotated datasets for enabling LLMs to perform effectively.

    International collaboration is proving vital to narrow the disparity and bridge the digital gap. Both Prószéky's and  Deli?'s team are partnering with Chinese companies.

   

京ICP备06005116