德法意日韩等非英语国家,在大语言模型上有什么进展吗?大模型不同语种语料的不平衡是否会创造语言不平等?
2024-02-18 阅读 11
有进展:德国的 Aleph Alpha、法国的 Mistral、欧洲发起的多语种项目 BLOOM、韩国的 Naver HyperCLOVA 和 Kakao 的 KoGPT、日本的 Rinna 等,都在推进本土化或多语种大模型,意大利主要靠高校和创业公司在跟进。语料不平衡确实会带来“语言不平等”——低资源语系模型性能、应用和文化理解都会落后,进而影响教育和产业机会。可通过多语种联合训练、迁移学习、有针对性的数据采集与社区驱动的开源语料等措施缓解,但短期内难以彻底消除差距。
更新于 2026年01月03日