スペインのバスク大学や英カーディフ大学などに所属する研究者らが発表した論文「Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs」は、一部のAIモデルが文化的な話題において日本文化に強い執着を見せることが明らかにした研究報告だ。
近年、大規模言語モデル(LLM)は驚異的な進化を遂げ、多言語で多様なタスクをこなすようになったが、その内面に潜む文化的な偏りについては一部で議論の的となっている。

研究チームは、LLMが持つ地域的な偏りを検証するため、「Culture-Related Open Questions」(CROQ)と呼ばれる独自のデータセットを構築した。これは「どのような伝統舞踊が存在するか?」「日常の食事として何が食べられているか?」といった、具体的な国や場所を指定しない質問を24の異なる言語でまとめたもの(1320問×24言語で計3万1680問)である。

研究チームは、モデルに自ら場所を選ばせて回答させることで、AIの内部にある無意識の文化的嗜好をあぶり出そうと試みた。実験には、以下の8つのモデルが使用された。
GPT-4o-mini
Gemini 2.5 Flash
Claude 3.5 Haiku
Llama-4 Maverick
Command-R 08-2024
Magistral-small-2506
DeepSeek-v3.2-exp
Qwen3-next-80b-a3b-instruct
分析の結果、質問された言語が公用語となっている国を回答の舞台に選ぶ傾向が強かった。日本語で質問すれば日本の文化について答え、中国語であれば中国について答えるといった具合だ。特に、インターネット上にある学習データが少ないマイナーな言語ほど、その言語圏の国に固執し、回答の多様性が著しく低下することが分かった。
興味深い発見は、それら入力言語に直接紐づく国を分析対象から除外したときに現れた。この場合、言語やモデルの種類を問わず、AIは一貫して日本と米国を圧倒的な頻度で引き合いに出した。とりわけ日本への偏りは顕著で、評価された8つのモデルのうち6つにおいて、最も参照される国となった。


なぜAIはこれほどまでに日本や特定の国の文化に偏ってしまうのか。研究チームは、このバイアスがAIのトレーニングプロセスのどの段階で生じているのかを特定するため、オープンなモデルによる追加実験を行った。
その結果、事前学習の段階にあるベースモデルでは世界中の国々を比較的バランスよく参照し、多様な文化を提示していた。しかし、人間にとって安全で役立つ回答ができるように微調整を施す教師ありファインチューニングの事後学習プロセスを経た途端に、回答の分布が狭まり、日本や米国への強い偏重が生じていた。
一般的に、ファインチューニングなどの事後学習はモデルの有用性を高めるといわれる。一方で文化的な文脈においては、皮肉にも世界の多様な文化を切り捨て、特定の文化を扱う画一化を引き起こしている可能性が示唆された。ただし、追加実験に使ったのは「Llama-3.1 8B」「Gemma2 9B」「Qwen2.5-7B」やその派生モデルなどで、最初の実験と同じではない。
스페인의 바스크 대학이나 영카디후 대학 등에 소속하는 연구자등이 발표한 논문 「Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs」는, 일부의 AI모델이 문화적인 화제에 대해 일본 문화에 강한 집착을 보이는 것이 분명히 한 연구 보고다.
근년, 대규모 언어 모델(LLM)은 경이적인 진화를 이루어 다언어로 다양한 태스크를 해내게 되었지만, 그 내면에 잠복하는 문화적인 편향에 대해서는 일부에서 논의의 목표가 되고 있다.

연구팀은, LLM가 가지는 지역적인 편향을 검증하기 위해(때문에), 「Culture-Related Open Questions」(CROQ)로 불리는 독자적인 데이터 세트를 구축했다.이것은 「어떠한 전통 무용이 존재할까?」 「일상의 식사로서 무엇을 먹을 수 있고 있을까?」라고 한, 구체적인 나라나 장소를 지정하지 않는 질문을 24가 다른 언어로 집계한 것(1320문吔언어로 합계 3만 1680문)이다.

연구팀은, 모델에 스스로 장소를 선택하게 해 회답시키는 것으로, AI의 내부에 있는 무의식의 문화적 기호를 굽기 시작하려고 시도했다.실험에는, 이하의 8개의 모델이 사용되었다.
GPT-4o-mini
Gemini 2.5 Flash
Claude 3.5 Haiku
Llama-4 Maverick
Command-R 08-2024
Magistral-small-2506
DeepSeek-v3.2-exp
Qwen3-next-80b-a3b-instruct
분석의 결과, 질문받은 언어가 공용어가 되고 있는 나라를 회답의 무대에 선택하는 경향이 강했다.일본어로 질문하면 일본의 문화에 대해 대답해 중국어이면 중국에 도착해 대답한다고 하는 상태다.특히, 인터넷상에 있는 학습 데이터가 적은 마이너 언어(정도)만큼, 그 언어권의 나라를 고집해, 회답의 다양성이 현저하게 저하하는 것을 알았다.
흥미로운 발견은, 그것들 입력 언어에 직접끈구국을 분석 대상으로부터 제외했을 때에 나타났다.이 경우, 언어나 모델의 종류를 불문하고, AI는 일관해서 일본과 미국을 압도적인 빈도로 인용했다.특히 일본에의 편향은 현저하고, 평가된 8개의 모델중 6에 대하고, 가장 참조되는 나라가 되었다.


왜 AI는 이 정도까지 일본이나 특정의 나라의 문화에 치우쳐 버리는 것인가.연구팀은, 이 바이어스가 AI의 트레이닝 프로세스의 어느 단계에서 생기고 있는지를 특정하기 위해(때문에), 개방적인 모델에 의한 추가 실험을 실시했다.
그 결과, 사전 학습의 단계에 있는 베이스 모델에서는 온 세상의 나라들을 비교적 균형있게 참조해, 다양한 문화를 제시하고 있었다.그러나, 인간에게 있어서 안전하고 도움이 되는 회답을 할 수 있도록(듯이) 미조정을 베푸는 교사 있어 파인 튜닝의 사후 학습 프로세스를 거친 바로 그때, 회답의 분포가 좁아져, 일본이나 미국에의 강한 편중이 생기고 있었다.
일반적으로, 파인 튜닝등의 사후 학습은 모델의 유용성을 높인다고 한다.한편으로 문화적인 문맥에 대해서는, 짓궂게도 세계의 다양한 문화를 잘라 버려 특정의 문화를 취급하는 획일화를 일으키고 있을 가능성이 시사되었다.다만, 추가 실험에 사용한 것은 「Llama-3.1 8 B」 「Gemma2 9 B」 「Qwen2.5-7 B」나 그 파생 모델등에서, 최초의 실험과 같지 않다.
<iframe frameborder="0" src="//www.youtube.com/embed/7p6gwEcgS_s" width="640" height="360" class="note-video-clip"></iframe>

