# 第3章　言語サービスAPIの分類軸

> **ナビゲーション**
>
> * 前の章: [第2章　APIとは何か](/ja/solutions/part1-vision/ch02-what-is-api.md)
> * 次の章: [第4章　品質ティア](/ja/solutions/part2-taxonomy/ch04-quality-tiers.md)

***

![第3章：言語サービスAPIの分類軸——モダリティ変換マトリクスで体系的に整理する](/files/pXJmSAyZQzvVfcq00yw0)

***

## 3.1 モダリティ変換マトリクス

### 「何を入力して何を出力するか」で整理する

言語サービスAPIを理解する上で最も有効な整理軸は、**入力モダリティ（何を受け取るか）と出力モダリティ（何を返すか）** の組み合わせです。ここでいう「モダリティ」とは、データの形式・種類を意味します。

![入力と出力の「モダリティ」の組み合わせで、すべての言語サービスAPIを体系的に整理できる](/files/yvCKw6i1tM9i3Tp5uHLk)

主なモダリティは以下の4種類です：

* **テキスト（Text）**: 文字列データ
* **音声（Audio）**: 音声・音楽ファイル、マイク入力
* **動画（Video）**: 映像データ（音声トラックを含む）
* **画像（Image）**: 静止画像（スキャンドキュメント、写真など）

![テキスト・音声・動画・画像——4つのモダリティがすべての言語サービスの入出力を構成する](/files/KQELAKyFbWpbWI8gwPMe)

### 言語変換の有無を加えた2次元マトリクス

さらに「言語の変換が行われるか」という軸を加えると、サービスタイプが明確に整理できます。

**モダリティ変換 × 言語変換マトリクス**

| 入力 → 出力         | 言語変換なし（同言語） | 言語変換あり（異言語）  |
| --------------- | ----------- | ------------ |
| **テキスト → テキスト** | スタイル変換・校正   | テキスト翻訳       |
| **音声 → テキスト**   | 文字起こし（STT）  | 音声翻訳（STT+翻訳） |
| **テキスト → 音声**   | 音声合成（TTS）   | 翻訳 + TTS     |
| **音声 → 音声**     | 音声処理・ノイズ除去  | リアルタイム通訳     |
| **動画 → テキスト**   | 字幕生成（同言語）   | 字幕翻訳         |
| **画像 → テキスト**   | OCR（文字認識）   | OCR + 翻訳     |

![モダリティ変換×言語変換の2軸マトリクスで、すべての言語サービスAPIが一覧できる](/files/et07rw0PBor6p621dArs)

このマトリクスを頭に入れておくと、「自分が必要としているサービスはどこに位置するか」を素早く把握できます。

***

## 3.2 サービスタイプ別の解説

### テキスト翻訳（Text Translation）

**定義**: ある言語のテキストを別の言語のテキストに変換するサービス。言語サービスの中核。

**典型ユースケース**:

* Webサイトの多言語化
* メール・チャットのリアルタイム翻訳
* 製品説明文の一括翻訳

**代表ベンダー**: DeepL、Google Cloud Translation API、Amazon Translate、Microsoft Azure Translator

***

### 文字起こし（STT: Speech-to-Text）

**定義**: 音声データをテキストに変換するサービス。ASR（Automatic Speech Recognition: 自動音声認識）とも呼ばれる。

**典型ユースケース**:

* 会議録の自動作成
* ボイスメモのテキスト化
* コールセンターの通話記録

**代表ベンダー**: OpenAI Whisper API、Google Cloud Speech-to-Text、Amazon Transcribe、Microsoft Azure Speech

***

### 音声合成（TTS: Text-to-Speech）

**定義**: テキストを自然な音声に変換するサービス。読み上げとも呼ばれる。

**典型ユースケース**:

* アクセシビリティ対応（視覚障害者向け読み上げ）
* 音声アシスタント・チャットボットの返答音声化
* eLearningコンテンツのナレーション自動生成

**代表ベンダー**: Google Cloud Text-to-Speech、Amazon Polly、Microsoft Azure Neural TTS、ElevenLabs

***

### 音声翻訳（Speech-to-Speech / Speech Translation）

**定義**: 音声を受け取り、別言語の音声またはテキストとして出力するサービス。STT + 翻訳 (+ TTS) を組み合わせたパイプライン。

**典型ユースケース**:

* 海外旅行時のリアルタイム会話翻訳
* 多言語対応の音声アシスタント
* 国際カスタマーサポートの自動応答

**代表ベンダー**: Microsoft Azure Speech Translation、Google Cloud Media Translation

***

### リアルタイム通訳（Real-time Interpretation）

**定義**: 話し言葉をほぼリアルタイム（数秒以内のレイテンシ）で別言語に変換するサービス。同時通訳の機械支援版。

**典型ユースケース**:

* 国際会議・ウェビナーのライブ通訳
* ライブ配信のリアルタイム字幕

**代表ベンダー**: KUDO、Interprefy、Microsoft Teams Live Captions（Cognitive Services ベース）

***

### ドキュメント翻訳（Document Translation）

**定義**: PDF・Word・PowerPoint・HTMLなどのドキュメントファイルを、レイアウトやフォーマットを保持したまま翻訳するサービス。

**典型ユースケース**:

* 契約書・マニュアルの一括翻訳
* 技術仕様書の多言語化
* 法的文書の翻訳（後編集前提）

**代表ベンダー**: DeepL Document Translation API、Google Cloud Translation（ドキュメントモード）、SDL（現RWS）

***

### 字幕・キャプション生成（Subtitling / Captioning）

**定義**: 動画の音声や台本から、タイムスタンプ付きのテキスト字幕を生成するサービス。

**区別**:

* **字幕（Subtitle）**: 通常、翻訳版の外国語テキストを指す
* **キャプション（Caption）**: 同言語での音声の文字化（聴覚障害者向けを含む）

**典型ユースケース**:

* YouTube・動画プラットフォームの自動字幕
* 映画・TVドラマのローカライズ
* オンライン講座の多言語字幕

**代表ベンダー**: Rev.com API、Verbit、AWS Transcribe（タイムスタンプ付き）

***

### ローカライゼーション（Localization / L10n）

**定義**: 単なる翻訳を超えて、製品・コンテンツを特定の地域・文化・法規制・慣習に適応させるサービス。

**翻訳との違い**: 翻訳が「言葉の変換」であるのに対し、ローカライゼーションは「文化的適応」。日付フォーマット（2024/4/11 vs. April 11, 2024）、通貨表記、色・画像の文化的意味合い、法的要件なども含む。

**典型ユースケース**:

* ゲームやモバイルアプリの多言語版リリース
* グローバルECサイトの地域別コンテンツ最適化
* 医療機器のローカル規制対応

**代表ベンダー**: Transifex、Phrase（旧Memsource）、Crowdin

***

### 言語検出（Language Detection）

**定義**: 入力されたテキストがどの言語で書かれているかを自動的に判定するサービス。

**典型ユースケース**:

* 多言語フォームの入力言語自動判定
* カスタマーサポートチケットの適切な担当チームへのルーティング
* 翻訳APIの `source_lang` パラメータ省略時の自動処理

**代表ベンダー**: Google Cloud Language Detection、fastText（Meta OSS）、langdetect

***

### スタイル変換（Style Transfer）

**定義**: 同一言語内で文体・トーン・フォーマルさのレベルを変換するサービス。翻訳ではなく「同言語内の言語変換」。

**典型ユースケース**:

* カジュアルな文章をビジネス向けに変換
* SNS投稿をプレスリリース向けに書き換え
* 専門用語を平易な言葉に変換（リーダビリティ改善）

**代表ベンダー**: OpenAI GPT（プロンプトエンジニアリングで実現）、DeepL Write（文体改善）

![テキスト系API群：翻訳・ドキュメント翻訳・ローカライゼーション・言語検出・スタイル変換の5カテゴリ](/files/noGzPbQ99lmS8VNKSV5E)

![音声・動画系API群：STT・TTS・音声翻訳・リアルタイム通訳・字幕生成の5カテゴリ](/files/fCrWMQ9U9ww80BFRlIM2)

***

## 3.3 代表的ユースケース

### グローバルECサイトの多言語化

ECサイトの商品説明・レビュー・メール通知を多言語化する典型的なパイプラインです。

```
商品説明テキスト（原文: 英語）
     ↓
[テキスト翻訳API] → 各言語版テキスト
     ↓
[品質チェック（完全後編集）] → 公開コンテンツ
```

このケースでは、テキスト翻訳APIに加えてローカライゼーション（価格・日付フォーマットなど）が必要です。

![グローバルECサイトの多言語化パイプライン：翻訳API＋ローカライゼーションの組み合わせ](/files/GaWTKxKJPJluMXIMSheC)

***

### 国際会議のリアルタイム通訳

Webカンファレンスで登壇者の発言を複数言語に同時配信するシナリオです。

```
登壇者の音声（マイク入力）
     ↓
[STT API] → 発言テキスト（リアルタイム）
     ↓
[テキスト翻訳API（ストリーミング）] → 翻訳テキスト
     ↓
[TTS API または 字幕オーバーレイ] → 参加者へ配信
```

![国際会議のリアルタイム通訳パイプライン：STT→翻訳→TTS/字幕の3段構成](/files/EuH77l8h8ID8CamKmndt)

***

### コールセンターの多言語対応

顧客からの問い合わせを、対応可能な言語のオペレーターにルーティングし、会話を記録するシナリオです。

```
顧客の音声通話
     ↓
[言語検出API] → 顧客言語を識別
     ↓
[STT API] → 通話内容をテキスト化
     ↓
[翻訳API] → オペレーター向けに翻訳
     ↓
通話記録・CRMへ保存
```

![コールセンターの多言語対応フロー：言語検出→STT→翻訳→CRM保存](/files/TNPDzvt8iXPaInidc1Jm)

***

### 医療・法律文書の認証翻訳

品質保証が最重要視されるケースです。

```
原文文書（スキャン画像またはPDF）
     ↓
[OCR / ドキュメント翻訳API] → 翻訳ドラフト
     ↓
[認定翻訳者によるレビュー・完全後編集]
     ↓
[認証翻訳機関による証明書付与]
     ↓
最終納品（公的に有効な翻訳文書）
```

![医療・法律文書の認証翻訳パイプライン：OCR→翻訳ドラフト→専門家レビュー→認証付与](/files/EVDD4Eg0ADCrjpoCLYyT)

***

### コンテンツ制作の自動字幕

動画コンテンツを多言語展開する自動化パイプラインです。

```
動画ファイル（MP4など）
     ↓
[STT API（タイムスタンプ付き）] → SRT/VTT形式の字幕ファイル（原語）
     ↓
[翻訳API] → 各言語版SRT/VTTファイル
     ↓
[字幕エンコーディング] → 多言語対応動画
```

![コンテンツ制作の自動字幕パイプライン：STT→翻訳→字幕エンコーディングで多言語動画を生成](/files/AwBIPNnGMwHYhdbrAHll)

***

> **まとめ**
>
> * 言語サービスAPIは「入力モダリティ × 出力モダリティ × 言語変換の有無」の2次元マトリクスで体系的に整理できる
> * テキスト翻訳・STT・TTS・音声翻訳・通訳・ドキュメント翻訳・字幕・ローカライゼーション・言語検出・スタイル変換の10サービスが主要カテゴリ
> * 実際のユースケースでは複数のAPIを組み合わせたパイプライン設計が必要になる

![第3章まとめ：次のアクションへ——分類の理解を実践的な設計・調達フェーズに接続する](/files/7dAlvppjHi9c90UeLdam)

***

> 次の章: [第4章　品質ティア——APIの第一級概念として](/ja/solutions/part2-taxonomy/ch04-quality-tiers.md)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://translationlab.gitbook.io/ja/solutions/part2-taxonomy/ch03-taxonomy.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
