.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

自然言語処理

詳細

難しさ

多義性

ある言語表現が伝える意味は一通りではない。

同犠牲

ある意味を伝える言語表現が一通りではない。

文脈依存性

言語表現の意味もコンテキスト次第

言外の意味

アプローチ

理性主義

経験主義

歴史

基礎技術

形態素解析

構文解析

など、独特の難しさがある。

意味解析

単語の意味という語彙の関連を見る

文脈解析

複数の文の繋がりをチェックする

日本語処理

語義の曖昧性解消

照応解析

その他

単語と単語の分かれ目が解り難い。

処理の例

形態素解析

構文構造の曖昧性

意味解析、文脈解析

意味の曖昧性

ライブラリ

オープンソース

ココにはAIではない言語処理のライブラリについて書く

プロダクト

ココにはAIではない言語処理のライブラリについて書く

サービス

ソリューション

AIの活用

AI(機械学習・深層学習)最大の金脈と言われる。

体系

単語の数が多いためデータが高次元かつスパースだが、
深層学習の登場によって、処理が可能になってきている。

RNNLM

手順

(特徴抽出とタグ推定)

クリーニング

括弧、カンマ、ピリオドの削除

単語の分割と正規化

形態素解析、小文字などに統一するなど

ストップワードの除去

英語のa, the, of、日本語の「は」「の」「です」など。

テキストをベクトル化表現

活用例

テキストマイニング

文書検索

文書を特徴量に変換し類似度の順に並べて提示する。

チャットボット

(質問応答システム)

質問を特徴量に変換しパターン化された応答を提示する。

エンリッチメント系

テキスト・アノテーション

チャットボットで利用される。

翻訳

変換

その他

ライブラリ

オープンソース

Python系

プロダクト

Python系

サービス

ソリューション

ベクトル化

文の構成性

統語的階層構造(句構造)

系列の並び(現在主流)

単語のベクトル化

単語の意味

テキスト・コーパス

自然言語の文章を構造化し大規模に集積したもの。

分布仮説

#ref(): File not found: "image.png" at page "言語処理"

共起頻度アプローチ

文脈予測アプローチ

文のベクトル化

文の分散表現の構成法

doc2vec

Transformer / BERT

膨大な量のテキストデータからテキストの単語の連なりの「言語らしさ」を学習

Attention

上記をRNNで処理?

上記(ベクトル化された文)を、タスク毎のRNN(Seq2Seq)で処理?

参考

Wikipedia

YouTube?


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS