Các hệ thống nhận dạng mẫu trong các nguồn thông tin thế giới. Xem xét các phương pháp nhận dạng mẫu hiện có. Ví dụ về các vấn đề nhận dạng mẫu

Chương 3: Hệ thống nhận dạng (nhận dạng) mẫu

  • Khái niệm về một hình ảnh. Vấn đề nhận dạng mẫu học. Phương pháp tiếp cận hình học và cấu trúc. giả thuyết về độ gọn. Giáo dục và tự học. thích nghi và học hỏi.
  • Phương pháp học nhận dạng khuôn mẫu - perceptron, mạng nơron, phương pháp hàm tiềm năng, phương pháp tính toán nhóm đối số, phương pháp giới hạn đơn giản hóa, nhóm quy tắc quyết định.
  • Phương pháp và thuật toán phân tích cấu trúc của dữ liệu đa chiều - phân tích cụm, phân nhóm thứ bậc.

Khái niệm về một hình ảnh

Hình ảnh, lớp - một nhóm phân loại trong hệ thống phân loại hợp nhất (đơn lẻ) một nhóm đối tượng nhất định theo một số thuộc tính.

Nhận thức theo nghĩa bóng về thế giới là một trong những đặc tính bí ẩn của bộ não sống, giúp nó có thể hiểu được dòng thông tin nhận thức vô tận và duy trì định hướng trong đại dương dữ liệu khác nhau về thế giới bên ngoài. Nhận thức thế giới bên ngoài, chúng ta luôn phân loại các cảm giác đã nhận thức, tức là chúng ta chia chúng thành các nhóm hiện tượng giống nhau nhưng không giống nhau. Ví dụ: mặc dù có sự khác biệt đáng kể, một nhóm bao gồm tất cả các chữ cái A, được viết bằng các chữ viết tay khác nhau hoặc tất cả các âm thanh tương ứng với cùng một nốt nhạc, được thực hiện trong bất kỳ quãng tám nào và trên bất kỳ nhạc cụ nào và người điều khiển đối tượng kỹ thuật nói chung tập hợp các trạng thái đối tượng phản ứng với cùng một phản ứng. Về đặc điểm, để hình thành khái niệm về một nhóm tri giác của một giai cấp nhất định, chỉ cần làm quen với một số ít đại diện của nó là đủ. Một đứa trẻ có thể được cho xem một chữ cái chỉ một lần để trẻ có thể tìm thấy chữ cái này trong văn bản được viết bằng nhiều phông chữ khác nhau, hoặc nhận ra nó, ngay cả khi nó được viết dưới dạng cố tình bóp méo. Đặc tính này của bộ não cho phép chúng ta hình thành một khái niệm như một hình ảnh.

Hình ảnh có một tính chất đặc trưng, ​​thể hiện ở chỗ sự quen thuộc với một số lượng hữu hạn các hiện tượng từ cùng một tập hợp nên có thể nhận ra một số lượng lớn tùy ý các đại diện của nó. Ví dụ về hình ảnh có thể là: sông, biển, chất lỏng, nhạc của Tchaikovsky, bài thơ của Mayakovsky, v.v. Một tập hợp các trạng thái nhất định của đối tượng điều khiển cũng có thể được coi là hình ảnh và toàn bộ tập hợp trạng thái này được đặc trưng bởi thực tế là trong để đạt được một mục tiêu nhất định, cùng một tác động đến một đối tượng. Hình ảnh có các tính chất khách quan đặc trưng theo nghĩa là những người khác nhau học từ các tài liệu quan sát khác nhau, phần lớn, phân loại các đối tượng giống nhau theo cùng một cách và độc lập với nhau. Chính tính khách quan của hình ảnh cho phép mọi người trên toàn thế giới hiểu nhau.

Khả năng nhận thức thế giới bên ngoài dưới dạng hình ảnh cho phép người ta nhận ra một cách chắc chắn một số lượng vô hạn các đối tượng dựa trên sự quen thuộc với một số lượng hữu hạn chúng, và bản chất khách quan của thuộc tính chính của hình ảnh cho phép người ta mô hình hóa quá trình công nhận của họ. Là sự phản ánh hiện thực khách quan, khái niệm hình ảnh cũng khách quan như bản thân thực tại, và do đó, khái niệm này tự nó có thể là đối tượng của một nghiên cứu đặc biệt.

Trong các tài liệu dành cho vấn đề nhận dạng mẫu huấn luyện (ORO), khái niệm lớp thường được giới thiệu thay vì khái niệm hình ảnh.

Vấn đề nhận dạng khuôn mẫu học tập (ORO)

Một trong những đặc tính thú vị nhất của bộ não con người là khả năng phản ứng với vô số điều kiện môi trường với số lượng phản ứng hữu hạn. Có lẽ chính tính chất này đã cho phép con người đạt được dạng tồn tại cao nhất của vật chất sống, thể hiện ở khả năng tư duy, tức là phản ánh tích cực thế giới khách quan dưới dạng hình ảnh, khái niệm, phán đoán, ... Do đó, vấn đề của ORO nảy sinh khi nghiên cứu các đặc tính sinh lý của não.

Hãy xem xét một ví dụ về các tác vụ từ vùng ODP.


Cơm. một

Dưới đây là 12 nhiệm vụ, trong đó cần chọn các tính năng có thể được sử dụng để phân biệt bộ ba ảnh bên trái với bộ ba ảnh bên phải. Giải pháp của những vấn đề này đòi hỏi sự mô hình hóa đầy đủ của tư duy logic.

Nhìn chung, bài toán nhận dạng mẫu bao gồm hai phần: học và nhận dạng. Giáo dục được thực hiện bằng cách cho các đồ vật riêng lẻ có dấu hiệu cho thấy chúng thuộc về hình ảnh này hoặc hình ảnh khác. Kết quả của quá trình đào tạo, hệ thống nhận dạng phải có được khả năng phản ứng với các phản ứng giống nhau đối với tất cả các đối tượng của cùng một hình ảnh và các phản ứng khác nhau đối với tất cả các đối tượng có hình ảnh khác nhau. Điều rất quan trọng là quá trình học chỉ nên kết thúc bằng cách hiển thị một số lượng hữu hạn các đối tượng mà không có bất kỳ lời nhắc nào khác. Là đối tượng học tập, có thể có hình ảnh hoặc hình ảnh trực quan khác (chữ cái), hoặc các hiện tượng khác nhau của thế giới bên ngoài, ví dụ, âm thanh, trạng thái của cơ thể trong quá trình chẩn đoán y tế, trạng thái của đối tượng kỹ thuật trong hệ thống điều khiển, vv Điều quan trọng là chỉ các đối tượng và thuộc về hình ảnh của chúng. Huấn luyện được theo sau bởi quá trình ghi nhận các đối tượng mới, đặc trưng cho các hành động của một hệ thống đã được huấn luyện. Việc tự động hóa các quy trình này là vấn đề đào tạo về nhận dạng mẫu. Trong trường hợp một người tự đoán hoặc phát minh, rồi áp đặt quy tắc phân loại lên máy, thì vấn đề nhận dạng được giải quyết một phần, vì phần chính và chính của vấn đề (đào tạo) do người đó đảm nhận.

Vấn đề đào tạo về nhận dạng mẫu là thú vị cả từ quan điểm ứng dụng và quan điểm cơ bản. Theo quan điểm ứng dụng, giải pháp của vấn đề này trước hết là quan trọng vì nó mở ra khả năng tự động hóa nhiều quá trình mà cho đến nay chỉ gắn liền với hoạt động của một bộ não sống. Ý nghĩa cơ bản của vấn đề có liên quan mật thiết đến câu hỏi ngày càng nảy sinh liên quan đến sự phát triển của các ý tưởng trong điều khiển học: cái gì có thể và cái gì về cơ bản mà một cỗ máy không thể làm được? Khả năng của một cỗ máy có thể được đưa đến gần hơn với khả năng của một bộ não sống ở mức độ nào? Đặc biệt, một cỗ máy có thể phát triển khả năng tiếp quản từ con người khả năng thực hiện các hành động nhất định tùy thuộc vào các tình huống phát sinh trong môi trường không? Cho đến nay, nó chỉ trở nên rõ ràng rằng nếu một người đầu tiên có thể tự nhận ra khả năng của mình, và sau đó mô tả nó, tức là, chỉ ra lý do tại sao anh ta thực hiện các hành động để đáp ứng với từng trạng thái của môi trường bên ngoài hoặc cách anh ta kết hợp cá nhân (theo quy tắc nào) các đối tượng thành hình ảnh, sau đó một kỹ năng như vậy có thể được chuyển sang máy mà không gặp khó khăn cơ bản. Nếu một người có một kỹ năng, nhưng không thể giải thích nó, thì chỉ có một cách duy nhất là chuyển kỹ năng cho một cỗ máy - học bằng các ví dụ.

Phạm vi các nhiệm vụ có thể được giải quyết với sự trợ giúp của hệ thống nhận dạng là rất rộng. Điều này không chỉ bao gồm các nhiệm vụ ghi nhận hình ảnh bằng mắt và thính giác mà còn bao gồm các nhiệm vụ nhận biết các quá trình và hiện tượng phức tạp nảy sinh, ví dụ, khi người đứng đầu doanh nghiệp lựa chọn các hành động thích hợp hoặc lựa chọn phương thức quản lý tối ưu về công nghệ, kinh tế, vận tải. hoặc các hoạt động quân sự. Trong mỗi nhiệm vụ này, một số hiện tượng, quá trình, trạng thái của ngoại giới được phân tích, sau đây gọi là đối tượng quan sát. Trước khi bắt đầu phân tích bất kỳ đối tượng nào, cần phải có được thông tin nhất định, có thứ tự về đối tượng đó theo một cách nào đó. Thông tin như vậy là một đặc tính của các đối tượng, hiển thị của chúng trên tập hợp các cơ quan nhận thức của hệ thống nhận biết.

Nhưng mỗi đối tượng quan sát có thể hoạt động khác nhau, tùy thuộc vào các điều kiện của tri giác. Ví dụ, bất kỳ chữ cái nào, thậm chí được viết theo cùng một cách, về nguyên tắc, có thể bị dịch chuyển theo bất kỳ cách nào so với các cơ quan nhận thức. Ngoài ra, các đối tượng của cùng một hình ảnh có thể hoàn toàn khác nhau và tất nhiên, ảnh hưởng đến các cơ quan nhận thức theo những cách khác nhau.

Mỗi ánh xạ của bất kỳ đối tượng nào tới các cơ quan nhận thức của hệ thống nhận biết, bất kể vị trí của nó so với các cơ quan này là gì, thường được gọi là ảnh của đối tượng và tập hợp các ảnh đó, được thống nhất bởi một số thuộc tính chung, là ảnh.

Khi giải các bài toán điều khiển bằng phương pháp nhận dạng ảnh, thuật ngữ "trạng thái" được sử dụng thay cho thuật ngữ "ảnh". Trạng thái là một dạng hiển thị đặc điểm dòng điện (hoặc tức thời) đo được của đối tượng quan sát. Tập hợp các trạng thái xác định tình hình. Khái niệm "tình huống" tương tự với khái niệm "hình ảnh". Nhưng phép loại suy này không hoàn toàn, vì không phải mọi hình ảnh đều có thể được gọi là một tình huống, mặc dù mọi tình huống đều có thể được gọi là một hình ảnh.

Một tình huống thường được gọi là một tập hợp các trạng thái nhất định của một đối tượng phức tạp, mỗi trạng thái được đặc trưng bởi các đặc điểm giống nhau hoặc tương tự của đối tượng. Ví dụ, nếu một đối tượng kiểm soát nào đó được coi là đối tượng quan sát, thì tình huống kết hợp các trạng thái như vậy của đối tượng này, trong đó các hành động kiểm soát giống nhau nên được áp dụng. Nếu đối tượng quan sát là một trò chơi quân sự, thì tình huống kết hợp tất cả các trạng thái của trò chơi đòi hỏi một cuộc tấn công mạnh mẽ của xe tăng với sự hỗ trợ của đường không.

Việc lựa chọn mô tả ban đầu của các đối tượng là một trong những nhiệm vụ trung tâm của bài toán ODP. Với việc lựa chọn thành công mô tả ban đầu (không gian tính năng), nhiệm vụ nhận dạng có thể trở nên tầm thường và ngược lại, một mô tả ban đầu được chọn không thành công có thể dẫn đến việc xử lý thông tin thêm rất khó khăn hoặc không có giải pháp ở tất cả. Ví dụ, nếu vấn đề nhận dạng các vật thể có màu sắc khác nhau đang được giải quyết và tín hiệu nhận được từ cảm biến trọng lượng được chọn làm mô tả ban đầu, thì vấn đề nhận dạng về nguyên tắc không thể giải quyết được.

Phương pháp tiếp cận hình học và cấu trúc.

Mỗi khi chúng ta phải đối mặt với những vấn đề không quen thuộc, có một mong muốn tự nhiên là trình bày chúng dưới dạng một mô hình dễ hiểu nào đó sẽ cho phép chúng ta hiểu vấn đề dưới dạng dễ dàng tái tạo bằng trí tưởng tượng của chúng ta. Và vì chúng ta tồn tại trong không gian và thời gian, nên điều dễ hiểu nhất đối với chúng ta là sự diễn giải theo không gian-thời gian của các nhiệm vụ.

Bất kỳ hình ảnh nào phát sinh do quan sát một đối tượng trong quá trình học tập hoặc thi đều có thể được biểu diễn dưới dạng vectơ và do đó dưới dạng một điểm trong không gian đặc trưng nào đó. Nếu khẳng định rằng, khi hiển thị hình ảnh, có thể gán chúng một cách rõ ràng cho một trong hai (hoặc một số) hình ảnh, thì điều đó khẳng định rằng trong không gian nào đó có hai (hoặc một số) vùng không có điểm chung và rằng các hình ảnh là các điểm từ các khu vực này. Mỗi khu vực như vậy có thể được gán một tên, tức là đặt tên tương ứng với hình ảnh.

Bây giờ chúng ta hãy giải thích quá trình học nhận dạng mẫu hình dưới dạng một bức tranh hình học, hiện tại chúng ta đang tự giới hạn chúng ta trong trường hợp chỉ nhận dạng hai mẫu. Trước đây chỉ giả định rằng cần phải tách hai vùng trong một số không gian và chỉ các điểm từ các vùng này mới được hiển thị. Bản thân những khu vực này không được xác định trước, tức là không có thông tin về vị trí ranh giới của chúng hoặc các quy tắc để xác định xem một điểm có thuộc một khu vực cụ thể hay không.

Trong quá trình đào tạo, các điểm được chọn ngẫu nhiên từ các khu vực này sẽ được trình bày và thông tin được báo cáo về khu vực mà các điểm được trình bày thuộc về khu vực nào. Không có thông tin bổ sung nào về những khu vực này, tức là về vị trí ranh giới của chúng, được cung cấp trong quá trình đào tạo. Mục tiêu của việc học là xây dựng một bề mặt có thể ngăn cách không chỉ các điểm được hiển thị trong quá trình học, mà còn tất cả các điểm khác thuộc về các lĩnh vực này, hoặc xây dựng các bề mặt liên kết các khu vực này để mỗi điểm trong số chúng chỉ chứa các điểm cùng một hình ảnh. Nói cách khác, mục tiêu của việc học là xây dựng các hàm như vậy từ các vectơ hình ảnh, chẳng hạn như dương tại tất cả các điểm của một hình ảnh và âm tại tất cả các điểm của hình ảnh khác. Do thực tế là các khu vực không có điểm chung, luôn có một tập hợp các chức năng phân tách như vậy, và do kết quả của quá trình đào tạo, một trong số chúng phải được xây dựng.

Nếu các hình ảnh được trình bày không thuộc về hai mà thuộc về số lượng hình ảnh lớn hơn, thì nhiệm vụ là xây dựng, theo các điểm được chỉ ra trong quá trình huấn luyện, một bề mặt ngăn cách tất cả các khu vực tương ứng với các hình ảnh này với nhau. Vấn đề này có thể được giải quyết, chẳng hạn, bằng cách xây dựng một hàm có cùng giá trị trên các điểm của mỗi vùng và giá trị của hàm này trên các điểm từ các vùng khác nhau phải khác nhau.



Cơm. 2 - Hai hình ảnh.

Thoạt nhìn, có vẻ như chỉ biết một số điểm nhất định từ khu vực là không đủ để tách toàn bộ khu vực. Thật vậy, người ta có thể chỉ định vô số vùng khác nhau chứa các điểm này, và bất kể bề mặt chọn vùng được xây dựng từ chúng như thế nào, thì luôn có thể chỉ định một vùng khác giao với bề mặt và đồng thời chứa điểm hiển thị. Tuy nhiên, người ta biết rằng bài toán xấp xỉ một hàm từ thông tin về nó trong một tập điểm giới hạn, hẹp hơn nhiều so với toàn bộ tập mà hàm đã cho, là một bài toán phổ biến về xấp xỉ hàm. Tất nhiên, giải pháp của những vấn đề này đòi hỏi phải đưa ra những hạn chế nhất định đối với lớp hàm đang được xem xét, và việc lựa chọn những hạn chế này phụ thuộc vào bản chất của thông tin mà giáo viên có thể thêm vào trong quá trình học. Một gợi ý như vậy là phỏng đoán về độ nhỏ gọn của hình ảnh. Trực quan rõ ràng rằng tính gần đúng của hàm phân tách sẽ là một nhiệm vụ dễ dàng hơn, các vùng cần tách biệt càng nhỏ gọn và càng cách đều. Vì vậy, ví dụ, trong trường hợp được hiển thị trong Hình. 2a, việc phân tách rõ ràng là đơn giản hơn so với trường hợp được chỉ ra trong Hình. 2b. Thật vậy, trong trường hợp được hiển thị trong Hình. 2a, các vùng có thể được phân tách bằng một mặt phẳng, và ngay cả với sai số lớn trong định nghĩa của hàm phân tách, nó vẫn sẽ tiếp tục phân tách các vùng. Trong trường hợp trong Hình. 2b, sự phân tách được thực hiện bởi một bề mặt phức tạp, và ngay cả những sai lệch nhỏ về hình dạng của nó cũng dẫn đến sai số phân tách. Chính khái niệm trực quan về các vùng tương đối dễ tách rời này đã dẫn đến phỏng đoán về độ chặt.

Cùng với cách giải thích hình học của vấn đề học cách nhận biết các mẫu, có một cách tiếp cận khác, được gọi là cấu trúc hoặc ngôn ngữ. Hãy để chúng tôi giải thích cách tiếp cận ngôn ngữ bằng cách sử dụng ví dụ về nhận dạng hình ảnh trực quan. Đầu tiên, một tập hợp các khái niệm ban đầu được phân biệt - các mảnh điển hình được tìm thấy trong hình ảnh và các đặc điểm của sự sắp xếp lẫn nhau của các mảnh - "bên trái", "dưới cùng", "bên trong", v.v. Những khái niệm ban đầu này tạo thành một từ điển cho phép bạn xây dựng các phát biểu logic khác nhau, đôi khi được gọi là các giả định. Nhiệm vụ là chọn từ một số lượng lớn các câu lệnh có thể được xây dựng bằng cách sử dụng các khái niệm này, quan trọng nhất đối với trường hợp cụ thể này.

Hơn nữa, nhìn vào một số lượng nhỏ các đối tượng từ mỗi hình ảnh và nếu có thể, cần phải xây dựng một mô tả về những hình ảnh này. Các mô tả đã xây dựng phải đầy đủ để giải quyết câu hỏi đối tượng đã cho thuộc về hình ảnh nào. Khi thực hiện phương pháp tiếp cận ngôn ngữ, hai vấn đề nảy sinh: vấn đề xây dựng một từ điển ban đầu, tức là một tập hợp các đoạn điển hình và vấn đề xây dựng các quy tắc mô tả từ các phần tử của một từ điển nhất định.

Trong khuôn khổ giải thích ngôn ngữ, một phép loại suy được rút ra giữa cấu trúc của hình ảnh và cú pháp của một ngôn ngữ. Mong muốn về phép loại suy này là do khả năng sử dụng bộ máy của ngôn ngữ học toán học, tức là, các phương pháp có bản chất cú pháp. Việc sử dụng bộ máy của ngôn ngữ học toán học để mô tả cấu trúc của hình ảnh chỉ có thể được áp dụng sau khi đã thực hiện phân đoạn hình ảnh thành các bộ phận cấu thành của nó, tức là đã phát triển các từ để mô tả các phân mảnh điển hình và các phương pháp tìm kiếm chúng. Sau công việc sơ bộ, đảm bảo việc lựa chọn các từ, các nhiệm vụ ngôn ngữ phát sinh thích hợp, bao gồm các nhiệm vụ phân tích ngữ pháp tự động của các mô tả để nhận dạng hình ảnh. Đồng thời, một lĩnh vực nghiên cứu độc lập xuất hiện, không chỉ đòi hỏi kiến ​​thức về các kiến ​​thức cơ bản của ngôn ngữ học toán học mà còn phải thành thạo các kỹ thuật đã được phát triển đặc biệt để xử lý hình ảnh ngôn ngữ.

Giả thuyết về độ gọn

Nếu chúng ta giả định rằng trong quá trình học tập, không gian đối tượng được hình thành dựa trên sự phân loại đã được lên kế hoạch, thì chúng ta có thể hy vọng rằng đặc điểm kỹ thuật của không gian đối tượng tự đặt ra một thuộc tính, dưới ảnh hưởng của nó mà các hình ảnh trong không gian này dễ dàng bị tách rời. Chính những hy vọng này rằng, khi công việc trong lĩnh vực nhận dạng mẫu được phát triển, đã kích thích sự xuất hiện của giả thuyết về độ gọn, trong đó nói rằng các tập nhỏ gọn trong không gian đặc trưng tương ứng với các mẫu. Theo một tập hợp nhỏ gọn, hiện tại, chúng tôi muốn nói đến một số "cụm" điểm trong không gian hình ảnh, giả sử rằng có những giao dịch hiếm hoi ngăn cách chúng giữa các cụm này.

Tuy nhiên, không phải lúc nào cũng có thể xác nhận giả thuyết này bằng thực nghiệm, nhưng quan trọng nhất là những nhiệm vụ mà giả thuyết về độ nén thực hiện tốt (Hình 2a), không có ngoại lệ, đều tìm thấy một giải pháp đơn giản. Và ngược lại, những nhiệm vụ mà giả thuyết không được xác nhận (Hình 2b) hoặc không được giải quyết ở tất cả, hoặc được giải quyết rất khó khăn với sự tham gia của các thủ thuật bổ sung. Thực tế này khiến chúng ta ít nhất nghi ngờ tính hợp lệ của giả thuyết về độ đặc, vì chỉ một ví dụ phủ nhận nó cũng đủ để bác bỏ bất kỳ giả thuyết nào. Đồng thời, việc hoàn thành giả thuyết ở bất cứ nơi nào có thể giải quyết được vấn đề đào tạo trong nhận dạng mẫu cũng khiến giả thuyết này được quan tâm. Bản thân giả thuyết về độ đặc đã trở thành một dấu hiệu của khả năng có một giải pháp thỏa đáng cho các vấn đề nhận dạng.

Việc xây dựng giả thuyết về độ nhỏ gọn đưa chúng ta đến gần với khái niệm về một hình ảnh trừu tượng. Nếu các tọa độ của không gian được chọn một cách ngẫu nhiên, thì các hình ảnh trong đó sẽ được phân phối một cách ngẫu nhiên. Chúng sẽ dày đặc hơn ở một số phần của không gian so với những phần khác. Hãy gọi một số không gian được chọn ngẫu nhiên là một hình ảnh trừu tượng. Trong không gian trừu tượng này, gần như chắc chắn sẽ có những tập hợp điểm nhỏ gọn. Do đó, phù hợp với giả thuyết về tính gọn, tập các đối tượng tương ứng với các tập hợp điểm nhỏ gọn trong không gian trừu tượng có thể được gọi một cách hợp lý là ảnh trừu tượng của một không gian nhất định.

Giáo dục và tự học. Thích ứng và học hỏi

Tất cả các hình ảnh được hiển thị trong Fig. 1 nêu đặc điểm của nhiệm vụ học tập. Trong mỗi bài toán này, một số ví dụ (trình tự huấn luyện) về các bài toán đã giải đúng được đưa ra. Nếu có thể nhận thấy một thuộc tính phổ quát nào đó không phụ thuộc vào bản chất của hình ảnh hoặc hình ảnh của chúng, mà chỉ xác định khả năng phân tách của chúng, thì cùng với nhiệm vụ thông thường là học cách nhận biết, sử dụng thông tin về sự thuộc về của mỗi đối tượng từ trình tự đào tạo đến hình ảnh này hay hình ảnh khác, người ta có thể đặt ra một vấn đề phân loại khác nhau - cái gọi là vấn đề học mà không có giáo viên. Một nhiệm vụ thuộc loại này ở cấp độ mô tả có thể được xây dựng như sau: các đối tượng được trình bày trong hệ thống đồng thời hoặc tuần tự mà không có bất kỳ dấu hiệu nào cho thấy chúng thuộc về hình ảnh. Thiết bị đầu vào của hệ thống ánh xạ một tập hợp các đối tượng vào một tập hợp hình ảnh và sử dụng một số thuộc tính về khả năng phân tách hình ảnh được nhúng trước đó, thực hiện phân loại độc lập các đối tượng này. Sau một quá trình tự học như vậy, hệ thống sẽ có được khả năng nhận biết không chỉ các đối tượng đã quen thuộc (đối tượng từ trình tự đào tạo), mà còn cả những đối tượng chưa được trình bày trước đó. Quá trình tự học của một hệ thống nhất định là một quá trình như vậy, kết quả của hệ thống này, mà không cần sự trợ giúp của giáo viên, có được khả năng phát triển các phản ứng giống nhau đối với hình ảnh của các vật có cùng hình ảnh và các phản ứng khác nhau đối với hình ảnh của các hình ảnh khác nhau. Vai trò của giáo viên trong trường hợp này chỉ bao gồm việc gợi ý cho hệ thống một số thuộc tính khách quan giống nhau đối với tất cả các ảnh và xác định khả năng phân chia một tập hợp các đối tượng thành các ảnh.

Nó chỉ ra rằng một tính chất khách quan là tính chất của hình ảnh nhỏ gọn. Sự sắp xếp lẫn nhau của các điểm trong không gian đã chọn đã chứa thông tin về cách phân chia tập hợp các điểm. Thông tin này xác định thuộc tính của khả năng phân tách mẫu, đủ để hệ thống nhận dạng mẫu tự học.

Hầu hết các thuật toán tự học nổi tiếng chỉ có khả năng trích xuất các hình ảnh trừu tượng, tức là các tập hợp nhỏ gọn trong các không gian nhất định. Sự khác biệt giữa chúng dường như nằm ở việc chính thức hóa khái niệm về sự nhỏ gọn. Tuy nhiên, điều này không làm giảm, và đôi khi còn làm tăng giá trị của thuật toán tự học, vì thường bản thân các hình ảnh không được xác định trước bởi bất kỳ ai và nhiệm vụ là xác định xem tập con nào của hình ảnh trong một không gian nhất định là hình ảnh. Một ví dụ điển hình về cách đặt nhiệm vụ như vậy là nghiên cứu xã hội học, khi các nhóm người được phân biệt bằng một bộ câu hỏi. Để hiểu được vấn đề này, các thuật toán tự học tạo ra thông tin chưa từng biết trước đây về sự tồn tại trong một không gian hình ảnh nhất định mà trước đó không ai có bất kỳ ý tưởng nào về nó.

Ngoài ra, kết quả của việc tự học đặc trưng cho sự phù hợp của không gian đã chọn đối với một nhiệm vụ học tập được công nhận cụ thể. Nếu những hình ảnh trừu tượng được xác định trong quá trình tự học trùng khớp với những hình ảnh thực thì không gian đó được lựa chọn tốt. Hình ảnh trừu tượng càng khác với hình ảnh thực, không gian được chọn càng "bất tiện" cho một nhiệm vụ cụ thể.

Học tập thường được gọi là quá trình phát triển trong một số hệ thống một phản ứng cụ thể đối với các nhóm tín hiệu giống hệt nhau bên ngoài bằng cách tác động liên tục vào hệ thống hiệu chỉnh bên ngoài. Sự điều chỉnh bên ngoài như vậy trong đào tạo thường được gọi là "phần thưởng" và "hình phạt". Cơ chế tạo ra sự điều chỉnh này gần như quyết định hoàn toàn thuật toán học. Tự học khác với học ở chỗ ở đây thông tin bổ sung về tính đúng đắn của phản ứng đối với hệ thống không được báo cáo.

Thích ứng là quá trình thay đổi các tham số và cấu trúc của hệ thống, và có thể điều khiển các hành động dựa trên thông tin hiện tại nhằm đạt được một trạng thái nhất định của hệ thống với sự không chắc chắn ban đầu và các điều kiện hoạt động thay đổi.

Học tập là một quá trình, nhờ đó hệ thống dần dần có được khả năng phản ứng với những phản ứng cần thiết đối với một số tác động bên ngoài nhất định, và thích ứng là việc điều chỉnh các thông số và cấu trúc của hệ thống để đạt được chất lượng cần thiết. kiểm soát trong điều kiện thay đổi liên tục của điều kiện bên ngoài.

Và các dấu hiệu. Những nhiệm vụ như vậy được giải quyết khá thường xuyên, chẳng hạn như khi băng qua hoặc lái xe trên đường khi có đèn giao thông. Nhận biết màu sắc của đèn giao thông sáng và biết luật đi đường cho phép bạn đưa ra quyết định đúng đắn về việc có nên băng qua đường vào lúc này hay không.

Trong quá trình tiến hóa sinh học, nhiều loài động vật đã giải quyết các vấn đề với sự trợ giúp của bộ máy thị giác và thính giác. nhận dạng mẫuđủ tốt. Tạo ra các hệ thống nhân tạo nhận dạng mẫu vẫn là một vấn đề lý thuyết và kỹ thuật khó. Nhu cầu được công nhận như vậy nảy sinh trong nhiều lĩnh vực - từ các vấn đề quân sự và hệ thống an ninh cho đến số hóa tất cả các loại tín hiệu tương tự.

Theo truyền thống, các nhiệm vụ nhận dạng hình ảnh được bao gồm trong phạm vi của các nhiệm vụ trí tuệ nhân tạo.

Chỉ đường trong nhận dạng mẫu

Có hai hướng chính:

  • Nghiên cứu khả năng nhận biết của các sinh vật sống, giải thích và mô hình hóa chúng;
  • Phát triển lý thuyết và phương pháp xây dựng các thiết bị được thiết kế để giải quyết các vấn đề riêng lẻ trong các bài toán ứng dụng.

Tuyên bố chính thức của vấn đề

Nhận dạng mẫu là việc gán dữ liệu ban đầu cho một lớp nhất định bằng cách làm nổi bật các tính năng thiết yếu đặc trưng cho những dữ liệu này từ tổng khối lượng dữ liệu không thiết yếu.

Khi đặt ra các vấn đề nhận dạng, họ cố gắng sử dụng ngôn ngữ toán học, không giống như lý thuyết về mạng nơ-ron nhân tạo, nơi cơ sở là thu được kết quả bằng thực nghiệm, để thay thế thực nghiệm bằng suy luận logic và chứng minh toán học.

Thông thường, hình ảnh đơn sắc được xem xét trong các bài toán nhận dạng mẫu, điều này có thể coi hình ảnh là một hàm trên một mặt phẳng. Nếu chúng ta coi một điểm nằm trên một mặt phẳng T, chức năng ở đâu x(x,y) thể hiện tại mỗi điểm của hình ảnh đặc tính của nó - độ sáng, độ trong suốt, mật độ quang học, khi đó một chức năng như vậy là một bản ghi chính thức của hình ảnh.

Tập hợp tất cả các chức năng có thể x(x,y) trên bề mặt T- có một mô hình của tập hợp tất cả các hình ảnh X. Giới thiệu khái niệm điểm tương đồng giữa các hình ảnh, bạn có thể đặt nhiệm vụ nhận dạng. Hình thức cụ thể của một thiết lập như vậy phụ thuộc rất nhiều vào các giai đoạn tiếp theo trong việc ghi nhận phù hợp với cách tiếp cận này hay cách tiếp cận khác.

Các phương pháp nhận dạng mẫu

Để nhận dạng hình ảnh quang học, bạn có thể áp dụng phương pháp lặp qua loại đối tượng ở các góc độ, tỷ lệ, hiệu số khác nhau, v.v. Đối với các chữ cái, bạn cần lặp lại phông chữ, thuộc tính phông chữ, v.v.

Cách tiếp cận thứ hai là tìm đường viền của đối tượng và kiểm tra các thuộc tính của nó (kết nối, sự hiện diện của các góc, v.v.)

Một cách tiếp cận khác là sử dụng mạng nơ-ron nhân tạo. Phương pháp này yêu cầu một số lượng lớn các ví dụ về nhiệm vụ nhận dạng (với các câu trả lời đúng) hoặc cấu trúc mạng nơ-ron đặc biệt có tính đến các chi tiết cụ thể của nhiệm vụ này.

Perceptron như một phương pháp nhận dạng mẫu

F. Rosenblatt, đưa ra khái niệm về một mô hình của bộ não, với nhiệm vụ là chỉ ra cách các hiện tượng tâm lý có thể phát sinh trong một hệ thống vật chất nào đó, cấu trúc và các đặc tính chức năng của chúng - được mô tả đơn giản nhất. thí nghiệm phân biệt. Các thí nghiệm này hoàn toàn liên quan đến các phương pháp nhận dạng mẫu, nhưng khác ở chỗ thuật toán giải không mang tính xác định.

Thí nghiệm đơn giản nhất, trên cơ sở đó có thể thu được thông tin quan trọng về mặt tâm lý về một hệ thống nhất định, tóm tắt là mô hình được trình bày với hai kích thích khác nhau và được yêu cầu phản hồi chúng theo những cách khác nhau. Mục đích của một thử nghiệm như vậy có thể là để nghiên cứu khả năng hệ thống phân biệt tự phát khi không có sự can thiệp của người thử nghiệm, hoặc ngược lại, để nghiên cứu sự phân biệt bắt buộc, trong đó người thử nghiệm tìm cách dạy cho hệ thống thực hiện phân loại yêu cầu.

Trong một thí nghiệm học tập, một perceptron thường được trình bày với một chuỗi hình ảnh nhất định, bao gồm các đại diện của mỗi lớp được phân biệt. Theo một số quy tắc sửa đổi bộ nhớ, sự lựa chọn phản ứng chính xác được củng cố. Sau đó, kích thích kiểm soát được trình bày với perceptron và xác suất thu được phản ứng chính xác đối với các kích thích thuộc lớp này được xác định. Tùy thuộc vào việc kích thích kiểm soát đã chọn phù hợp hay không khớp với một trong các hình ảnh được sử dụng trong trình tự huấn luyện, các kết quả khác nhau sẽ thu được:

  • 1. Nếu kích thích điều khiển không trùng với bất kỳ kích thích học tập nào thì thí nghiệm không chỉ liên quan đến phân biệt đối xử thuần túy, nhưng cũng bao gồm các yếu tố khái quát.
  • 2. Nếu kích thích điều khiển kích thích một tập hợp các yếu tố cảm giác nào đó hoàn toàn khác với những yếu tố đã được kích hoạt dưới tác động của các kích thích đã trình bày trước đó của cùng một lớp, thì thí nghiệm là một nghiên cứu. khái quát hóa thuần túy .

Perceptron không có khả năng tổng quát hóa thuần túy, nhưng chúng hoạt động khá tốt trong các thí nghiệm phân biệt, đặc biệt nếu kích thích kiểm soát đủ chặt chẽ với một trong những mẫu mà perceptron đã tích lũy được một số kinh nghiệm.

Ví dụ về các vấn đề nhận dạng mẫu

  • Nhận dạng chữ cái.
  • Nhận dạng mã vạch.
  • Nhận dạng biển số xe.
  • Nhận dạng khuôn mặt.
  • Nhận dạng giọng nói.
  • Nhận dạng hình ảnh.
  • Ghi nhận các khu vực địa phương của vỏ trái đất, nơi có các mỏ khoáng sản.

Các chương trình nhận dạng mẫu

Xem thêm

Ghi chú

Liên kết

  • Yuri Lifshits. Khóa học "Các vấn đề hiện đại của tin học lý thuyết" - bài giảng về phương pháp thống kê nhận dạng mẫu, nhận dạng khuôn mặt, phân loại văn bản
  • Tạp chí Nghiên cứu Nhận dạng Mẫu (Journal of Pattern Recognition Research)

Văn chương

  • David A. Forsyth, Jean Pons Tầm nhìn máy tính. Phương pháp Tiếp cận Hiện đại = Tầm nhìn Máy tính: Một Phương pháp Tiếp cận Hiện đại. - M.: "Williams", 2004. - S. 928. - ISBN 0-13-085198-1
  • George Stockman, Linda Shapiro Thị giác máy tính = Computer Vision. - M.: Binom. Phòng thí nghiệm Tri thức, 2006. - S. 752. - ISBN 5947743841
  • A.L. Gorelik, V.A. Skripkin, Các phương pháp ghi nhận, M .: Trường đại học, 1989.
  • Sh.-K. Cheng, Nguyên tắc thiết kế của hệ thống thông tin trực quan, M.: Mir, 1994.

Quỹ Wikimedia. Năm 2010.

Trong công nghệ, một hướng khoa học và kỹ thuật gắn liền với sự phát triển của các phương pháp và việc xây dựng các hệ thống (kể cả trên cơ sở máy tính) nhằm thiết lập sự thuộc về một đối tượng (chủ thể, quá trình, hiện tượng, tình huống, tín hiệu) đối với một trong các trước ... ... Từ điển Bách khoa toàn thư lớn

Một trong những khu vực mới điều khiển học. Nội dung học thuyết của R. về. là phép ngoại suy các thuộc tính của các đối tượng (ảnh) thuộc một số lớp thành các đối tượng gần với chúng theo một nghĩa nào đó. Thông thường, khi dạy một automaton R. về. có ... ... Bách khoa toàn thư địa chất

Tiếng Anh nhận dạng, hình ảnh; tiếng Đức Gestalt alterkennung. Một nhánh của điều khiển học toán học phát triển các nguyên tắc và phương pháp để phân loại và xác định các đối tượng được mô tả bằng một tập hợp hữu hạn các tính năng đặc trưng cho chúng. Antinazi. Bách khoa toàn thư ... ... Bách khoa toàn thư về xã hội học

Nhận dạng mẫu- phương pháp nghiên cứu các đối tượng phức tạp với sự trợ giúp của máy tính; bao gồm việc lựa chọn các tính năng và phát triển các thuật toán và chương trình cho phép máy tính tự động phân loại các đối tượng theo các tính năng này. Ví dụ, để xác định ... ... Từ điển Kinh tế và Toán học

- (kỹ thuật), một hướng khoa học và kỹ thuật gắn liền với việc phát triển các phương pháp và xây dựng các hệ thống (kể cả các hệ thống dựa trên máy tính) nhằm thiết lập sự thuộc về một đối tượng (chủ thể, quá trình, hiện tượng, tình huống, tín hiệu) đối với một trong các trước ... ... từ điển bách khoa

NHẬN DẠNG MẪU- một phần của điều khiển học toán học phát triển các phương pháp phân loại, cũng như xác định các đối tượng, hiện tượng, quá trình, tín hiệu, tình huống của tất cả các đối tượng đó có thể được mô tả bằng một tập hợp hữu hạn các đặc điểm hoặc tính chất nhất định, ... ... Bách khoa toàn thư xã hội học Nga

nhận dạng mẫu- 160 nhận dạng mẫu: Nhận dạng các biểu diễn và cấu hình biểu mẫu bằng cách sử dụng các phương tiện tự động

Hình ảnh được hiểu là mô tả có cấu trúc của đối tượng, hiện tượng đang nghiên cứu, được biểu diễn bằng vectơ đặc trưng, ​​mỗi yếu tố biểu thị giá trị số của một trong các đối tượng đặc trưng cho đối tượng tương ứng.

Cấu trúc chung của hệ thống ghi nhận như sau:

Ý nghĩa của vấn đề nhận dạng là xác định xem các đối tượng được nghiên cứu có tập hợp các đặc trưng hữu hạn cố định cho phép gán chúng vào một lớp nào đó hay không. Các tác vụ nhận dạng có các tính năng đặc trưng sau:

1. Đây là những nhiệm vụ thông tin bao gồm hai giai đoạn:

một. Đưa dữ liệu nguồn sang một biểu mẫu thuận tiện cho việc nhận dạng.

b. Bản thân sự công nhận là một dấu hiệu cho thấy sự thuộc về một đối tượng đối với một lớp nhất định.

2. Trong các bài toán này, người ta có thể đưa ra khái niệm tương tự hay tương tự của các đối tượng và hình thành khái niệm tiệm cận của các đối tượng làm cơ sở để gán các đối tượng vào cùng một lớp hoặc khác lớp.

3. Trong các nhiệm vụ này, có thể hoạt động với một tập hợp các tiền lệ - ví dụ, phân loại đã biết và dưới dạng mô tả chính thức, có thể được trình bày cho thuật toán nhận dạng để điều chỉnh cho nhiệm vụ trong học tập tiến trình.

4. Đối với những bài toán này, rất khó để xây dựng các lý thuyết chính thức và áp dụng các phương pháp toán học cổ điển: thường thì thông tin cho một mô hình toán học chính xác hoặc thu được từ việc sử dụng mô hình và các phương pháp toán học là không thể so sánh được với chi phí.

5. Trong những nhiệm vụ này, “thông tin xấu” là có thể xảy ra - thông tin có khoảng trống, không đồng nhất, gián tiếp, mờ nhạt, mơ hồ, xác suất.

Nên phân biệt các loại nhiệm vụ ghi nhận sau:

1. Nhiệm vụ công nhận, nghĩa là giao đối tượng được trình bày theo mô tả của nó cho một trong các lớp đã cho (đào tạo với một giáo viên).

2. Nhiệm vụ của phân loại tự động là việc phân chia một tập hợp các đối tượng (tình huống) theo mô tả của chúng thành một hệ thống các lớp không chồng chéo (phân loại, phân tích cụm, học không giám sát).

3. Vấn đề lựa chọn một tập hợp các tính năng thông tin trong nhận dạng.

4. Vấn đề giảm dữ liệu ban đầu thành một dạng thuận tiện cho việc ghi nhận.

5. Nhận dạng động và phân loại động - nhiệm vụ 1 và 2 cho các đối tượng động.

6. Nhiệm vụ dự báo - nhiệm vụ 5, trong đó giải pháp phải đề cập đến thời điểm nào đó trong tương lai.

Khái niệm về một hình ảnh.

Một hình ảnh, một lớp là một nhóm phân loại trong hệ thống thống nhất (đơn lẻ) một nhóm đối tượng nhất định theo một số thuộc tính. Hình ảnh có một số tính chất đặc trưng, ​​thể hiện ở chỗ việc làm quen với một số lượng hữu hạn các hiện tượng từ cùng một tập hợp nên có thể nhận ra một số lượng lớn tùy ý các đại diện của nó.


Như một hình ảnh, người ta cũng có thể coi một tập hợp các trạng thái nhất định của đối tượng điều khiển, và toàn bộ tập hợp các trạng thái này được đặc trưng bởi thực tế là để đạt được một mục tiêu nhất định, cần phải có tác động tương tự lên đối tượng. Hình ảnh có các tính chất khách quan đặc trưng theo nghĩa là những người khác nhau học từ các tài liệu quan sát khác nhau, phần lớn, phân loại các đối tượng giống nhau theo cùng một cách và độc lập với nhau.

Nhìn chung, vấn đề nhận dạng mẫu bao gồm hai phần: đào tạo và nhận dạng.

Giáo dục được thực hiện bằng cách cho các đồ vật riêng lẻ có dấu hiệu cho thấy chúng thuộc về hình ảnh này hoặc hình ảnh khác. Kết quả của quá trình đào tạo, hệ thống nhận dạng phải có được khả năng phản ứng với các phản ứng giống nhau đối với tất cả các đối tượng của cùng một hình ảnh và các phản ứng khác nhau đối với tất cả các đối tượng có hình ảnh khác nhau.

Điều rất quan trọng là quá trình học chỉ nên kết thúc bằng cách hiển thị một số lượng hữu hạn các đối tượng mà không có bất kỳ lời nhắc nào khác. Đối tượng của việc học có thể là hình ảnh trực quan, hoặc các hiện tượng khác nhau của thế giới bên ngoài và những đối tượng khác.

Huấn luyện được theo sau bởi quá trình ghi nhận các đối tượng mới, đặc trưng cho hoạt động của một hệ thống đã được huấn luyện. Việc tự động hóa các quy trình này là vấn đề đào tạo về nhận dạng mẫu. Trong trường hợp một người tự giải hoặc phát minh, rồi áp đặt trên máy tính các quy tắc phân loại, thì vấn đề nhận dạng được giải quyết một phần, vì phần chính và chính của vấn đề (đào tạo) do người đó đảm nhận.

Vấn đề đào tạo về nhận dạng mẫu là thú vị cả từ quan điểm ứng dụng và quan điểm cơ bản. Theo quan điểm ứng dụng, giải pháp của vấn đề này trước hết là quan trọng vì nó mở ra khả năng tự động hóa nhiều quá trình mà cho đến nay chỉ gắn liền với hoạt động của một bộ não sống. Ý nghĩa cơ bản của vấn đề được kết nối với câu hỏi về nguyên tắc một máy tính có thể và không thể làm gì.

Khi giải quyết các vấn đề về quản lý các phương pháp nhận dạng mẫu, thuật ngữ "trạng thái" được sử dụng thay cho thuật ngữ "hình ảnh". Trạng thái - một số hình thức hiển thị đặc điểm dòng điện đo được (tức thời) của đối tượng quan sát, tập hợp các trạng thái xác định tình huống.

Một tình huống thường được gọi là một tập hợp các trạng thái nhất định của một đối tượng phức tạp, mỗi trạng thái được đặc trưng bởi các đặc điểm giống nhau hoặc tương tự của đối tượng. Ví dụ, nếu một đối tượng kiểm soát nào đó được coi là đối tượng quan sát, thì tình huống kết hợp các trạng thái như vậy của đối tượng này, trong đó các hành động kiểm soát giống nhau nên được áp dụng. Nếu đối tượng quan sát là một trò chơi, thì tình huống sẽ thống nhất tất cả các trạng thái của trò chơi.

Việc lựa chọn mô tả ban đầu của các đối tượng là một trong những nhiệm vụ trung tâm của bài toán nhận dạng mẫu học. Với sự lựa chọn thành công của mô tả ban đầu (không gian tính năng), nhiệm vụ nhận dạng có thể trở nên tầm thường. Ngược lại, một mô tả ban đầu được chọn không thành công có thể dẫn đến việc xử lý thông tin thêm rất khó khăn hoặc không có giải pháp nào cả.

Phương pháp tiếp cận hình học và cấu trúc.

Bất kỳ hình ảnh nào phát sinh do quan sát một đối tượng trong quá trình học tập hoặc thi đều có thể được biểu diễn dưới dạng vectơ và do đó dưới dạng một điểm trong không gian đặc trưng nào đó.

Nếu lập luận rằng khi hiển thị hình ảnh có thể gán chúng một cách rõ ràng cho một trong hai (hoặc một số) hình ảnh, thì điều đó khẳng định rằng trong một số không gian có hai hoặc nhiều vùng không có điểm chung và rằng hình ảnh của một điểm là từ các vùng này. Mỗi điểm của một khu vực như vậy có thể được gán một tên, tức là đặt một tên tương ứng với hình ảnh.

Chúng ta hãy giải thích quá trình học nhận dạng mẫu theo một bức tranh hình học, tạm thời hạn chế chúng ta trong trường hợp chỉ nhận dạng hai mẫu. Người ta giả định trước rằng chỉ cần tách hai vùng trong một số không gian và chỉ các điểm từ các vùng này mới được hiển thị. Bản thân các khu vực này không được xác định trước, nghĩa là không có thông tin về vị trí ranh giới của chúng hoặc các quy tắc để xác định xem một điểm có thuộc một khu vực cụ thể hay không.

Trong quá trình đào tạo, các điểm được chọn ngẫu nhiên từ các khu vực này sẽ được trình bày và thông tin được báo cáo về khu vực mà các điểm được trình bày thuộc về khu vực nào. Không có thông tin bổ sung nào về những khu vực này, tức là vị trí ranh giới của chúng trong quá trình đào tạo, được báo cáo.

Mục tiêu của việc học là xây dựng một bề mặt có thể ngăn cách không chỉ các điểm được hiển thị trong quá trình học, mà còn tất cả các điểm khác thuộc về các lĩnh vực này, hoặc xây dựng các bề mặt liên kết các khu vực này để mỗi điểm trong số chúng chỉ chứa các điểm cùng một hình ảnh. Nói cách khác, mục tiêu của việc học là xây dựng các hàm như vậy từ các vectơ hình ảnh, chẳng hạn như dương tại tất cả các điểm của một hình ảnh và âm tại tất cả các điểm của hình ảnh khác.

Do thực tế là các khu vực không có điểm chung, luôn có một tập hợp các chức năng phân tách như vậy, và do kết quả của quá trình đào tạo, một trong số chúng phải được xây dựng. Nếu các hình ảnh được trình bày không thuộc về hai mà thuộc về số lượng hình ảnh lớn hơn, thì nhiệm vụ là xây dựng, theo các điểm được chỉ ra trong quá trình huấn luyện, một bề mặt ngăn cách tất cả các khu vực tương ứng với các hình ảnh này với nhau.

Vấn đề này có thể được giải quyết, chẳng hạn, bằng cách xây dựng một hàm có cùng giá trị trên các điểm của mỗi vùng và giá trị của hàm này trên các điểm từ các vùng khác nhau phải khác nhau.

Có vẻ như chỉ biết một số điểm nhất định từ khu vực là không đủ để tách toàn bộ khu vực. Thật vậy, người ta có thể chỉ định vô số vùng khác nhau chứa các điểm này, và bất kể bề mặt chọn vùng được xây dựng từ chúng như thế nào, thì luôn có thể chỉ định một vùng khác giao với bề mặt và đồng thời chứa điểm hiển thị.

Tuy nhiên, người ta biết rằng bài toán xấp xỉ một hàm từ thông tin về nó trong một tập điểm giới hạn hẹp hơn nhiều so với toàn bộ tập mà hàm đã cho, và là một bài toán phổ biến về xấp xỉ hàm. Tất nhiên, giải pháp của những vấn đề này đòi hỏi phải đưa ra những hạn chế nhất định đối với lớp hàm đang được xem xét, và việc lựa chọn những hạn chế này phụ thuộc vào bản chất của thông tin mà giáo viên có thể thêm vào quá trình học tập.

Một gợi ý như vậy là phỏng đoán về độ nhỏ gọn của hình ảnh.

Cùng với cách giải thích hình học của vấn đề học cách nhận biết các mẫu, có một cách tiếp cận khác, được gọi là cấu trúc hoặc ngôn ngữ. Hãy xem xét cách tiếp cận ngôn ngữ trên ví dụ về nhận dạng hình ảnh trực quan.

Đầu tiên, một tập hợp các khái niệm ban đầu được phân biệt - các mảnh điển hình được tìm thấy trong ảnh và các đặc điểm về vị trí tương đối của các mảnh (bên trái, bên dưới, bên trong, v.v.). Những khái niệm ban đầu này tạo thành một từ vựng cho phép bạn xây dựng các câu logic khác nhau, đôi khi được gọi là câu.

Nhiệm vụ là chọn từ một số lượng lớn các câu lệnh có thể được xây dựng bằng cách sử dụng các khái niệm này, quan trọng nhất đối với trường hợp cụ thể này. Hơn nữa, nhìn vào một số lượng nhỏ các đối tượng từ mỗi hình ảnh và nếu có thể, cần phải xây dựng một mô tả về những hình ảnh này.

Các mô tả đã xây dựng phải đầy đủ để giải quyết câu hỏi đối tượng đã cho thuộc về hình ảnh nào. Khi thực hiện phương pháp tiếp cận ngôn ngữ, hai nhiệm vụ nảy sinh: nhiệm vụ xây dựng một từ điển ban đầu, tức là một tập hợp các đoạn điển hình và nhiệm vụ xây dựng các quy tắc mô tả từ các phần tử của một từ điển nhất định.

Trong khuôn khổ giải thích ngôn ngữ, một phép loại suy được rút ra giữa cấu trúc của hình ảnh và cú pháp của một ngôn ngữ. Mong muốn về sự loại suy này là do khả năng sử dụng bộ máy của ngôn ngữ học toán học, tức là, các phương pháp có bản chất cú pháp. Việc sử dụng bộ máy của ngôn ngữ học toán học để mô tả cấu trúc của hình ảnh chỉ có thể được áp dụng sau khi đã thực hiện phân đoạn hình ảnh thành các bộ phận thành phần, tức là đã phát triển các từ để mô tả các phân mảnh điển hình và các phương pháp tìm kiếm chúng.

Sau công việc sơ bộ, đảm bảo việc lựa chọn các từ, các nhiệm vụ ngôn ngữ phát sinh thích hợp, bao gồm các nhiệm vụ phân tích ngữ pháp tự động của các mô tả để nhận dạng hình ảnh.

giả thuyết về độ gọn.

Nếu chúng ta giả định rằng trong quá trình học tập, không gian đối tượng được hình thành dựa trên sự phân loại đã được lên kế hoạch, thì chúng ta có thể hy vọng rằng đặc điểm kỹ thuật của không gian đối tượng tự đặt ra một thuộc tính, dưới ảnh hưởng của nó mà các hình ảnh trong không gian này dễ dàng bị tách rời. Chính những hy vọng này rằng, khi công việc trong lĩnh vực nhận dạng mẫu được phát triển, đã kích thích sự xuất hiện của giả thuyết về độ gọn, trong đó nói rằng các tập nhỏ gọn trong không gian đặc trưng tương ứng với các mẫu.

Bằng một tập hợp nhỏ gọn, chúng ta sẽ hiểu được một số cụm điểm nhất định trong không gian ảnh, giả sử rằng có những giao dịch hiếm hoi tách chúng giữa các nhóm này. Tuy nhiên, giả thuyết này không phải lúc nào cũng được xác nhận bằng thực nghiệm. Nhưng những vấn đề trong đó giả thuyết về độ nén được hoàn thành tốt luôn luôn tìm được một giải pháp đơn giản, và ngược lại, những vấn đề mà giả thuyết không được xác nhận hoặc không được giải quyết ở tất cả, hoặc được giải rất khó khăn và cần thêm thông tin.

Bản thân giả thuyết về độ nén đã trở thành một dấu hiệu của khả năng giải quyết thỏa đáng các vấn đề về công nhận.

Việc xây dựng giả thuyết về độ nhỏ gọn đưa chúng ta đến gần với khái niệm về một hình ảnh trừu tượng. Nếu các tọa độ của không gian được chọn một cách ngẫu nhiên, thì các hình ảnh trong đó sẽ được phân phối một cách ngẫu nhiên. Chúng sẽ dày đặc hơn ở một số phần của không gian so với những phần khác.

Hãy gọi một số không gian được chọn ngẫu nhiên là một hình ảnh trừu tượng. Trong không gian trừu tượng này, gần như chắc chắn sẽ có những tập hợp điểm nhỏ gọn. Do đó, phù hợp với giả thuyết về độ gọn, tập các đối tượng mà các tập hợp điểm nhỏ gọn tương ứng trong một không gian trừu tượng thường được gọi là ảnh trừu tượng của một không gian nhất định.

Đào tạo và tự đào tạo, thích ứng và đào tạo.

Nếu có thể nhận thấy một tính chất phổ quát nào đó không phụ thuộc vào bản chất của các hình ảnh hoặc hình ảnh của chúng, mà chỉ xác định khả năng phân tách, thì cùng với nhiệm vụ thông thường là dạy nhận biết bằng cách sử dụng thông tin về sự thuộc về mỗi hình ảnh. đối tượng từ trình tự đào tạo sang hình ảnh này hay hình ảnh khác, có thể tốt hơn nếu đặt ra một vấn đề phân loại khác - cái gọi là vấn đề học mà không có giáo viên.

Một nhiệm vụ thuộc loại này ở cấp độ mô tả có thể được xây dựng như sau: các đối tượng được trình bày trong hệ thống đồng thời hoặc tuần tự mà không có bất kỳ dấu hiệu nào cho thấy chúng thuộc về hình ảnh. Thiết bị đầu vào của hệ thống ánh xạ một tập hợp các đối tượng vào một tập hợp hình ảnh và sử dụng một số thuộc tính về khả năng phân tách hình ảnh được nhúng trước đó, thực hiện phân loại độc lập các đối tượng này.

Sau một quá trình tự học như vậy, hệ thống sẽ có được khả năng nhận biết không chỉ các đối tượng đã quen thuộc (đối tượng từ trình tự đào tạo), mà còn cả những đối tượng chưa được trình bày trước đó. Quá trình tự học của một hệ thống nhất định là một quá trình như vậy, kết quả của hệ thống này, mà không cần sự trợ giúp của giáo viên, có được khả năng phát triển các phản ứng giống nhau đối với hình ảnh của các vật có cùng hình ảnh và các phản ứng khác nhau đối với hình ảnh của các hình ảnh khác nhau.

Vai trò của giáo viên trong trường hợp này chỉ bao gồm việc gợi ý cho hệ thống một số thuộc tính khách quan giống nhau đối với tất cả các ảnh và xác định khả năng phân chia một tập hợp các đối tượng thành các ảnh.

Nó chỉ ra rằng một tính chất khách quan là tính chất của hình ảnh nhỏ gọn. Sự sắp xếp lẫn nhau của các điểm trong không gian đã chọn đã chứa thông tin về cách phân chia tập hợp các điểm. Thông tin này xác định thuộc tính của khả năng phân tách mẫu, đủ để hệ thống nhận dạng mẫu tự học.

Hầu hết các thuật toán tự học nổi tiếng chỉ có thể chọn các hình ảnh trừu tượng, tức là các tập hợp nhỏ gọn trong không gian nhất định. Sự khác biệt giữa chúng nằm ở việc chính thức hóa khái niệm về sự gọn nhẹ. Tuy nhiên, điều này không làm giảm, và đôi khi còn làm tăng giá trị của thuật toán tự học, vì thường bản thân các hình ảnh không được xác định trước bởi bất kỳ ai và nhiệm vụ là xác định xem tập con nào của hình ảnh trong một không gian nhất định là hình ảnh.

Một ví dụ về một tuyên bố như vậy về vấn đề này là nghiên cứu xã hội học, khi các nhóm người được chọn ra theo một bộ câu hỏi. Để hiểu được vấn đề này, các thuật toán tự học tạo ra thông tin chưa từng biết trước đây về sự tồn tại trong một không gian hình ảnh nhất định mà trước đó không ai có bất kỳ ý tưởng nào về nó.

Ngoài ra, kết quả của việc tự học đặc trưng cho sự phù hợp của không gian đã chọn đối với một nhiệm vụ học tập được công nhận cụ thể. Nếu hình ảnh trừu tượng được phân bổ trong không gian tự học trùng khớp với hình ảnh thực thì không gian đó đã được chọn thành công. Càng nhiều hình ảnh trừu tượng khác với hình ảnh thực, không gian được chọn cho một nhiệm vụ cụ thể càng bất tiện.

Học tập thường được gọi là quá trình phát triển trong một số hệ thống một phản ứng cụ thể đối với các nhóm tín hiệu giống hệt nhau bên ngoài bằng cách tác động liên tục vào hệ thống hiệu chỉnh bên ngoài. Cơ chế tạo ra sự điều chỉnh này gần như quyết định hoàn toàn thuật toán học.

Tự học khác với học ở chỗ ở đây thông tin bổ sung về tính đúng đắn của phản ứng đối với hệ thống không được báo cáo.

Thích ứng là quá trình thay đổi các thông số và cấu trúc của hệ thống, và có thể là các hành động điều khiển, dựa trên thông tin hiện tại nhằm đạt được một trạng thái nhất định của hệ thống với sự không chắc chắn ban đầu và các điều kiện hoạt động thay đổi.

Học tập là một quá trình, nhờ đó hệ thống dần dần có được khả năng phản ứng với những phản ứng cần thiết đối với một số tác động bên ngoài nhất định, và thích ứng là việc điều chỉnh các thông số và cấu trúc của hệ thống để đạt được chất lượng cần thiết. kiểm soát trong điều kiện thay đổi liên tục của điều kiện bên ngoài.


Hệ thống nhận dạng giọng nói.

Lời nói đóng vai trò là phương tiện giao tiếp chính giữa con người và do đó giao tiếp bằng lời nói được coi là một trong những thành phần quan trọng nhất của hệ thống trí tuệ nhân tạo. Nhận dạng giọng nói là quá trình chuyển đổi tín hiệu âm thanh được tạo ra ở đầu ra của micrô hoặc điện thoại thành một chuỗi các từ.

Một nhiệm vụ khó khăn hơn là nhiệm vụ hiểu lời nói, liên quan đến việc xác định ý nghĩa của tín hiệu âm thanh. Trong trường hợp này, đầu ra của hệ thống con nhận dạng giọng nói đóng vai trò là đầu vào của hệ thống con hiểu cách phát âm. Nhận dạng giọng nói tự động (hệ thống APP) là một trong những lĩnh vực của công nghệ xử lý ngôn ngữ tự nhiên.

Nhận dạng giọng nói tự động được sử dụng để tự động hóa việc nhập văn bản vào máy tính, trong việc hình thành các truy vấn bằng miệng tới cơ sở dữ liệu hoặc hệ thống truy xuất thông tin, trong việc hình thành các lệnh bằng miệng tới các thiết bị thông minh khác nhau.

Các khái niệm cơ bản về hệ thống nhận dạng giọng nói.

Hệ thống nhận dạng giọng nói được đặc trưng bởi nhiều tham số.

Một trong những tham số chính là lỗi nhận dạng từ (ORF). Tham số này là tỷ lệ giữa số từ không được nhận dạng trên tổng số từ được nói.

Các thông số khác đặc trưng cho hệ thống nhận dạng giọng nói tự động là:

1) kích thước từ điển,

2) chế độ nói,

3) phong cách của bài phát biểu,

4) môn học,

5) nghiện diễn giả,

6) mức độ tiếng ồn âm thanh,

7) chất lượng của kênh đầu vào.

Tùy thuộc vào kích thước của từ điển, hệ thống APP được chia thành ba nhóm:

Với kích thước từ điển nhỏ (lên đến 100 từ),

Với kích thước từ điển trung bình (từ 100 từ đến vài nghìn từ),

Với kích thước từ điển lớn (hơn 10.000 từ).

Chế độ giọng nói đặc trưng cho cách các từ và cụm từ được phát âm. Có hệ thống nhận dạng giọng nói liên tục và hệ thống chỉ cho phép nhận dạng các từ ngữ riêng biệt. Chế độ nhận dạng từ biệt lập yêu cầu người nói tạm dừng một thời gian ngắn giữa các từ.

Theo phong cách phát biểu, hệ thống APP được chia thành hai nhóm: hệ thống lời nói xác định và hệ thống lời nói tự phát.

Trong hệ thống nhận dạng giọng nói xác định, người nói tái tạo lời nói tuân theo các quy tắc ngữ pháp của ngôn ngữ. Nói năng tự phát được đặc trưng bởi sự vi phạm các quy tắc ngữ pháp và khó nhận ra hơn.

Tùy thuộc vào lĩnh vực chủ đề, có hệ thống APP tập trung vào ứng dụng trong các lĩnh vực chuyên môn cao (ví dụ, truy cập cơ sở dữ liệu) và hệ thống APP với phạm vi không giới hạn. Cách thứ hai yêu cầu một lượng lớn từ vựng và phải cung cấp khả năng nhận dạng giọng nói tự phát.

Nhiều hệ thống nhận dạng giọng nói tự động phụ thuộc vào người nói. Điều này liên quan đến việc điều chỉnh trước hệ thống theo đặc thù của cách phát âm của một người nói cụ thể.

Sự phức tạp của việc giải quyết vấn đề nhận dạng giọng nói được giải thích bởi sự biến đổi cao của các tín hiệu âm thanh. Sự thay đổi này là do một số lý do:

Đầu tiên, sự thực hiện khác nhau của các âm vị - đơn vị cơ bản của hệ thống âm thanh của ngôn ngữ. Sự thay đổi trong việc triển khai các âm vị là do ảnh hưởng của các âm lân cận trong luồng lời nói. Các sắc thái của việc nhận biết âm vị, do môi trường âm thanh, được gọi là các âm sắc.

Thứ hai, vị trí và đặc điểm của máy thu âm.

Thứ ba, những thay đổi trong các thông số của lời nói của cùng một người nói, đó là do trạng thái cảm xúc của người nói khác nhau, tốc độ nói của họ.

Hình bên cho thấy các thành phần chính của hệ thống nhận dạng giọng nói:

Tín hiệu giọng nói được số hóa đi vào bộ phận tiền xử lý, nơi các tính năng cần thiết để nhận dạng âm thanh được trích xuất. Nhận dạng âm thanh thường được thực hiện bằng cách sử dụng các mô hình mạng nơ-ron nhân tạo. Sau đó, các đơn vị âm thanh đã chọn được sử dụng để tìm kiếm chuỗi từ phù hợp nhất với tín hiệu giọng nói đầu vào.

Việc tìm kiếm một chuỗi các từ được thực hiện bằng cách sử dụng các mô hình âm học, từ vựng và ngôn ngữ. Các tham số của mô hình được xác định từ dữ liệu đào tạo dựa trên các thuật toán học tập tương ứng.

Tổng hợp lời nói bằng văn bản. Các khái niệm cơ bản

Trong nhiều trường hợp, việc tạo ra các hệ thống trí tuệ nhân tạo với các yếu tố giao tiếp của cô ấy yêu cầu đầu ra của thông điệp ở dạng giọng nói. Hình bên cho thấy sơ đồ khối của một hệ thống trả lời câu hỏi thông minh với giao diện giọng nói:

Bức tranh 1.

Đọc một đoạn các bài giảng của Oleg

Hãy xem xét các đặc điểm của phương pháp thực nghiệm trên ví dụ về nhận dạng các phần của giọng nói. Nhiệm vụ là gán nhãn cho các từ của câu: danh từ, động từ, giới từ, tính từ, và những thứ tương tự. Ngoài ra, cần xác định thêm một số đặc điểm của danh từ và động từ. Ví dụ, đối với một danh từ, nó là một con số, và đối với một động từ, nó là một hình thức. Chúng tôi chính thức hóa nhiệm vụ.

Hãy biểu diễn câu dưới dạng một chuỗi các từ: W = w1 w2… wn, trong đó wn là các biến ngẫu nhiên, mỗi biến nhận một trong các giá trị có thể có thuộc từ điển ngôn ngữ. Chuỗi nhãn được gán cho các từ của câu có thể được biểu diễn bằng chuỗi X = x1 x2… xn, trong đó xn là các biến ngẫu nhiên có giá trị được xác định trên tập hợp các nhãn có thể có.

Sau đó, vấn đề của nhận dạng một phần giọng nói là tìm dãy nhãn x1, x2,…, xn có khả năng xảy ra cao nhất cho dãy các từ w1, w2,…, wn. Nói cách khác, cần phải tìm một dãy nhãn X * = x1 x2… xn cung cấp xác suất có điều kiện lớn nhất P (x1, x2,…, xn | w1 w2 .. wn).

Chúng ta hãy viết lại xác suất có điều kiện P (X | W) thành P (X | W) = P (X, W) / P (W). Vì yêu cầu phải tìm xác suất có điều kiện lớn nhất P (X, W) cho biến X, chúng ta nhận được X * = arg x max P (X, W). Xác suất chung P (X, W) có thể được viết dưới dạng tích của các xác suất có điều kiện: P (X, W) = tích trên u-1 đến n từ P (x i | x1,…, x i -1, w1,…, w i -1) P (w i | x1,…, x i -1, w1,…, w i -1). Tìm kiếm trực tiếp giá trị lớn nhất của biểu thức này là một nhiệm vụ khó khăn, vì đối với các giá trị lớn của n, không gian tìm kiếm trở nên rất lớn. Do đó, các xác suất được viết trong tích này được xấp xỉ bởi các xác suất có điều kiện đơn giản hơn: P (x i | x i -1) P (w i | w i -1). Trong trường hợp này, giả định rằng giá trị của nhãn x i chỉ được liên kết với nhãn x i -1 trước đó và không phụ thuộc vào các nhãn trước đó và xác suất của từ w i chỉ được xác định bởi nhãn x i hiện tại. Những giả định này được gọi là Markovian, và lý thuyết về mô hình Markov được sử dụng để giải quyết vấn đề. Có tính đến các giả định của Markov, chúng ta có thể viết:

X * = arg x1,…, xn max П i = 1 n P (x i | x i -1) P (wi | wi-1)

Trong đó xác suất có điều kiện được ước tính trên một tập dữ liệu đào tạo

Việc tìm kiếm chuỗi nhãn X * được thực hiện bằng thuật toán lập trình động Viterbi. Thuật toán Viterbi có thể được coi là một biến thể của thuật toán tìm kiếm đồ thị trạng thái, trong đó các đỉnh tương ứng với các nhãn từ.

Đặc biệt, đối với bất kỳ đỉnh hiện tại nào, tập các nhãn con luôn giống nhau. Hơn nữa, đối với mỗi đỉnh con, các tập hợp các đỉnh cha cũng trùng nhau. Điều này được giải thích là do quá trình chuyển đổi được thực hiện trên biểu đồ trạng thái, có tính đến tất cả các tổ hợp nhãn có thể có. Giả định Markov giúp đơn giản hóa đáng kể nhiệm vụ nhận dạng các phần của giọng nói trong khi vẫn duy trì độ chính xác cao trong việc gán nhãn cho các từ.

Vì vậy, với 200 thẻ, độ chính xác của phép gán là khoảng 97%. Trong một thời gian dài, phân tích hoàng gia đã được thực hiện bằng cách sử dụng ngữ pháp ngẫu nhiên không có ngữ cảnh. Tuy nhiên, chúng có một nhược điểm đáng kể. Nó nằm ở chỗ, các xác suất giống nhau có thể được gán cho các phân đoạn khác nhau. Điều này là do xác suất phân tích cú pháp được biểu diễn dưới dạng tích các xác suất của các quy tắc liên quan đến phân tích cú pháp. Nếu trong quá trình phân tích, các quy tắc khác nhau được sử dụng, được đặc trưng bởi các xác suất giống nhau, thì điều này dẫn đến vấn đề được chỉ ra. Kết quả tốt nhất được đưa ra bởi một ngữ pháp có tính đến từ vựng của ngôn ngữ.

Trong trường hợp này, các quy tắc bao gồm thông tin từ vựng cần thiết cung cấp các giá trị xác suất khác nhau cho cùng một quy tắc trong các môi trường từ vựng khác nhau. Phân tích cú pháp Imperial phù hợp hơn với nhận dạng mẫu hơn là phân tích cú pháp truyền thống theo nghĩa cổ điển của nó.

Các nghiên cứu so sánh đã chỉ ra rằng độ chính xác của việc phân tích cú pháp hệ Anh trong các ứng dụng ngôn ngữ tự nhiên cao hơn so với phân tích cú pháp truyền thống.

Các phương pháp nhận dạng mẫu tự động và việc triển khai chúng trong hệ thống nhận dạng ký tự quang học (Hệ thống nhận dạng ký tự quang học - OCR) là một trong những công nghệ trí tuệ nhân tạo tiên tiến nhất. Trong sự phát triển của công nghệ này, các nhà khoa học Nga chiếm vị trí hàng đầu trên thế giới.

Hệ thống OCR được hiểu là hệ thống nhận dạng hình ảnh tự động sử dụng các chương trình đặc biệt để hình ảnh các ký tự của văn bản in hoặc viết tay (ví dụ nhập vào máy tính thông qua máy quét) và chuyển thành định dạng phù hợp để xử lý bằng trình xử lý văn bản, trình soạn thảo văn bản. , vân vân.

Chữ viết tắt OCR đôi khi là viết tắt của Optical Character Reader - một thiết bị để nhận dạng ký tự quang học hoặc đọc văn bản tự động. Hiện nay, các thiết bị như vậy trong công nghiệp xử lý lên đến 100.000 tài liệu mỗi ngày.

Việc sử dụng trong công nghiệp liên quan đến việc nhập các tài liệu chất lượng từ tốt đến trung bình - đây là quá trình xử lý các biểu mẫu điều tra dân số, tờ khai thuế, v.v.

Chúng tôi liệt kê các đặc điểm của đối tượng có ý nghĩa quan trọng theo quan điểm của hệ thống OCR:

  • phông chữ và kích thước đa dạng của các ký tự;
  • sự biến dạng trong hình ảnh của các biểu tượng (sự phá vỡ trong hình ảnh của các biểu tượng);
  • biến dạng trong quá trình quét;
  • bao gồm nước ngoài trong hình ảnh;
  • sự kết hợp của các đoạn văn bản trong các ngôn ngữ khác nhau;
  • một loạt các lớp nhân vật chỉ có thể được nhận ra với thông tin ngữ cảnh bổ sung.

Tự động đọc các văn bản in và viết tay là một trường hợp đặc biệt của nhận thức trực quan tự động về các hình ảnh phức tạp. Nhiều nghiên cứu đã chỉ ra rằng để giải quyết triệt để vấn đề này, cần phải có sự công nhận trí tuệ, tức là "công nhận với sự hiểu biết".

Có ba nguyên tắc dựa trên tất cả các hệ thống OCR.

  • 1. Nguyên tắc về tính toàn vẹn của hình ảnh. Trong đối tượng đang nghiên cứu luôn có những bộ phận quan trọng giữa chúng có mối quan hệ với nhau. Kết quả của các phép toán cục bộ với các phần của hình ảnh chỉ được giải thích cùng nhau trong quá trình giải thích các mảnh tích phân và toàn bộ hình ảnh nói chung.
  • 2. Nguyên tắc có mục đích. Nhận biết là một quá trình có mục đích nhằm tạo ra và thử nghiệm các giả thuyết (tìm ra những gì được mong đợi ở một đối tượng).
  • 3. Nguyên tắc về khả năng thích ứng. Hệ thống ghi nhận phải có khả năng tự học.

Các hệ thống OCR hàng đầu của Nga: FineReader; Bản thảo FineReader; formReader; CunieForm (Công nghệ nhận thức), Hình thức nhận thức (Công nghệ nhận thức).

Hệ thống FineReader được sản xuất bởi ABBYY, được thành lập vào năm 1989. ABBYY phát triển theo hai hướng: thị giác máy và ngôn ngữ học ứng dụng. Định hướng chiến lược của nghiên cứu và phát triển khoa học là khía cạnh ngôn ngữ tự nhiên của các công nghệ trong lĩnh vực thị giác máy, trí tuệ nhân tạo và ngôn ngữ học ứng dụng.

CuneiForm GOLD cho Windows là hệ thống OCR thông minh tự học đầu tiên trên thế giới, sử dụng công nghệ nhận dạng văn bản thích ứng mới nhất, hỗ trợ nhiều ngôn ngữ. Đối với mỗi ngôn ngữ, một từ điển được cung cấp để kiểm tra theo ngữ cảnh và cải thiện chất lượng của kết quả nhận dạng. Nhận dạng bất kỳ kiểu chữ đa chữ, đánh máy và phông chữ nào nhận được từ máy in, ngoại trừ văn bản trang trí và viết tay, cũng như văn bản chất lượng rất thấp.

Đặc điểm của hệ thống nhận dạng mẫu. Trong số các công nghệ OSL, các công nghệ đặc biệt để giải quyết một số vấn đề về nhận dạng mẫu tự động có tầm quan trọng lớn:

  • tìm kiếm người bằng ảnh;
  • tìm kiếm các mỏ khoáng sản và dự báo thời tiết dựa trên ảnh hàng không và ảnh vệ tinh trong các dải bức xạ ánh sáng khác nhau;
  • biên soạn bản đồ địa lý dựa trên thông tin ban đầu được sử dụng trong nhiệm vụ trước đó;
  • phân tích dấu vân tay và mẫu mống mắt trong hệ thống pháp y, an ninh và y tế.

Ở giai đoạn chuẩn bị và xử lý thông tin, đặc biệt là khi doanh nghiệp tin học hóa, tự động hóa kế toán, nhiệm vụ đặt ra là nhập một lượng lớn thông tin dạng văn bản và đồ họa vào máy tính. Các thiết bị chính để nhập thông tin đồ họa là: máy quét, modem fax và ít thường xuyên hơn là máy ảnh kỹ thuật số. Ngoài ra, sử dụng các chương trình nhận dạng văn bản quang học, bạn cũng có thể nhập (số hóa) thông tin văn bản vào máy tính. Hệ thống phần mềm và phần cứng hiện đại cho phép tự động hóa việc nhập một lượng lớn thông tin vào máy tính, chẳng hạn như sử dụng máy quét mạng và nhận dạng văn bản song song trên nhiều máy tính đồng thời.

Hầu hết các chương trình OCR hoạt động với hình ảnh bitmap được nhận qua modem fax, máy quét, máy ảnh kỹ thuật số hoặc thiết bị khác. Ở giai đoạn đầu tiên, hệ thống OSA phải chia trang thành các khối văn bản, dựa trên các tính năng của căn lề phải và trái và sự hiện diện của một số cột. Khối được nhận dạng sau đó được chia thành các dòng. Mặc dù có sự đơn giản rõ ràng, đây không phải là một nhiệm vụ hiển nhiên, vì trong thực tế, sự biến dạng của hình ảnh trang hoặc các mảnh của nó khi gấp lại là không thể tránh khỏi. Ngay cả một độ nghiêng nhỏ cũng làm cho cạnh trái của một dòng thấp hơn cạnh phải của dòng tiếp theo, đặc biệt khi khoảng cách dòng nhỏ. Do đó, có một vấn đề trong việc xác định đường truyền của đoạn ảnh này hoặc đoạn ảnh đó. Ví dụ, đối với các chữ cái

Các dòng sau đó được chia thành các vùng tiếp giáp của hình ảnh tương ứng với các chữ cái riêng lẻ; thuật toán nhận dạng đưa ra các giả định về sự tương ứng của các khu vực này với các ký tự, và sau đó mỗi ký tự được chọn, kết quả là trang được khôi phục theo các ký tự của văn bản và theo một quy tắc, ở một định dạng nhất định. Hệ thống OCR có thể đạt được độ chính xác nhận dạng tốt nhất - hơn 99,9% đối với hình ảnh thuần túy bao gồm các phông chữ thông thường. Thoạt nhìn, độ chính xác nhận dạng này có vẻ lý tưởng, nhưng tỷ lệ lỗi vẫn còn thấp, bởi vì nếu có khoảng 1500 ký tự trên mỗi trang, thì ngay cả với tỷ lệ nhận dạng thành công là 99,9%, vẫn có một hoặc hai lỗi trên mỗi trang. Trong những trường hợp như vậy, bạn nên sử dụng phương pháp tra từ điển, tức là nếu một từ không có trong từ điển hệ thống, thì nó sẽ cố gắng tìm một từ tương tự theo các quy tắc đặc biệt. Nhưng điều này vẫn không cho phép sửa chữa 100% lỗi và cần có sự kiểm soát của con người đối với kết quả.

Các văn bản gặp phải trong cuộc sống thực thường không hoàn hảo và tỷ lệ lỗi nhận dạng đối với các văn bản "không tinh khiết" thường cao đến mức không thể chấp nhận được. Hình ảnh bẩn là vấn đề rõ ràng nhất vì ngay cả những vết ố nhỏ cũng có thể che khuất các bộ phận xác định của nhân vật hoặc biến đổi nhân vật này thành nhân vật khác. Vấn đề cũng là quá trình quét không chính xác liên quan đến "yếu tố con người", vì người vận hành ngồi tại máy quét không thể làm mịn từng trang được quét và căn chỉnh chính xác với các cạnh của máy quét. Nếu tài liệu được sao chụp, thường có các ký tự ngắt và ghép lại. Bất kỳ hiệu ứng nào trong số này đều có thể khiến hệ thống gặp lỗi vì một số hệ thống OSD cho rằng vùng tiếp giáp của hình ảnh phải là một ký tự duy nhất. Một trang nằm ngoài giới hạn hoặc lệch tạo ra các hình ảnh ký tự hơi lệch mà hệ thống OSA có thể nhầm lẫn.

Phần mềm hệ thống OSL thường hoạt động với một bitmap lớn của trang nhận được từ máy quét. Hình ảnh có độ phân giải tiêu chuẩn đạt được bằng cách quét với độ chính xác 9600 p / d. Hình ảnh tờ A4 ở độ phân giải này chiếm khoảng 1 MB bộ nhớ.

Mục đích chính của hệ thống OCR là phân tích thông tin raster (ký tự được quét) và gán một ký tự tương ứng cho một đoạn ảnh. Sau khi quá trình nhận dạng hoàn tất, hệ thống OCR phải có khả năng duy trì định dạng của tài liệu nguồn, gán thuộc tính đoạn văn vào đúng vị trí, lưu bảng, đồ họa, v.v. Các chương trình nhận dạng hiện đại hỗ trợ tất cả các định dạng văn bản và đồ họa và định dạng bảng tính, cũng như HTML và PDF.

Theo quy tắc, làm việc với hệ thống OCR không được gây ra bất kỳ khó khăn cụ thể nào. Hầu hết các hệ thống này đều có chế độ tự động đơn giản nhất là "quét và nhận dạng" (Scan & Read), đồng thời chúng cũng hỗ trợ chế độ nhận dạng hình ảnh từ tệp. Tuy nhiên, để đạt được kết quả tốt nhất có thể cho một hệ thống nhất định, điều cần thiết (và thường là cần thiết) phải điều chỉnh trước theo cách thủ công cho một loại văn bản, bố cục tiêu đề thư và chất lượng giấy cụ thể. Một trang nằm ngoài giới hạn hoặc bị lệch tạo ra hình ảnh ký tự hơi méo mó có thể bị nhầm lẫn bởi hệ thống OCR.

Khi làm việc với hệ thống OCR, điều rất quan trọng là chọn ngôn ngữ nhận dạng và loại vật liệu được nhận dạng (máy đánh chữ, fax, máy in kim, báo, v.v.), cũng như tính trực quan của giao diện người dùng. Khi nhận dạng văn bản trong đó một số ngôn ngữ được sử dụng, hiệu quả nhận dạng phụ thuộc vào khả năng tạo nhóm ngôn ngữ của hệ thống OCR. Đồng thời, một số hệ thống đã có sự kết hợp cho các ngôn ngữ được sử dụng phổ biến nhất, chẳng hạn như tiếng Nga và tiếng Anh.

Hiện tại, có rất nhiều chương trình hỗ trợ nhận dạng văn bản là một trong những khả năng. Đi đầu trong lĩnh vực này là hệ thống FineReader. Phiên bản mới nhất của chương trình (6.0) hiện có các công cụ để phát triển hệ thống mới dựa trên công nghệ FineReader 6.0. Dòng FineReader 6.0 bao gồm: FineReader 6.0 Professional, FineReader 6.0 Corporate Edition, FineReader Scripting Edition 6.0 và FineReader Engine 6.0. Hệ thống FineReader 6.0, ngoài việc biết một số lượng lớn các định dạng để lưu, bao gồm cả PDF, còn có khả năng nhận dạng trực tiếp từ các tệp PDF. Công nghệ mới Intelligent Background Filtering (lọc nền thông minh) cho phép bạn lọc ra thông tin về kết cấu của tài liệu và nhiễu nền của hình ảnh: đôi khi nền xám hoặc màu được sử dụng để làm nổi bật văn bản trong tài liệu. Điều này không ngăn cản một người đọc, nhưng các thuật toán nhận dạng văn bản thông thường gặp khó khăn nghiêm trọng khi làm việc với các chữ cái nằm trên nền như vậy. FineReader có thể phát hiện các vùng chứa văn bản như vậy bằng cách tách văn bản khỏi nền của tài liệu, tìm các chấm nhỏ hơn một lượng nhất định và xóa chúng. Đồng thời, các đường viền của các chữ cái được giữ nguyên, do đó các điểm nền gần với các đường viền này không gây nhiễu có thể làm giảm chất lượng nhận dạng văn bản.

Sử dụng khả năng của các chương trình bố cục hiện đại, các nhà thiết kế thường tạo ra các đối tượng có hình dạng phức tạp, chẳng hạn như gói văn bản nhiều cột xung quanh một hình ảnh không phải là hình chữ nhật. FineReader 6.0 hỗ trợ nhận dạng các đối tượng như vậy và lưu chúng trong các tệp MS Word. Giờ đây, các tài liệu có bố cục phức tạp sẽ được tái tạo chính xác trong trình soạn thảo văn bản này. Ngay cả các bảng cũng được nhận dạng với độ chính xác tối đa, trong khi vẫn duy trì tất cả các khả năng chỉnh sửa.

ABBYY FormReader là một trong những chương trình nhận dạng của ABBYY dựa trên ABBYY FineReader Engine. Chương trình này được thiết kế để nhận dạng và xử lý các biểu mẫu có thể được điền thủ công. ABBYY FormReader có thể xử lý các biểu mẫu có bố cục cố định cũng như các biểu mẫu có cấu trúc có thể thay đổi. Công nghệ ABBYY FlexiForm mới đã được sử dụng để nhận dạng.

Các nhà cung cấp phần mềm hàng đầu đã cấp phép sử dụng công nghệ thông tin của Nga cho các sản phẩm của họ. Các gói phần mềm phổ biến Corel Draw (Corel Corporation), FaxLine / OCR & Business Card Wizard (Inzer Corporation) và nhiều gói phần mềm khác có thư viện CuneiForm OCR được tích hợp sẵn. Chương trình này đã trở thành hệ thống OCR đầu tiên ở Nga nhận được Biểu trưng tương thích với MS Windows.

Readiris Pro 7 là một chương trình nhận dạng văn bản chuyên nghiệp. Theo các nhà sản xuất, hệ thống OCR này khác với các hệ thống tương tự ở độ chính xác cao nhất trong việc chuyển đổi các tài liệu in thông thường (hàng ngày), chẳng hạn như thư, fax, các bài báo, mẩu báo, thành các đối tượng có thể chỉnh sửa (bao gồm cả tệp PDF). Ưu điểm chính của chương trình là: khả năng nhận dạng ít nhiều chính xác hình ảnh được nén “ở mức tối đa” (với chất lượng giảm tối đa) bằng cách sử dụng phương pháp định dạng JPEG, hỗ trợ cho máy ảnh kỹ thuật số và tự động phát hiện hướng trang, hỗ trợ lên đến 92 ngôn ngữ (bao gồm cả tiếng Nga).

OmniPage 11 là một sản phẩm của ScanSoft. Phiên bản giới hạn của chương trình này (OmniPage 11 Limited Edition, OmniPage Lite) thường đi kèm với các máy quét mới (ở Châu Âu và Hoa Kỳ). Các nhà phát triển tuyên bố rằng chương trình của họ nhận dạng tài liệu in với độ chính xác gần như 100%, khôi phục định dạng của chúng, bao gồm cột, bảng, gạch nối (bao gồm gạch nối các phần của từ), tiêu đề, tiêu đề chương, chữ ký, số trang, chú thích cuối trang, đoạn văn, danh sách được đánh số , đường màu đỏ, đồ thị và hình ảnh. Có thể lưu vào Microsoft Office, PDF và 20 định dạng khác, nhận dạng từ tệp PDF và chỉnh sửa ở định dạng này. Hệ thống trí tuệ nhân tạo cho phép bạn tự động phát hiện và sửa lỗi sau lần sửa thủ công đầu tiên. Một mô-đun phần mềm mới được phát triển đặc biệt "Dcspeckle" cho phép bạn nhận ra các tài liệu có chất lượng giảm sút (fax, bản sao, bản sao của bản sao, v.v.). Ưu điểm của chương trình là khả năng nhận dạng chữ màu và sửa bằng giọng nói. Một phiên bản của OmniPage cũng tồn tại cho máy tính Macintosh.

  • Cm: Bashmakov A. I., Bashmakov I. A. Công nghệ thông tin thông minh.

Gửi công việc tốt của bạn trong cơ sở kiến ​​thức là đơn giản. Sử dụng biểu mẫu bên dưới

Các sinh viên, nghiên cứu sinh, các nhà khoa học trẻ sử dụng nền tảng tri thức trong học tập và làm việc sẽ rất biết ơn các bạn.

Đăng trên http://www.allbest.ru/

Bộ Giáo dục và Khoa học Liên bang Nga

Novosibirsk State University of Economics and Management "NINH"

Khoa Công nghệ Thông tin

Cục Công nghệ Thông tin Ứng dụng

kỷ luật Lôgic mờ và mạng nơ ron

Nhận dạng mẫu

Hướng: Tin học kinh doanh (kinh doanh điện tử)

Tên đầy đủ của sinh viên: Ekaterina Vitalievna Mazur

Kiểm tra bởi: Pavlova Anna Illarionovna

Novosibirsk 2016

  • Giới thiệu
  • 1. Khái niệm công nhận
    • 1.1 Lịch sử phát triển
    • 1.2 Phân loại các phương pháp nhận dạng mẫu
  • 2. Các phương pháp nhận dạng mẫu
  • 3. Đặc điểm chung của các bài toán nhận dạng mẫu và các dạng của chúng
  • 4. Các vấn đề và triển vọng cho sự phát triển của nhận dạng mẫu
    • 4.1 Ứng dụng của nhận dạng mẫu trong thực tế
  • Sự kết luận

Giới thiệu

Trong một thời gian dài, vấn đề nhận dạng mẫu chỉ được xem xét trên quan điểm sinh học. Đồng thời, chỉ quan sát các đặc điểm định tính, không cho phép mô tả cơ chế hoạt động.

Khái niệm do N. Wiener đưa ra vào đầu thế kỷ 20 điều khiển học(khoa học về các quy luật chung điều chỉnh các quá trình điều khiển và truyền thông tin trong máy móc, cơ thể sống và xã hội), có thể đưa ra các phương pháp định lượng trong các vấn đề ghi nhận. Tức là trình bày quá trình này (thực chất - một hiện tượng tự nhiên) bằng phương pháp toán học.

Lý thuyết nhận dạng mẫu là một trong những nhánh chính của điều khiển học, cả về mặt lý thuyết và ứng dụng. Do đó, tự động hóa một số quy trình liên quan đến việc tạo ra các thiết bị có khả năng đáp ứng với các đặc tính thay đổi của môi trường bên ngoài với một số phản ứng tích cực nhất định.

Cơ sở để giải quyết các vấn đề ở cấp độ này là kết quả của lý thuyết cổ điển về các giải pháp thống kê. Trong khuôn khổ của nó, các thuật toán để xác định lớp mà một đối tượng dễ nhận biết có thể được chỉ định đã được xây dựng.

Mục đích của công việc này là làm quen với các khái niệm của lý thuyết nhận dạng mẫu: tiết lộ các định nghĩa chính, nghiên cứu lịch sử xuất hiện, làm nổi bật các phương pháp và nguyên tắc chính của lý thuyết.

Sự phù hợp của chủ đề nằm ở chỗ tại thời điểm hiện tại, nhận dạng mẫu là một trong những lĩnh vực hàng đầu của điều khiển học. Vì vậy, trong những năm gần đây, nó ngày càng được sử dụng nhiều hơn: nó đơn giản hóa sự tương tác của một người với máy tính và tạo ra các điều kiện tiên quyết để sử dụng các hệ thống trí tuệ nhân tạo khác nhau.

ứng dụng nhận dạng hình ảnh

1. Khái niệm công nhận

Trong một thời gian dài, vấn đề thừa nhận chỉ thu hút sự quan tâm của các nhà khoa học trong lĩnh vực toán học ứng dụng. Kết quả là, các tác phẩm của R. Fischer, được tạo ra trong 20s, dẫn đến sự hình thành của phân tích phân biệt - một trong những phần lý thuyết và thực hành về nhận dạng mẫu. TẠI 40s A. N. Kolmogorov và A. Ya.Khinchin đặt mục tiêu tách một hỗn hợp gồm hai phân phối. Và trong 50-60s những năm của thế kỷ XX, trên cơ sở của một số lượng lớn các công trình, lý thuyết thống kê quyết định đã xuất hiện. Trong khuôn khổ của điều khiển học, một hướng mới bắt đầu hình thành, gắn liền với sự phát triển của các cơ sở lý thuyết và việc triển khai thực tế các cơ chế, cũng như các hệ thống được thiết kế để nhận ra các đối tượng và quy trình. Kỷ luật mới được gọi là "Nhận dạng mẫu".

Nhận dạng mẫu(đối tượng) là nhiệm vụ xác định một đối tượng bằng hình ảnh của nó (nhận dạng quang học), ghi âm (nhận dạng âm thanh) hoặc các đặc điểm khác. Hình ảnh- Đây là cách phân nhóm phân loại cho phép bạn kết hợp một nhóm đối tượng theo một số tiêu chí. Hình ảnh có một tính năng đặc trưng thể hiện ở chỗ làm quen với một số lượng hữu hạn các hiện tượng từ một tập hợp nên có thể nhận ra một số lượng lớn các đại diện của nó. Trong công thức cổ điển của bài toán nhận dạng, tập hợp được chia thành nhiều phần.

Một trong những định nghĩa cơ bản cũng là khái niệm các bộ. Trong máy tính, tập hợp là tập hợp các phần tử không lặp lại của cùng một kiểu. "Không lặp lại" có nghĩa là một phần tử có mặt trong tập hợp hoặc không. Tập hợp phổ quát bao gồm tất cả các phần tử có thể có, tập hợp rỗng không chứa phần tử nào.

Phương thức gán một phần tử cho một số hình ảnh được gọi là quy tắc quyết định. Một khái niệm quan trọng khác là số liệu- xác định khoảng cách giữa các phần tử của tập hợp. Khoảng cách này càng nhỏ, các đối tượng (biểu tượng, âm thanh, v.v.) mà chúng ta nhận ra càng giống nhau. Theo mặc định, các phần tử được chỉ định dưới dạng một tập hợp số và chỉ số được chỉ định dưới dạng một số loại hàm. Hiệu quả của chương trình phụ thuộc vào sự lựa chọn biểu diễn hình ảnh và việc thực hiện số liệu: cùng một thuật toán nhận dạng với các số liệu khác nhau sẽ mắc lỗi với tần suất khác nhau.

học hỏi thường được gọi là quá trình phát triển trong một số hệ thống một phản ứng cụ thể đối với các yếu tố của các tín hiệu tương tự bên ngoài do tác động lặp đi lặp lại của chúng lên hệ thống. tự học khác với đào tạo ở chỗ ở đây thông tin bổ sung về phản ứng không được báo cáo cho hệ thống.

Ví dụ về các vấn đề nhận dạng mẫu là:

Nhận dạng chữ cái;

Nhận dạng mã vạch;

Công nhận biển số xe;

Nhận dạng khuôn mặt và các dữ liệu sinh trắc học khác;

Nhận dạng giọng nói, v.v.

1.1 Câu chuyện sự phát triển

Vào giữa những năm 1950, R. Penrose đặt câu hỏi về mô hình mạng lưới thần kinh của não, chỉ ra vai trò thiết yếu của các hiệu ứng cơ lượng tử đối với hoạt động của nó. Dựa trên điều này, F. Rosenblatt đã phát triển một mô hình học tập nhận dạng mẫu trực quan được gọi là perceptron.

Bức ảnh1 - Sơ đồ Perceptron

Hơn nữa, các khái niệm tổng quát khác nhau của perceptron đã được phát minh và chức năng của các nơron rất phức tạp: các nơron không chỉ có thể nhân các số đầu vào và so sánh kết quả với các giá trị ngưỡng mà còn áp dụng các hàm phức tạp hơn cho chúng. Hình 2 cho thấy một trong những biến chứng sau:

Cơm. 2 Sơ đồ của mạng nơron.

Ngoài ra, cấu trúc liên kết của mạng nơ-ron có thể còn phức tạp hơn. Ví dụ, như thế này:

Hình 3 - Sơ đồ mạng nơ-ron của Rosenblatt.

Mạng nơ-ron, là một đối tượng phức tạp để phân tích toán học, với cách sử dụng thích hợp, có thể tìm ra các luật dữ liệu rất đơn giản. Nhưng ưu điểm này cũng là một nguồn tiềm ẩn những sai sót. Khó khăn đối với phân tích, trong trường hợp chung, chỉ được giải thích bởi một cấu trúc phức tạp, nhưng kết quả là, bởi khả năng thực tế vô tận để khái quát nhiều quy luật.

1.2 Phân loạiphương phápsự công nhậnhình ảnh

Như chúng ta đã lưu ý, nhận dạng mẫu là nhiệm vụ thiết lập các quan hệ tương đương giữa các hình ảnh-mô hình nhất định của các đối tượng trong thế giới thực hoặc lý tưởng.

Các quan hệ này xác định sự thuộc về các đối tượng nhận biết đối với một số lớp, chúng được coi như các đơn vị độc lập độc lập.

Khi xây dựng các thuật toán nhận dạng, các lớp này có thể được chỉ định bởi nhà nghiên cứu sử dụng ý tưởng của riêng mình hoặc sử dụng thông tin bổ sung về sự giống hoặc khác nhau của các đối tượng trong bối cảnh của một nhiệm vụ nhất định. Trong trường hợp này, người ta nói về "sự công nhận với giáo viên." Nói cách khác, tức là khi một hệ thống tự động giải quyết vấn đề phân loại mà không liên quan đến thông tin bổ sung, người ta nói về "nhận dạng không giám sát".

Trong các tác phẩm của V.A. Duke đưa ra một cái nhìn tổng quan học thuật về các phương pháp ghi nhận và sử dụng hai cách chính để biểu thị kiến ​​thức:

Có chủ đích (dưới dạng sơ đồ mối quan hệ giữa các thuộc tính);

Mở rộng với sự trợ giúp của các dữ kiện cụ thể (đối tượng, ví dụ).

Biểu diễn tổng hợp nắm bắt các mẫu giải thích cấu trúc của dữ liệu. Đối với các nhiệm vụ chẩn đoán, việc xác định như vậy bao gồm việc xác định các hoạt động trên các tính năng của đối tượng dẫn đến kết quả mong muốn. Các biểu diễn có chủ đích được thực hiện thông qua các hoạt động trên các giá trị và không liên quan đến các hoạt động trên các đối tượng cụ thể.

Đổi lại, các biểu diễn mở rộng của tri thức được liên kết với việc mô tả và cố định các đối tượng cụ thể từ lĩnh vực chủ đề và được thực hiện trong các hoạt động, các phần tử của chúng là các đối tượng như những hệ thống độc lập.

Như vậy, việc phân loại các phương pháp thừa nhận do V.A. Duke, các luật cơ bản được đặt ra làm nền tảng cho cách nhận thức của con người về nguyên tắc. Điều này đặt sự phân chia thành các lớp ở một vị trí đặc biệt so với các cách phân loại khác ít được biết đến hơn.

2. Phương phápnhận dạng mẫu

Phương pháp lặp lại. Trong phương pháp này, một phép so sánh được thực hiện với một cơ sở dữ liệu nhất định, trong đó đối với mỗi đối tượng có các tùy chọn khác nhau để sửa đổi màn hình. Ví dụ: đối với nhận dạng hình ảnh quang học, bạn có thể áp dụng phương pháp lặp lại ở các góc độ hoặc tỷ lệ khác nhau, độ lệch, biến dạng, v.v. Đối với chữ cái, bạn có thể lặp qua phông chữ hoặc các thuộc tính của nó. Trong trường hợp nhận dạng mẫu âm thanh, có sự so sánh với một số mẫu đã biết (một từ được nhiều người nói). Hơn nữa, một phân tích sâu hơn về các đặc điểm của hình ảnh được thực hiện. Trong trường hợp nhận dạng quang học, đây có thể là định nghĩa của các đặc trưng hình học. Mẫu âm thanh trong trường hợp này được phân tích tần số và biên độ.

Phương pháp tiếp theo là sử dụng mạng nơ-ron nhân tạo(INS). Nó yêu cầu một số lượng lớn các ví dụ về nhiệm vụ nhận dạng hoặc một cấu trúc mạng nơ-ron đặc biệt có tính đến các chi tiết cụ thể của nhiệm vụ này. Tuy nhiên, phương pháp này có đặc điểm là hiệu quả và năng suất cao.

Phương pháp dựa trên ước tính về mật độ phân bố của các giá trị đặc trưng. Được vay mượn từ lý thuyết cổ điển về quyết định thống kê, trong đó đối tượng nghiên cứu được coi là những nhận thức của một biến ngẫu nhiên nhiều chiều phân bố trong không gian đặc trưng theo một quy luật nào đó. Chúng dựa trên sơ đồ ra quyết định Bayes, áp dụng các xác suất ban đầu của các đối tượng thuộc một lớp cụ thể và mật độ phân bố đặc trưng có điều kiện.

Nhóm các phương pháp dựa trên ước lượng mật độ phân bố của các giá trị đặc trưng có liên quan trực tiếp đến các phương pháp phân tích phân biệt. Cách tiếp cận Bayes để ra quyết định là một trong những phương pháp tham số phát triển nhất trong thống kê hiện đại, trong đó biểu thức phân tích của luật phân phối (luật chuẩn) được coi là đã biết và chỉ có một số lượng nhỏ các tham số (vectơ trung bình và ma trận hiệp phương sai) ) cần được ước tính. Những khó khăn chính trong việc áp dụng phương pháp này được coi là cần phải nhớ toàn bộ tập huấn luyện để tính ước lượng mật độ và độ nhạy cao đối với tập huấn luyện.

Các phương pháp dựa trên các giả định về lớp các chức năng quyết định. Trong nhóm này, loại chức năng quyết định được coi là đã biết và chức năng chất lượng của nó được đưa ra. Dựa trên hàm này, giá trị gần đúng tối ưu cho hàm quyết định được tìm thấy bằng cách sử dụng trình tự huấn luyện. Chức năng chất lượng của quy tắc quyết định thường đi kèm với một lỗi. Ưu điểm chính của phương pháp này là sự rõ ràng của công thức toán học của vấn đề nhận dạng. Khả năng rút ra kiến ​​thức mới về bản chất của một đối tượng, đặc biệt là kiến ​​thức về cơ chế tương tác của các thuộc tính, ở đây cơ bản bị giới hạn bởi một cấu trúc nhất định tương tác, cố định ở dạng đã chọn của các chức năng quyết định.

Phương pháp so sánh nguyên mẫu. Đây là phương pháp nhận dạng mở rộng dễ dàng nhất trong thực tế. Nó áp dụng khi các lớp dễ nhận biết được hiển thị dưới dạng các lớp hình học nhỏ gọn. Sau đó, tâm của nhóm hình học (hoặc đối tượng gần tâm nhất) được chọn làm điểm nguyên mẫu.

Để phân loại một đối tượng không xác định, người ta tìm thấy nguyên mẫu gần nhất và đối tượng đó thuộc cùng lớp với nó. Rõ ràng, không có hình ảnh khái quát nào được hình thành trong phương pháp này. Nhiều loại khoảng cách có thể được sử dụng làm thước đo.

k phương pháp hàng xóm gần nhất. Phương pháp này nằm ở chỗ khi phân loại một đối tượng chưa biết, một số (k) đã cho của không gian đặc trưng gần nhất về mặt hình học của các lân cận gần nhất khác đã biết thuộc về một lớp. Quyết định gán một đối tượng không xác định được thực hiện bằng cách phân tích thông tin về những người hàng xóm gần nhất của nó. Sự cần thiết phải giảm số lượng đối tượng trong mẫu đào tạo (tiền lệ chẩn đoán) là một nhược điểm của phương pháp này, vì điều này làm giảm tính đại diện của mẫu đào tạo.

Dựa trên thực tế là các thuật toán nhận dạng khác nhau hoạt động khác nhau trên cùng một mẫu, câu hỏi đặt ra về một quy tắc quyết định tổng hợp sẽ sử dụng các điểm mạnh của tất cả các thuật toán. Đối với điều này, có một phương pháp tổng hợp hoặc các bộ quy tắc quyết định kết hợp các khía cạnh tích cực nhất của mỗi phương pháp.

Để kết thúc việc xem xét các phương pháp ghi nhận, chúng tôi trình bày bản chất của những điều trên trong một bảng tóm tắt, bổ sung thêm một số phương pháp khác được sử dụng trong thực tế.

Bảng 1. Bảng phân loại các phương pháp ghi nhận, so sánh các lĩnh vực ứng dụng và hạn chế của chúng

Phân loại các phương pháp ghi nhận

Khu vực ứng dụng

Hạn chế (nhược điểm)

Các phương pháp nhận dạng chuyên sâu

Phương pháp dựa trên ước tính mật độ

Các vấn đề với phân phối đã biết (chuẩn), nhu cầu thu thập số liệu thống kê lớn

Sự cần thiết phải liệt kê toàn bộ tập huấn luyện trong quá trình ghi nhận, độ nhạy cao đối với tính không đại diện của tập huấn luyện và hiện vật

Phương pháp dựa trên giả định

Các lớp phải được phân tách rõ ràng

Hình thức của chức năng quyết định phải được biết trước. Không thể tính đến kiến ​​thức mới về mối tương quan giữa các tính năng

Phương pháp Boolean

Các vấn đề về kích thước nhỏ

Khi lựa chọn các quy tắc quyết định hợp lý, cần phải liệt kê đầy đủ. Cường độ lao động cao

Phương pháp ngôn ngữ

Nhiệm vụ xác định ngữ pháp cho một tập hợp các câu lệnh nhất định (mô tả các đối tượng) là khó chính thức hóa. Các vấn đề lý thuyết chưa được giải quyết

Các phương pháp công nhận mở rộng

Phương pháp so sánh nguyên mẫu

Các vấn đề về kích thước nhỏ của không gian đặc trưng

Sự phụ thuộc nhiều của kết quả phân loại vào số liệu. Số liệu tối ưu không xác định

k phương pháp hàng xóm gần nhất

Sự phụ thuộc nhiều của kết quả phân loại vào số liệu. Sự cần thiết phải liệt kê đầy đủ mẫu đào tạo trong quá trình công nhận. Tính phức tạp

Thuật toán tính điểm (ABO)

Các vấn đề về kích thước nhỏ về số lượng lớp và tính năng

Sự phụ thuộc của kết quả phân loại vào số liệu. Sự cần thiết phải liệt kê đầy đủ mẫu đào tạo trong quá trình công nhận. Độ phức tạp kỹ thuật cao của phương pháp

Quy tắc quyết định tập thể (CRC) là một phương pháp tổng hợp.

Các vấn đề về kích thước nhỏ về số lượng lớp và tính năng

Độ phức tạp kỹ thuật rất cao của phương pháp, số lượng các vấn đề lý thuyết chưa được giải quyết, cả trong việc xác định các lĩnh vực năng lực của các phương pháp cụ thể và trong chính các phương pháp cụ thể

3. Đặc điểm chung của các bài toán nhận dạng mẫu và các dạng của chúng

Cấu trúc chung của hệ thống ghi nhận và các giai đoạn của nó được thể hiện trong Hình 4:

hinh 4 - Cấu trúc của hệ thống nhận dạng

Các nhiệm vụ ghi nhận có các giai đoạn đặc trưng sau:

Chuyển đổi dữ liệu ban đầu sang một dạng thuận tiện để ghi nhận;

Nhận biết (chỉ ra rằng một đối tượng thuộc một lớp nhất định).

Trong các bài toán này, người ta có thể đưa ra khái niệm về sự giống nhau của các đối tượng và hình thành một tập hợp các quy tắc dựa trên đó một đối tượng được gán cho một hoặc các lớp khác nhau.

Nó cũng có thể hoạt động với một tập hợp các ví dụ, phân loại trong số đó đã biết và dưới dạng mô tả cho trước, có thể được khai báo cho thuật toán nhận dạng để được điều chỉnh cho phù hợp với nhiệm vụ trong quá trình học tập.

Khó khăn trong việc giải quyết các vấn đề nhận dạng có liên quan đến việc không thể áp dụng các phương pháp toán học cổ điển mà không có hiệu chỉnh (thường không có sẵn thông tin cho một mô hình toán học chính xác)

Có các loại nhiệm vụ nhận dạng sau:

Nhiệm vụ công nhận là việc giao đối tượng được trình bày theo mô tả của nó cho một trong các lớp đã cho (đào tạo với một giáo viên);

Nhiệm vụ của phân loại tự động là tách tập hợp thành một hệ thống các lớp không chồng chéo (phân loại, phân tích cụm, tự học);

Vấn đề lựa chọn một tập hợp các thuộc tính thông tin trong công nhận;

Nhiệm vụ đưa dữ liệu ban đầu về dạng thuận tiện;

Nhận dạng và phân loại động;

Nhiệm vụ của dự báo - tức là quyết định phải đề cập đến một thời điểm nhất định trong tương lai.

Có hai vấn đề khó khăn nhất trong các hệ thống nhận dạng hiện có:

Vấn đề "1001 lớp" - thêm 1 lớp vào 1000 lớp hiện có gây khó khăn trong việc đào tạo lại hệ thống và kiểm tra dữ liệu thu được trước đó;

Vấn đề “tương quan của từ vựng và nguồn” được thể hiện mạnh mẽ nhất trong nhận dạng giọng nói. Các hệ thống hiện tại có thể nhận ra một số lượng lớn các từ từ một nhóm nhỏ các cá nhân hoặc một vài từ từ một nhóm lớn các cá nhân. Cũng khó nhận ra một số lượng lớn các gương mặt trang điểm hay nhăn nhó.

Mạng nơ-ron không giải quyết những vấn đề này một cách trực tiếp, tuy nhiên, do bản chất của chúng, chúng thích ứng dễ dàng hơn nhiều với những thay đổi trong trình tự đầu vào.

4. Vấn đề và triển vọngsự phát triểnnhận dạng mẫu

4.1 Ứng dụng của nhận dạng mẫu trong thực tế

Nhìn chung, bài toán nhận dạng mẫu bao gồm hai phần: học và nhận dạng. Việc học được thực hiện bằng cách hiển thị các đối tượng độc lập với sự phân công của chúng cho một hoặc một lớp khác. Kết quả của việc đào tạo, hệ thống nhận biết phải có được khả năng phản ứng với các phản ứng giống nhau đối với tất cả các đối tượng của một hình ảnh và các phản ứng khác nhau đối với tất cả các đối tượng khác. Điều quan trọng là trong quá trình học chỉ chỉ ra bản thân các đối tượng và sự thuộc về hình ảnh của chúng. Đào tạo được theo sau bởi một quá trình công nhận đặc trưng cho các hành động của một hệ thống đã được đào tạo. Vấn đề là tự động hóa các thủ tục này.

Trước khi bắt đầu phân tích bất kỳ đối tượng nào, cần phải có được thông tin chính xác nhất định về nó theo một cách nào đó. Thông tin như vậy là một tập hợp các thuộc tính của các đối tượng, hiển thị của chúng trên tập hợp các cơ quan nhận thức của hệ thống nhận biết.

Nhưng mỗi đối tượng quan sát có thể hoạt động khác nhau, tùy thuộc vào các điều kiện của tri giác. Ngoài ra, các đối tượng của cùng một hình ảnh có thể rất khác nhau.

Mỗi ánh xạ của bất kỳ đối tượng nào tới các cơ quan nhận thức của hệ thống nhận biết, bất kể vị trí của nó so với các cơ quan này là gì, thường được gọi là ảnh của đối tượng và tập hợp các ảnh đó, được thống nhất bởi một số thuộc tính chung, là ảnh. Với việc lựa chọn thành công mô tả ban đầu (không gian tính năng), nhiệm vụ nhận dạng có thể trở nên khá dễ dàng, và ngược lại, một mô tả được chọn không thành công có thể dẫn đến việc xử lý thông tin rất khó khăn hoặc thậm chí không có giải pháp .

Ghi nhận các đối tượng, tín hiệu, tình huống, hiện tượng là nhiệm vụ phổ biến nhất mà một người cần giải quyết mỗi giây. Đối với điều này, nguồn lực khổng lồ của bộ não được sử dụng, được ước tính bằng một chỉ số như số lượng tế bào thần kinh bằng 10 10.

Ngoài ra, sự công nhận liên tục gặp phải trong công nghệ. Các phép tính trong mạng lưới nơ-ron chính thức theo nhiều cách gợi nhớ đến quá trình xử lý thông tin của não bộ. Trong thập kỷ qua, máy tính thần kinh đã trở nên cực kỳ phổ biến và đã trở thành một ngành kỹ thuật gắn liền với việc sản xuất các sản phẩm thương mại. Một lượng lớn công việc đang được tiến hành để tạo cơ sở phần tử cho máy tính thần kinh.

Tính năng đặc trưng chính của chúng là khả năng giải quyết các vấn đề không chính thức hóa mà vì lý do này hay lý do khác, không có thuật toán giải nào được đưa ra. Máy tính thần kinh cung cấp một công nghệ tương đối đơn giản để thu được các thuật toán thông qua đào tạo. Đây là lợi thế chính của họ. Do đó, máy tính thần kinh là có liên quan ngay bây giờ - trong thời kỳ hoàng kim của đa phương tiện, khi sự phát triển toàn cầu đòi hỏi sự phát triển của các công nghệ mới liên quan chặt chẽ đến nhận dạng mẫu.

Một trong những vấn đề chính trong quá trình phát triển và ứng dụng trí tuệ nhân tạo vẫn là vấn đề nhận dạng âm thanh và hình ảnh trực quan. Tất cả các công nghệ khác đã sẵn sàng để ứng dụng trong y học, sinh học, hệ thống an ninh. Trong y học, nhận dạng mẫu giúp các bác sĩ chẩn đoán chính xác hơn; trong các nhà máy, nó được sử dụng để dự đoán các khuyết tật trong lô hàng hóa. Hệ thống nhận dạng sinh trắc học, với tư cách là cốt lõi thuật toán của chúng, cũng dựa trên kết quả nhận dạng. Việc phát triển và thiết kế hơn nữa các máy tính có khả năng giao tiếp trực tiếp hơn với một người bằng các ngôn ngữ tự nhiên cho con người và thông qua giọng nói là không thể giải quyết được nếu không có sự công nhận. Ở đây, câu hỏi về sự phát triển của người máy, các hệ thống điều khiển nhân tạo, có chứa các hệ thống nhận dạng là hệ thống con quan trọng, đã được đặt ra.

Sự kết luận

Kết quả của công việc, một cái nhìn tổng quan ngắn gọn về các định nghĩa chính của các khái niệm của phần điều khiển học như nhận dạng mẫu đã được thực hiện, các phương pháp nhận dạng đã được xác định và các nhiệm vụ đã được xây dựng.

Tất nhiên, có nhiều hướng cho sự phát triển của ngành khoa học này. Ngoài ra, như đã trình bày ở một trong các chương, công nhận là một trong những lĩnh vực phát triển quan trọng hiện nay. Do đó, phần mềm trong những thập kỷ tới thậm chí có thể trở nên hấp dẫn hơn đối với người dùng và cạnh tranh trên thị trường hiện đại nếu nó có được định dạng thương mại và bắt đầu được phân phối trong một số lượng lớn người tiêu dùng.

Các nghiên cứu sâu hơn có thể hướng đến các khía cạnh sau: phân tích sâu về các phương pháp xử lý chính và phát triển các phương pháp kết hợp hoặc sửa đổi mới để ghi nhận. Dựa trên nghiên cứu đã thực hiện, sẽ có thể phát triển một hệ thống ghi nhận chức năng, trong đó có thể kiểm tra tính hiệu quả của các phương pháp ghi nhận đã chọn.

Thư mục

1. David Formais, Jean Pons Thị giác máy tính. Cách tiếp cận hiện đại, 2004

2. Aizerman M.A., Braverman E.M., Rozonoer L.I. Phương pháp hàm tiềm năng trong lý thuyết máy học. - M.: Nauka, 2004.

3. Zhuravlev Yu.I. Về cách tiếp cận đại số để giải quyết các vấn đề về nhận dạng hoặc phân loại // Các vấn đề của Điều khiển học. M.: Nauka, 2005. - Số phát hành. 33.

4. Mazurov V.D. Ủy ban các Hệ thống Bất bình đẳng và Vấn đề Nhận biết // Điều khiển học, 2004, số 2.

5. Potapov A.S. Nhận dạng mẫu và cảm nhận máy. - St.Petersburg: Bách khoa, 2007.

6. Minsky M., Papert S. Perceptrons. - M.: Mir, 2007.

7. Rastrigin L. A., Erenshtein R. Kh. Phương pháp ghi nhận tập thể. M. Energoizdat, 2006.

8. Rudakov K.V. Về lý thuyết đại số các ràng buộc phổ biến và cục bộ cho các bài toán phân loại // Nhận biết, phân loại, dự báo. Các phương pháp toán học và ứng dụng của chúng. Phát hành. 1. - M.: Nauka, 2007.

9. Fu K. Các phương pháp cấu trúc trong nhận dạng mẫu. - M.: Mir, 2005.

Được lưu trữ trên Allbest.ru

...

Tài liệu tương tự

    Các khái niệm cơ bản của lý thuyết nhận dạng mẫu và ý nghĩa của nó. Bản chất của lý thuyết toán học về nhận dạng mẫu. Các nhiệm vụ chính phát sinh trong quá trình phát triển hệ thống nhận dạng mẫu. Phân loại hệ thống nhận dạng mẫu thời gian thực.

    hạn giấy, bổ sung 15/01/2014

    Khái niệm và đặc điểm của việc xây dựng thuật toán nhận dạng mẫu. Các cách tiếp cận khác nhau đối với kiểu phương pháp nhận dạng. Việc nghiên cứu các cách chính để biểu diễn tri thức. Đặc điểm của các phương pháp thâm canh và mở rộng, đánh giá chất lượng của chúng.

    trình bày, thêm 01/06/2014

    Cơ sở lý thuyết về nhận dạng mẫu. Sơ đồ chức năng của hệ thống ghi nhận. Ứng dụng của phương pháp Bayes trong giải bài toán nhận dạng mẫu. Phân đoạn hình ảnh Bayes. Mô hình TAN để giải bài toán phân loại ảnh.

    luận án, bổ sung 13/10/2017

    Xem xét các nhiệm vụ phát sinh trong quá trình phát triển hệ thống nhận dạng mẫu. Bộ phân loại hình ảnh có thể huấn luyện. Thuật toán Perceptron và các sửa đổi của nó. Tạo một chương trình được thiết kế để phân loại hình ảnh bằng phương pháp sai số bình phương trung bình nhỏ nhất.

    hạn giấy, bổ sung 04/05/2015

    Các phương pháp nhận dạng mẫu (bộ phân loại): Bayesian, tuyến tính, phương pháp của các hàm tiềm năng. Phát triển một chương trình để nhận biết một người bằng ảnh của anh ta. Ví dụ về công việc của người phân loại, kết quả thực nghiệm về độ chính xác của các phương pháp.

    hạn giấy, bổ sung 15/08/2011

    Tạo công cụ phần mềm thực hiện nhận dạng hình ảnh trực quan dựa trên mạng nơ-ron nhân tạo. Các phương pháp được sử dụng để nhận dạng mẫu. Pandemonium Selfridge. Perceptron Rosenblatt. Quy luật hình thành mã chuỗi.

    luận văn, bổ sung 04/06/2014

    Nhận dạng mẫu là nhiệm vụ xác định một đối tượng hoặc xác định các thuộc tính của nó từ hình ảnh hoặc bản ghi âm của nó. Lịch sử phát triển lý thuyết và kỹ thuật trong lĩnh vực này. Các phương pháp và nguyên tắc sử dụng trong máy tính để ghi nhận.

    tóm tắt, bổ sung 04/10/2010

    Khái niệm về hệ thống nhận dạng mẫu. Phân loại hệ thống nhận dạng. Phát triển một hệ thống nhận dạng hình dạng của các vật thể vi mô. Thuật toán để tạo ra một hệ thống nhận dạng các đối tượng vi mô trên một hình tinh thể, các tính năng của việc triển khai nó trong môi trường phần mềm.

    hạn giấy, bổ sung 21/06/2014

    Lựa chọn kiểu và cấu trúc của mạng nơron. Lựa chọn phương pháp nhận dạng, sơ đồ khối của mạng Hopfield. Đào tạo hệ thống nhận dạng mẫu. Đặc điểm làm việc với chương trình, ưu nhược điểm của nó. Mô tả giao diện người dùng và các biểu mẫu màn hình.

    hạn giấy, bổ sung 14/11/2013

    Sự xuất hiện của các hệ thống kỹ thuật nhận dạng tự động. Con người như một phần tử hoặc liên kết của các hệ thống tự động phức tạp. Khả năng của các thiết bị nhận dạng tự động. Các giai đoạn tạo hệ thống nhận dạng ảnh. Các quy trình đo lường và mã hóa.