저자: 동코인
링크:/question/24976006/answer/29682806
출처: 지평.
저작권은 저자가 소유한다. 상업전재는 저자에게 연락하여 허가해 주십시오. 비상업적 전재는 출처를 명시해 주십시오.
알고리즘 소개의 알고리즘은 본질적으로 정확한 해법이 있는 문제이며, 어떻게 하면 이 해법을 더 효율적으로 얻을 수 있는가. 이러한 효율성은 계산 시간이 더 짧거나 계산 중에 필요한 공간이 더 적을 수 있습니다.
간단한 예는 무질서한 배열을 작은 것부터 큰 것까지 빠르게 재정렬하거나 중간 값을 구하는 방법입니다. 이 문제들은 모두 확실한 답을 가지고 있으며, 일반적으로 비교적 어리석은 방법 (빈궁하거나 순회) 이 있어 점진적으로 해결할 수 있다. 알고리즘이란 단계를 단순화하고 이 솔루션을 더 빠르고 쉽게 찾을 수 있는 방법입니다. 이러한 알고리즘에서 처리하는 데이터도 배열, 다이트리, 그래프와 같은 간단하고 깨끗한 유형입니다. 이러한 알고리즘의 경우 데이터 크기는 계산에 필요한 시간과 공간에 영향을 주며 크기 변화로 인해 알고리즘 자체의 논리와 계산 결과에 영향을 주지 않습니다.
기계 학습이 해결해야 할 문제는 일반적으로 정확하게 풀지 못하며, 빈털터리나 순회를 통해 찾을 수 없다. "학습" 의 속성을 강조해야 합니다. 즉, 알고리즘 자체가 주어진 데이터나 컴퓨팅 환경의 변화에 따라 새로운 법칙을 동적으로 발견하고 알고리즘 프로그램의 논리와 동작을 변경할 수 있기를 바랍니다.
예를 들어, 천 개의 문서를 여러 범주로 나눌 수 있습니다. 가장 간단한 것은 뉴스, 소설, 시 등과 같은 몇 가지 범주를 줄 수 있다. , 알고리즘은 문장 내용에 따라 자동으로 적절한 범주로 나눌 수 있습니다. 여기서 볼 수 있듯이, 사람이 이 문제를 풀더라도 모호하고 불확실한 점이 많다. 예를 들어,' 법제 석간지' 의 범죄 다큐멘터리는 뉴스로 분류해야 합니까, 아니면 소설로 분류해야 합니까? 또는 호머 서사시와 같은 긴 시는 소설이나 시에 속해야 합니까? 기계 학습 알고리즘이 해결해야 할 것은 문장 내용에서 발견된 법칙에 따라 자동으로 구분을 하는 것이다. 그러나 알고리즘마다 서로 다른 솔루션을 제공할 수 있습니다. 이러한 솔루션은 모두 "정확할 수 있습니다." 따라서 일반적으로 판단 기준을 설계하여 어느 것이 좋고 어느 것이 나쁜지를 결정해야 합니다.
또한 알고리즘이 문장 속의 법칙을 발견하도록 할 수 있으며, 유사성이 높은 문장 () 를 함께 나눌 수 있으며, 사전에 범주를 지정할 필요가 없다. 이렇게 하면 알고리즘마다 분류 수가 다를 수 있습니다. 세 개, 네 개, 다섯 개, 모두 "정확한" 분류일 수 있습니다. 심지어' 유사성' 이 무엇인지도 알고리즘에 따라 명사, 동사, 형용사가 나타나는 빈도와 비율, 문장의 문법 구조 등 다양한 해석을 할 수 있다.
더 나아가, 이 알고리즘을 사용하여 새 문서의 범주를 판단할 수도 있습니다. 새 문서를 많이 입력할수록 초기 데이터 세트가 커집니다. 규모가 커지면 원시 데이터에서 분명하지 않은 법칙이 뚜렷해질 수 있다. 예를 들어, 원래 1000 개 문서 중 단 한 편의 의논문만 있었는데, 대부분의 알고리즘은 이를 개별적으로 분류하지 못할 수도 있습니다. 하지만 100 편의 의론을 연속적으로 입력하면, 데이터 속 의논문의 비율은101/1100 이 됩니다. 이때 알고리즘은 의론을 분리해야 한다. 이런 의미에서 데이터 자체가 알고리즘에 미치는 영향은 매우 크며, 이는' 알고리즘 도론' 에서 알고리즘과 본질적인 차이이기도 하다.
기술적으로,' 알고리즘 도론' 의 알고리즘은 데이터 구조와 계산 복잡성에 초점을 맞추고 있으며, 미적분학과 같은 고급 수학 개념은 언급하지 않고 이산 수학의 한 가지에 속한다. 기계 학습의 알고리즘 자체는 확률론, 통계학, 최적화 등 이론과 기술을 바탕으로 한 것으로, 이런 각도에서 더욱' 수학화' 를 느끼게 한다.
구체적인 구현 세부 사항에서 기계 학습 알고리즘은 알고리즘의 도입에 많은 기술을 적용하여 컴퓨팅 효율성을 높입니다. 그러나 강조해야 할 것은 이것이 단지 밑바닥의 구현에 대한 것이며, 둘 다 알고리즘 자체의 논리상 그다지 큰 연관이 없다는 것이다. 즉,' 알고리즘 개론' 의 기술은 기계 학습 알고리즘을 실행하기 위해 더 빠른 프로그램을 작성하는 데 도움이 되지만 기계 학습이 해결하려는 문제에는 도움이 되지 않는다. 이진 트리 해시 테이블의 숙련 된 사용은 그래프 알고리즘의 복잡성을 정확하게 추정하며 여자 친구의 생일에 가장 좋은 선물이 무엇인지 추측하는 데 도움이되지 않을 수도 있습니다 (기계 학습 알고리즘을 사용하는 Taobao 군은 아마 알고 있습니다! ) 을 참조하십시오. 그러니 빌딩 블록과 구성요소로 취급하지 마세요.
마지막으로, 위의 설명이 여전히 당신을 곤혹스럽게 한다면, 또 하나의 더 통속적인 해석이 있습니다. 알고리즘의 도입은 계산 방법을 가르쳐 주는 것입니다. 기계 학습은 기본적으로 점성점술과 같습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 기계명언) 하나는 매우 기계적이고, 하나는 사기에 의지한다. 아마 이렇게 될 겁니다.
자세한 분석은 링크: /question/24976006 을 참조하십시오.