프로세서가 GPU보다 인코딩에 “ 더 나은 ” 이유는 무엇입니까?

Question

기사 를 읽고 있었는데 CPU가 비디오 압축에 더 좋다는 것을 알았습니다. GPU보다.

이 기사에서는 프로세서가 GPU보다 복잡한 알고리즘을 처리 할 수 있기 때문에 이런 일이 발생한다고 말합니다.하지만 좀 더 기술적 인 설명을 원하고 인터넷에서 검색을 몇 번 해봤지만 그렇지 않았습니다. 무엇이든 찾을 수 있습니다.

자, 사이트를 설명하거나 링크하는 것을 아는 사람이 더 자세한 설명을 받았습니까?

Answer 1

링크 한 기사가 그다지 좋지 않습니다.

일반적으로 단일 패스 비트 레이트 인코딩은 비트 레이트를 RF 값으로 변환합니다. 최대 비트 전송률 제한을 가져옵니다.

x264 “의 1 회 통과 ABR 속도 제어는 CRF + 제한으로 구현되지 않습니다. 그는 2 패스가 맞습니다. 하지만 목표 비트 전송률을 달성하는 가장 좋은 방법입니다.

그리고 그는 분명히 그가 x264를 쓰레드 = 3 등으로 시작할 수 있다는 것을 깨닫지 못했습니다. 다른 작업을 위해 약간의 CPU 시간을 남겨 두십시오. 또는 x264 “의 우선 순위를 매우 낮음으로 설정하여 다른 작업이 원하지 않는 CPU 시간 만 얻습니다.

또한 그는 스레드 = 1을 CUDA 또는 기타 사용과 혼합합니다. 질문이있는 것은 당연합니다. 기사에 끔찍한 설명이 있습니다. 전체 기사는 기본적으로 x264 --preset veryslow --tune film --crf 26 in.m2ts --out out.mkv를 사용하거나 입력 AviSynth 스크립트와 함께 일부 라이트 필터링을 사용하는 것으로 요약됩니다. 그는 실제로 플라시보 “. 그거 웃기 네요. 위약으로 인코딩 된 불법 복제 파일을 본 적이 없습니다. (iv id = “대신 me=esa 또는 me=tesa에서 알 수 있습니다. aecffbf258 “>

Answer 2

2017 업데이트 :

Answer 3

Peter가 말한 내용에 대해 좀 더 자세히 설명하려면 일반적으로 여러 개의 프로세서를 사용하면 여러 개의 독립적 인 작업이있는 경우에 도움이됩니다. 수행해야하지만 서로에 대한 종속성이 없거나 방대한 양의 데이터에 대해 동일한 수학을 수행하는 하나의 작업입니다.

그러나 계산 A의 출력이 필요한 경우 계산 B의 입력으로, 계산 B의 출력을 계산 C의 입력으로 사용하면 각 작업 (A, B 또는 C)에 대해 서로 다른 핵심 작업을 수행하여 속도를 높일 수 없습니다. 다른 작업이 끝날 때까지 시작합니다.

그러나 위의 경우에도 o 다른 방법으로 병렬화하십시오. 입력 데이터를 청크로 분할 할 수있는 경우 A, B, C를 한 데이터 청크로 수행하고 다른 코어는 A, B, C를 다른 데이터 청크에서 수행하는 데 하나의 코어 작업을 수행 할 수 있습니다. .

다른 고려 사항도 있습니다. 계산을 병렬화하는 방법을 찾을 수 있지만 디스크 또는 네트워크를 통해 데이터를 읽거나 GPU로 전송하는 것은 계산을 수행하는 것보다 더 오래 걸립니다. 이 경우 데이터를 메모리로 가져 오는 것만으로도 계산을 병렬로 수행하여 절약하는 시간보다 오래 걸리기 때문에 병렬화하는 것은 의미가 없습니다.

즉, 예술만큼이나 과학입니다.

예, x264는 멀티 코어 CPU에서 매우 잘 병렬화됩니다. 저는 거의 선형 적으로 최소 8 개 코어까지 확장하고 32 개를 넘어도 괜찮습니다. 모션 추정은 병렬로 수행 할 수 있으며 다른 스레드에 대해 반드시 직렬 작업 만 남겨두고 유사한 트릭을 남깁니다.
질문은 다음과 같습니다. ‘ 일반적으로 병렬 처리가 아니라 ‘ 특히 GPU입니다. ‘ 실행할 수있는 코드는 CPU보다 훨씬 더 제한적입니다. 이미지의 다른 블록에서 다른 방식으로 이동하는 브랜치가있는 코드를 ‘ 할 수 없기 때문에 ‘라고 생각합니다. 나는 ‘ 이유를 정확히 이해하지 못하지만 ‘ 그런 것 같습니다. 각 스트림 프로세서는 매우 간단하고 다른 것과 독립적으로 실행되도록하는 제한된 수단으로 인해 가장 느린 프로세서가 완료 될 때까지 항상 기다려야하거나 분기에 제한이 있거나 둘 다입니다.
컴퓨터 클러스터 (메모리 대역폭 및 CPU 캐시에 대해 서로 경쟁하지 않는 ‘ 독립 RAM이있는 CPU)가있는 경우 ‘ d는 입력 비디오를 GOP로 나누고 여전히 압축 된 입력 비디오의 섹션을 전송하여 클러스터의 다른 시스템에서 디코딩 및 압축합니다.따라서 압축 된 입력 또는 출력 비디오 만 전송하면됩니다. 멀티 소켓 x86 워크 스테이션과 같은 멀티 코어 공유 캐시 / RAM 시스템에서는 여러 스레드가 한 번에 동일한 프레임에서 작동합니다. (또한 인코딩 세그먼트 화를위한 글로벌 속도 제어를 수행하기 위해 ‘ 새 코드가 필요하지 않음을 의미합니다.)

프로세서가 GPU보다 인코딩에 “ 더 나은 ” 이유는 무엇입니까?

답변

실제 질문에 답하려면 :

답변

댓글

답변

댓글

답글 남기기 답글 취소하기